How Google taught AI to doubt itself

구글이 인공지능에게 스스로를 의심하도록 가르친 방법

Surprise surprise: Bard tries to Google everything.

깜짝 놀람: 바드는 모든 것을 구글에 검색하려고 합니다.

요약 :)

더보기→

출처.
Casey Newton. (2023.09.20). The Verge. How Google taught AI to doubt itself. 2023.09.25. https://www.theverge.com/23881954/google-bard-ai-fact-checking

목록으로

오늘은 ChatGPT에 대한 Google의 답변인 Bard의 발전과 이것이 오늘날 챗봇의 가장 시급한 문제 중 하나인 꾸며내는 경향을 어떻게 해결하는지에 대해 이야기해 보겠습니다. 작년에 챗봇이 등장한 날부터 제작자들은 우리에게 챗봇을 믿지 말라고 경고했습니다. ChatGPT와 같은 도구로 생성된 텍스트는 확립된 사실의 데이터베이스를 활용하지 않습니다. 대신, 챗봇은 예측적입니다. 기본 언어 모델이 훈련된 방대한 텍스트 모음을 기반으로 어떤 단어가 옳아 보이는지에 대한 확률론적 추측을 합니다. 결과적으로, 업계 용어를 사용하면 챗봇은 "확실히 잘못된" 경우가 많습니다. 그리고 이는 올해 ChatGPT에서 생성된 인용문을 제출한 변호사 의 사례에서 보았듯이 고등 교육을 받은 사람들조차 속일 수 있습니다. 모든 사례가 완전히 조작되었다는 사실을 깨닫지 못한 것입니다. 이러한 상황은 내가 챗봇이 연구 보조자로서 대부분 쓸모없다고 생각하는 이유를 설명합니다. 그들은 당신이 원하는 것을 몇 초 안에 말해 주지만 대부분의 경우 그들의 작업을 언급하지 않습니다. 결과적으로 답변이 사실인지 확인하기 위해 답변을 조사하는 데 많은 시간을 소비하게 되며 종종 답변을 사용하려는 목적을 전혀 달성하지 못하게 됩니다. "Bard의 응답을 다시 확인하세요. 이 버튼은 Google 검색을 사용하여 유사하거나 다를 가능성이 있는 콘텐츠를 찾음으로써 Bard의 응답을 평가하는 데 도움이 됩니다."라는 팝업이 있는 Bard 답변입니다. 자세한 내용을 보려면 Bard의 답변에서 강조 표시된 진술을 클릭하세요.” Google은 Bard의 응답을 확인하는 새로운 기능을 강조합니다. 스크린샷: 더 버지(The Verge) 올해 초 Google Bard가 출시되었을 때 귀하의 검색어를 회사의 검색 엔진에 제출하는 "Google It" 버튼이 함께 제공되었습니다. 이로 인해 챗봇의 결과에 대한 2차 의견을 얻는 것이 약간 더 빨라졌지만, 무엇이 진실이고 거짓인지를 정면으로 판단해야 하는 부담은 여전히 여러분에게 있습니다. 하지만 이번 주부터 Bard가 당신을 대신해 좀 더 많은 일을 해줄 것입니다. 챗봇이 귀하의 질문 중 하나에 응답한 후 Google 버튼을 누르면 귀하의 응답을 "다시 확인"합니다. 회사가 블로그 게시물에서 설명하는 방법은 다음과 같습니다 . "G" 아이콘을 클릭하면 Bard가 응답을 읽고 이를 입증할 콘텐츠가 웹 전체에 있는지 평가합니다. 진술을 평가할 수 있으면 강조표시된 문구를 클릭하고 검색에서 찾은 뒷받침하거나 모순되는 정보에 대해 자세히 알아볼 수 있습니다. 쿼리를 다시 확인하면 응답 내의 많은 문장이 녹색 또는 갈색으로 변합니다. 녹색으로 강조 표시된 응답은 인용된 웹 페이지에 연결되어 있습니다. 하나 위에 마우스를 올리면 Bard가 정보의 출처를 보여줍니다. 갈색으로 강조 표시된 응답은 Bard가 정보의 출처를 알지 못하여 실수 가능성이 있음을 나타냅니다. 예를 들어, 밴드 라디오헤드(Radiohead)의 역사에 관한 내 질문에 대한 Bard의 답변을 다시 확인했을 때 내 지식과 일치하는 녹색으로 강조 표시된 문장이 많이 나왔습니다. 하지만 이 문장은 또한 "그들은 6개의 그래미 상과 9개의 브릿 상을 포함하여 수많은 상을 받았습니다."라는 문장을 갈색으로 바꾸었습니다. 단어 위로 마우스를 가져가면 Google 검색에서 모순된 정보가 표시되었음을 알 수 있습니다. 실제로 라디오헤드는 (범죄적으로) 브릿 어워드를 단 한 번도 수상한 적이 없으며, 그 중 9개는 더욱 적습니다. Google의 제품 담당 수석 이사인 Jack Krawczyk는 지난주 인터뷰에서 “내 인생에서 일어난 비극에 대해 이야기하겠습니다.”라고 말했습니다. 크라우치크가 집에서 황새치를 요리했는데 그 냄새가 집 전체에 퍼지는 것 같았습니다. 그는 Bard를 사용하여 이를 제거하는 방법을 찾은 다음 결과를 다시 확인하여 사실과 허구를 분리했습니다. 챗봇이 원래 언급한 것처럼 주방을 철저히 청소해도 문제가 해결되지 않는 것으로 나타났습니다. 하지만 집 주변에 베이킹 소다 그릇을 놓으면 도움이 될 수 있습니다. Google 이 답변을 보여주기 전에 왜 다시 확인하지 않는지 궁금하신가요? 저도 그랬습니다. Krawczyk는 사람들이 Bard를 사용하는 방식이 매우 다양하기 때문에 다시 확인하는 것이 불필요한 경우가 많다고 말했습니다. (일반적으로 자신이 쓴 시나 초안을 작성한 이메일 등을 다시 확인하도록 요청하지 않습니다.) 열대우림 강수량에 대한 음유시인의 답변. 두 줄은 녹색으로 덮여 있고 두 줄은 갈색으로 덮여 있습니다. 하나는 전혀 강조 표시되지 않습니다. Google 검색으로 백업할 수 있는 줄(녹색)과 백업할 수 없는 줄(갈색)을 보여주는 Bard 응답입니다. 스크린샷: 더 버지(The Verge) 다시 확인하는 것은 분명한 진전을 의미하지만 여전히 모든 인용을 찾아 Bard가 해당 검색 결과를 올바르게 해석하고 있는지 확인해야 하는 경우가 많습니다. 적어도 연구에 있어서는 인간이 여전히 AI의 손을 잡고 있는 것처럼 우리도 AI의 손을 잡고 있습니다. 그래도 환영할 만한 발전이네요. Krawczyk은 “우리는 실수를 인정하는 최초의 언어 모델을 만들었을 것입니다.”라고 말했습니다. 그리고 이러한 모델이 개선됨에 따라 발생하는 위험을 고려할 때 AI 모델이 자신의 실수를 정확하게 고백하도록 보장하는 것이 업계의 최우선 순위가 되어야 합니다. Bard는 화요일에 또 다른 대규모 업데이트를 받았습니다. 이제 Gmail, 문서, 드라이브 및 YouTube와 지도를 포함한 기타 Google 제품에 연결할 수 있습니다. 확장 프로그램을 사용하면 Google 계정에 저장한 문서를 실시간으로 검색, 요약하고 질문할 수 있습니다. 현재로서는 개인 계정으로 제한되어 있어 적어도 나에게는 그 유용성이 극적으로 제한됩니다. 때로는 웹을 탐색하는 대체 방법으로 흥미로울 때도 있습니다. 예를 들어 인테리어 디자인을 시작하는 방법에 대한 좋은 비디오를 보여달라고 요청했을 때 좋은 결과를 얻었습니다. (Bard 답변 창에서 해당 비디오를 인라인으로 재생할 수 있다는 사실은 좋은 터치입니다.) 그러나 확장 기능 역시 잘못된 부분이 많으므로 결과를 개선하기 위해 여기에서 누를 버튼이 없습니다. Bard에게 Gmail에서 20년 동안 메시지를 주고받은 친구와의 가장 오래된 이메일을 찾아달라고 요청했을 때 Bard는 2021년에 보낸 메시지를 보여주었습니다. 받은 편지함에서 빠른 응답이 필요한 메시지가 무엇인지 물었을 때, Bard는 "HP Instant Ink를 사용하면 문제 없이 인쇄할 수 있습니다."라는 제목으로 스팸을 제안했습니다. Google이 돈을 벌 수 있는 시나리오에서는 더 좋습니다. 항공편 및 호텔 정보를 포함하여 일본 여행 일정을 계획하도록 요청하면 Google이 구매 비용을 일부 감당할 수 있는 다양한 선택 항목을 선택해 줍니다. 결국 이전에 ChatGPT에 있었던 것처럼 타사 확장 기능도 Bard에 제공될 것이라고 생각합니다 . (저쪽에서는 플러그인이라고 합니다.) 대화형 인터페이스를 통해 웹에서 작업을 수행할 수 있다는 가능성은 엄청납니다. 비록 현재의 경험이 그저 그렇습니다. 장기적으로 문제는 AI가 궁극적으로 자신의 작업을 얼마나 잘 확인할 수 있느냐는 것입니다. 오늘날 올바른 답변을 향해 챗봇을 조종하는 작업은 여전히 프롬프트를 입력하는 사람에게 큰 부담이 됩니다. 지금 이 순간에는 AI가 자신의 작업을 인용하도록 유도하는 도구가 절실히 필요합니다. 하지만 결국에는 더 많은 작업이 도구 자체에 맡겨지기를 바라고 있습니다. 그리고 우리가 항상 요청하지 않아도 됩니다.