The text file that runs the internet

인터넷을 실행하는 텍스트 파일

As unscrupulous AI companies crawl for more and more data, the basic social contract of the web is falling apart.

파렴치한 AI 기업들이 점점 더 많은 데이터를 위해 기어가면서 웹의 기본적인 사회계약이 무너지고 있다.

요약 :)

더보기→

출처.
David Pierce. (2024.02.14). The Verge. The text file that runs the internet. 2024.02.20. https://www.theverge.com/24067997/robots-txt-ai-text-file-web-crawlers-spiders

목록으로

30년 동안 작은 텍스트 파일 하나가 인터넷을 혼란으로부터 지켜왔습니다. 이 텍스트 파일에는 특별한 법적, 기술적 권한이 없으며, 특별히 복잡하지도 않습니다. 이는 서로의 바람을 존중하고 모든 사람에게 이익이 되는 방식으로 인터넷을 구축하기 위해 인터넷의 초기 개척자들 사이의 악수 계약을 나타냅니다. 이는 코드로 작성된 인터넷의 작은 헌법입니다. robots.txt라고 하며 일반적으로 yourwebsite.com/robots.txt에 있습니다. 이 파일을 사용하면 크든 작든, 요리 블로그나 다국적 기업 등 웹사이트를 운영하는 사람이라면 누구나 웹사이트에 누가 들어가고 누가 들어오지 못하게 할 수 있습니다. 귀하의 사이트를 색인화할 수 있는 검색 엔진은 무엇입니까? 어떤 아카이브 프로젝트가 페이지 버전을 가져와 저장할 수 있나요? 경쟁업체가 귀하의 페이지에서 자신의 파일을 감시할 수 있습니까? 당신은 그것을 결정하고 웹에 선언할 수 있습니다. 완벽한 시스템은 아니지만 작동합니다. 어쨌든 예전에는 그랬어요. 수십 년 동안 robots.txt의 주요 초점은 검색 엔진이었습니다. 당신은 그들이 당신의 사이트를 긁도록 하고 그 대가로 사람들을 당신에게 다시 보내겠다고 약속할 것입니다. 이제 AI는 방정식을 바꾸었습니다. 웹상의 회사는 귀하의 존재를 전혀 인식하지 못할 수 있는 모델과 제품을 구축하기 위해 귀하의 사이트와 해당 데이터를 사용하여 대규모 교육 데이터 세트를 구축하고 있습니다. robots.txt 파일은 주고받기를 관리합니다. AI는 많은 사람들에게 모든 것을 취하고 포기하지 않는 것처럼 느낍니다. 그러나 이제 AI에는 너무 많은 돈이 있고, 최신 기술 상태가 너무 빨리 변하고 있어서 많은 사이트 소유자가 따라잡을 수 없습니다. 그리고 robots.txt와 웹 전체에 대한 근본적인 합의(오랫동안 "모두가 쿨해지세요")도 따라잡지 못할 수도 있습니다. 인터넷 초기에 로봇은 스파이더, 크롤러, 웜, WebAnt, 웹 크롤러 등 다양한 이름으로 불렸습니다. 대부분의 경우 좋은 의도로 만들어졌습니다. 일반적으로 멋진 새 웹사이트의 디렉토리를 구축하거나, 자신의 사이트가 제대로 작동하는지 확인하거나, 연구 데이터베이스를 구축하려는 개발자였습니다. 이는 검색 엔진이 어디에나 있기 훨씬 전인 1993년쯤, 그리고 여러분이 이를 수용할 수 있었던 시대였습니다. 컴퓨터 하드 드라이브에 있는 대부분의 인터넷. 유일한 실제 문제는 트래픽이었습니다. 웹 사이트를 보는 사람과 웹 사이트를 호스팅하는 사람 모두에게 인터넷 액세스가 느리고 비용이 많이 들었습니다. 많은 사람들이 그랬듯이 귀하의 웹 사이트를 컴퓨터에서 호스팅하거나 가정용 인터넷 연결을 통해 급하게 구축된 서버 소프트웨어에서 호스팅하는 경우, 몇 대의 로봇이 페이지를 과도하게 다운로드하여 문제를 일으키고 전화 요금이 급증하는 것이 전부였습니다. 1994년 몇 달에 걸쳐 Martijn Koster라는 소프트웨어 엔지니어이자 개발자는 다른 웹 관리자 및 개발자 그룹과 함께 로봇 배제 프로토콜이라는 솔루션을 고안했습니다. 제안은 매우 간단했습니다. 웹 개발자에게 사이트를 검색할 수 없는 로봇을 지정하거나 모든 로봇이 접근할 수 없는 페이지를 나열하는 일반 텍스트 파일을 도메인에 추가하도록 요청했습니다. (이때도 존재하는 모든 단일 로봇의 목록을 유지할 수 있었던 시기였습니다. Koster와 다른 몇몇 사람들이 이를 수행했습니다.) 로봇 제조업체의 경우 거래는 훨씬 더 간단했습니다. 텍스트 파일의 요구 사항을 존중하는 것입니다. 처음부터 Koster는 자신이 로봇을 싫어하지도 않고 로봇을 제거할 생각도 없음을 분명히 했습니다. "로봇은 운영상의 문제를 일으키고 사람들에게 슬픔을 안겨주는 웹의 몇 안 되는 측면 중 하나입니다."라고 그는 WWW-Talk(Tim Berners-Lee 및 Marc Andreessen과 같은 초기 인터넷 선구자들이 포함된)라는 메일링 리스트에 보낸 초기 이메일에서 말했습니다. ) 1994년 초. "동시에 그들은 유용한 서비스를 제공합니다." Koster는 로봇이 좋은지 나쁜지에 대해 논쟁하지 말라고 경고했습니다. 왜냐하면 로봇은 여기 있고 사라지지 않기 때문입니다. 그는 단순히 "문제를 최소화하고 이점을 최대화할 수 있는" 시스템을 설계하려고 했습니다. “로봇은 운영상의 문제를 일으키고 사람들에게 슬픔을 안겨주는 웹의 몇 안 되는 측면 중 하나입니다. 동시에 유용한 서비스도 제공하고 있습니다.” 그해 여름까지 그의 제안은 표준이 되었습니다. 공식적인 제안은 아니었지만 어느 정도 보편적으로 받아들여진 제안이었습니다. Koster는 6월에 업데이트를 통해 WWW-Talk 그룹에 다시 핑을 보냈습니다. “간단히 말하면 서버에 간단한 텍스트 파일을 제공하여 웹 서버 URL 공간의 특정 영역에서 로봇을 안내하는 방법입니다.”라고 그는 썼습니다. "이것은 대규모 아카이브, 대규모 URL 하위 트리가 포함된 CGI 스크립트, 임시 정보가 있거나 단순히 로봇을 제공하고 싶지 않은 경우 특히 유용합니다." 그는 주제별 메일링 리스트를 설정했는데, 회원들은 해당 텍스트 파일의 몇 가지 기본 구문과 구조에 동의하고 파일 이름을 RobotsNotWanted.txt에서 간단한 robots.txt로 변경했으며 거의 모든 사람들이 지원하기로 동의했습니다. 그것. 그리고 그 후 30년 동안 그것은 꽤 잘 작동했습니다. 그러나 인터넷은 더 이상 하드 드라이브에 적합하지 않으며 로봇은 훨씬 더 강력합니다. Google은 검색 엔진을 위해 이를 사용하여 웹 전체를 크롤링하고 색인화합니다. 검색 엔진은 웹 인터페이스가 되었으며 회사에 연간 수십억 달러를 벌어들이고 있습니다. Bing의 크롤러도 동일한 작업을 수행하며 Microsoft는 데이터베이스 라이선스를 다른 검색 엔진 및 회사에 부여합니다. 인터넷 아카이브는 크롤러를 사용하여 후손을 위해 웹페이지를 저장합니다. Amazon의 크롤러는 제품 정보를 찾기 위해 웹을 샅샅이 뒤지고 있으며 최근 독점 금지 소송에 따르면 회사는 해당 정보를 사용하여 Amazon에서 더 나은 거래를 제안하는 판매자를 처벌합니다. OpenAI와 같은 AI 회사는 우리가 정보에 액세스하고 공유하는 방식을 다시 한 번 근본적으로 바꿀 수 있는 대규모 언어 모델을 훈련하기 위해 웹을 크롤링하고 있습니다. 최신 인터넷을 다운로드하고, 저장하고, 구성하고, 쿼리할 수 있는 능력은 모든 회사나 개발자에게 전 세계에서 축적된 지식과 같은 작업을 제공합니다. 지난 몇 년 동안 ChatGPT와 같은 AI 제품과 그 기반이 되는 대규모 언어 모델이 등장하면서 고품질 교육 데이터가 인터넷의 가장 가치 있는 상품 중 하나로 자리 잡았습니다. 이로 인해 모든 종류의 인터넷 제공업체는 서버에 있는 데이터의 가치를 재고하고 누가 무엇에 액세스할 수 있는지 다시 생각하게 되었습니다. 너무 관대하면 웹사이트의 가치가 모두 소진될 수 있습니다. 너무 제한하면 눈에 띄지 않게 될 수 있습니다. 그리고 항상 새로운 회사, 새로운 파트너, 새로운 지분과 함께 계속해서 선택을 해야 합니다. 인터넷 로봇에는 몇 가지 종류가 있습니다. 크롤링할 수 있는 완전히 무해한 페이지를 구축하고 페이지의 모든 링크가 여전히 다른 라이브 페이지로 연결되는지 확인할 수 있습니다. 찾을 수 있는 모든 이메일 주소나 전화번호를 수집하여 웹에서 훨씬 더 개략적인 정보를 보낼 수도 있습니다. 그러나 가장 일반적이고 현재 논란이 되고 있는 것은 단순한 웹 크롤러입니다. 그 임무는 가능한 한 많은 인터넷을 찾아 다운로드하는 것입니다. 웹 크롤러는 일반적으로 매우 간단합니다. cnn.com, wikipedia.org 또는 health.gov와 같은 잘 알려진 웹사이트에서 시작합니다. (일반 검색 엔진을 운영하고 있다면 다양한 주제에 걸쳐 수많은 고품질 도메인으로 시작하게 될 것입니다. 관심이 스포츠나 자동차뿐이라면 자동차 사이트부터 시작하게 될 것입니다.) 크롤러는 이를 다운로드합니다. 첫 번째 페이지를 어딘가에 저장한 다음 해당 페이지의 모든 링크를 자동으로 클릭하고 모든 링크를 다운로드한 다음 모든 링크를 클릭하고 그런 식으로 웹 전체에 퍼집니다. 충분한 시간과 충분한 컴퓨팅 리소스가 있으면 크롤러는 결국 수십억 개의 웹페이지를 찾아 다운로드하게 됩니다. 균형은 매우 간단합니다. Google이 페이지를 크롤링할 수 있으면 페이지를 색인화하고 검색결과에 표시할 수 있습니다. Google은 2019년에 5억 개 이상의 웹사이트에 이러한 크롤러의 액세스 허용 여부와 액세스 허용 여부를 결정하는 robots.txt 페이지가 있는 것으로 추정했습니다. 해당 페이지의 구조는 일반적으로 거의 동일합니다. 크롤러가 서버에서 자신을 식별할 때 사용하는 이름을 나타내는 "User-agent"라는 이름이 지정됩니다. Google의 에이전트는 Googlebot입니다. Amazon은 Amazonbot입니다. Bing은 Bingbot입니다. OpenAI는 GPTBot입니다. Pinterest, LinkedIn, Twitter 및 기타 여러 사이트와 서비스에는 자체 봇이 있지만 모든 페이지에서 모든 봇이 언급되는 것은 아닙니다. ( Wikipedia 와 Facebook은 특히 철저한 로봇 계정을 갖춘 두 가지 플랫폼입니다.) 그 아래의 robots.txt 페이지에는 허용되는 특정 예외와 함께 특정 에이전트가 액세스할 수 없는 사이트의 섹션 또는 페이지가 나열되어 있습니다. 행에 "Disallow: /"라고만 표시되면 크롤러는 전혀 환영받지 못합니다. "서버 과부하"가 대부분의 사람들에게 진정한 관심사가 된 지 꽤 오래되었습니다. Google의 검색 옹호자인 John Mueller는 "요즘에는 일반적으로 웹사이트에서 사용되는 리소스보다는 개인 취향이 더 중요합니다."라고 말합니다. "무엇을 크롤링하고 색인화하고 싶나요?" 역사적으로 대부분의 웹사이트 소유자가 대답해야 했던 가장 큰 질문은 Googlebot이 사이트를 크롤링하도록 허용할지 여부였습니다. 균형은 매우 간단합니다. Google이 페이지를 크롤링할 수 있으면 페이지를 색인화하고 검색결과에 표시할 수 있습니다. Google이 사용하려는 모든 페이지는 Googlebot이 볼 수 있어야 합니다. (Google이 실제로 검색 결과에 해당 페이지를 표시하는 방법과 위치는 물론 완전히 다른 이야기입니다.) 문제는 Google이 귀하의 대역폭을 일부 차지하고 사이트의 가시성을 대가로 사이트 사본을 다운로드하도록 할 의향이 있는지 여부입니다. 검색과 함께 제공됩니다. 대부분의 웹사이트에서 이는 쉬운 거래였습니다. Medium CEO Tony Stubblebine은 "Google은 우리의 가장 중요한 거미입니다."라고 말합니다. Google은 Medium의 모든 페이지를 다운로드하게 되며 그 대가로 상당한 양의 트래픽을 얻습니다. 그것은 윈윈(win-win)이다. 다들 그렇게 생각해요.” 이는 검색 결과에 따라 광고를 판매하는 동시에 다른 웹사이트로 트래픽을 유도하기 위해 Google이 인터넷 전체와 체결한 거래입니다. 그리고 Google은 모든 면에서 robots.txt의 좋은 시민이었습니다. Google의 Mueller는 “거의 모든 유명 검색 엔진이 이를 준수합니다.”라고 말합니다. "그들은 웹을 크롤링할 수 있어서 기뻐하지만 웹으로 인해 사람들을 괴롭히고 싶지는 않습니다. 단지 모든 사람의 삶이 더 편해질 뿐입니다." 하지만 작년쯤 AI의 등장으로 이러한 방정식이 뒤집혔습니다. 많은 게시자와 플랫폼의 경우 교육 데이터를 위해 데이터를 크롤링하는 것은 거래라기보다는 도용처럼 느껴졌습니다. Stubblebine은 “우리가 AI 회사에서 꽤 빨리 발견한 것은 그것이 가치 교환이 아닐 뿐만 아니라 우리가 아무런 대가도 얻지 못한다는 것입니다. 말 그대로 0입니다.” Stubblebine이 지난 가을 Medium이 AI 크롤러를 차단할 것이라고 발표했을 때 그는 "AI 회사가 인터넷 독자에게 스팸을 보내기 위해 작가로부터 가치를 빼앗았습니다"라고 썼습니다. 지난 한 해 동안 미디어 산업의 상당 부분이 Stubblebine의 생각에 동조했습니다. "우리는 Gen AI 모델을 훈련하기 위해 현재 허가 없이 BBC 데이터를 '스크래핑'하는 것이 공익에 부합한다고 믿지 않습니다." BBC 국가 책임자인 로드리 탈판 데이비스(Rhodri Talfan Davies)는 지난 가을에 BBC가 OpenAI의 데이터도 차단할 것이라고 발표하면서 썼습니다. 무한 궤도. New York Times는 OpenAI의 모델이 “ The Times 의 저작권이 있는 수백만 건의 뉴스 기사, 심층 조사, 의견, 리뷰, 방법을 복사하고 사용하여 구축되었다고 주장하는 OpenAI에 대한 소송을 시작하기 몇 달 전에 GPTBot도 차단했습니다. 가이드 등.” Reuters 의 뉴스 애플리케이션 편집자 인 Ben Welsh의 연구에 따르면 조사 대상 게시자 1,156명 중 606명이 robots.txt 파일에서 GPTBot을 차단한 것으로 나타났습니다. 출판사뿐만이 아닙니다. Amazon, Facebook, Pinterest, WikiHow, WebMD 및 기타 많은 플랫폼은 GPTBot가 해당 웹사이트의 일부 또는 전체에 액세스하는 것을 명시적으로 차단합니다. 대부분의 robots.txt 페이지에서 OpenAI의 GPTBot은 명시적이고 완전히 허용되지 않는 유일한 크롤러입니다. 그러나 Anthropic의 anthropic-ai 및 Google의 새로운 Google-Extended와 같이 웹을 크롤링하기 시작하는 다른 AI 관련 봇이 많이 있습니다. 지난 가을 Originality.AI의 연구에 따르면 웹의 상위 1,000개 사이트 중 306개가 GPTBot를 차단했지만 Google-Extended는 85개, Anthropic-ai는 28개만 차단했습니다. 웹 검색과 AI 모두에 사용되는 크롤러도 있습니다. Common Crawl 조직에서 운영하는 CCBot은 검색 엔진 목적으로 웹을 샅샅이 뒤지지만, 해당 데이터는 OpenAI, Google 및 기타 업체에서도 모델을 교육하는 데 사용됩니다. Microsoft의 Bingbot은 검색 크롤러이자 AI 크롤러입니다. 그리고 이들은 자신을 식별하는 크롤러일 뿐입니다. 많은 다른 사람들은 상대적인 비밀로 작동하려고 시도하므로 다른 웹 트래픽의 바다에서 이를 중지하거나 찾는 것이 어렵습니다. 충분히 인기 있는 웹사이트에서 교활한 크롤러를 찾는 것은 아주 어려운 일입니다. OpenAI가 이를 허용했기 때문에 GPTBot는 robots.txt의 주요 악당이 되었습니다. 이 회사는 GPTBot를 차단하는 방법에 대한 페이지를 게시하고 홍보했으며, 웹 사이트에 접근할 때마다 자신을 큰 소리로 식별하는 크롤러를 구축했습니다. 물론, 이 모든 것은 이를 매우 강력하게 만든 기본 모델을 훈련한 후에 그리고 기술 생태계의 중요한 부분이 된 후에야 이루어졌습니다. 그러나 OpenAI의 최고 전략 책임자인 제이슨 권(Jason Kwon)은 그것이 바로 그 점이라고 말합니다. “우리는 생태계의 플레이어입니다.”라고 그는 말합니다. “개방적인 방식으로 이 생태계에 참여하고 싶다면 이것이 모두가 관심을 갖는 상호 거래입니다.” 이러한 거래가 없으면 웹이 축소되고 폐쇄되기 시작하며 이는 OpenAI와 모든 사람에게 좋지 않다고 그는 말합니다. "우리는 웹이 개방된 상태를 유지할 수 있도록 이 모든 작업을 수행합니다." 기본적으로 로봇 제외 프로토콜은 항상 허용되었습니다. 30년 전 Koster가 그랬던 것처럼 대부분의 로봇은 훌륭하고 좋은 사람들에 의해 만들어졌기 때문에 기본적으로 이를 허용한다고 믿습니다. 그것은 대체로 옳은 결정이었습니다. OpenAI의 Kwon은 "인터넷은 근본적으로 사회적 창조물이라고 생각합니다"라고 OpenAI의 Kwon은 말합니다. "그리고 수십 년 동안 지속된 이 악수는 효과가 있었던 것 같습니다." 그 합의를 유지하는 OpenAI의 역할에는 대부분의 사용자에게 ChatGPT를 무료로 유지하여 해당 가치를 다시 제공하고 로봇의 규칙을 존중하는 것이 포함된다고 그는 말합니다. 그러나 robots.txt는 법적 문서가 아니며 생성된 지 30년이 지난 지금도 여전히 관련된 모든 당사자의 선의에 의존하고 있습니다. 그러나 robots.txt는 법적 문서가 아니며 생성된 지 30년이 지난 지금도 여전히 관련된 모든 당사자의 선의에 의존하고 있습니다. robots.txt 페이지에서 봇을 허용하지 않는 것은 나무 위의 집에 "여자 출입 금지" 표지판을 게시하는 것과 같습니다. 메시지를 보내지만 법정에 서지는 않습니다. robots.txt를 무시하려는 모든 크롤러는 영향에 대한 두려움 없이 간단히 무시할 수 있습니다. (일반적으로 웹 스크래핑에 관한 법적 선례가 있지만 그것도 복잡할 수 있으며 대부분 크롤링 및 스크래핑이 허용됩니다.) 예를 들어 인터넷 아카이브(Internet Archive)는 2017년에 웹 스크래핑에 대한 규칙을 더 이상 준수하지 않는다고 간단히 발표했습니다. robots.txt. Internet Archive의 Wayback Machine 이사인 Mark Graham은 "시간이 지남에 따라 검색 엔진 크롤러에 맞춰진 robots.txt 파일이 반드시 우리의 보관 목적에 부합하지 않는다는 것을 확인했습니다."라고 썼습니다 . 그게 바로 그것이었습니다. AI 회사가 계속 증가하고 크롤러가 더욱 비양심적으로 변하면서 AI 인수를 기다리거나 기다리려는 사람은 두더지 잡기 게임을 끝없이 수행해야 합니다. 가능하다면 각 로봇과 크롤러를 개별적으로 중지해야 하며 부작용도 고려해야 합니다. Google과 다른 사람들이 예측한 것처럼 AI가 실제로 검색의 미래라면 AI 크롤러를 차단하는 것은 단기적인 승리일 수 있지만 장기적으로는 재앙이 될 수 있습니다. 양쪽에는 크롤러 관리를 위해 더 우수하고 강력하며 엄격한 도구가 필요하다고 믿는 사람들이 있습니다. 그들은 모든 사람이 옳은 일을 하기로 동의하기에는 위험에 처한 돈이 너무 많고, 새롭고 규제되지 않은 사용 사례가 너무 많다고 주장합니다. 기술에 초점을 맞춘 두 명의 변호사는 2019년 웹 크롤러의 합법성에 관한 논문 에서 "많은 행위자가 크롤러 사용을 자체적으로 관리하는 몇 가지 규칙을 갖고 있지만 , 전체적으로 규칙이 너무 약하고 책임을 묻는 것이 너무 어렵습니다."라고 썼습니다. .” 일부 게시자는 robots.txt의 포괄적인 예 또는 아니요 권한 대신 크롤링되는 항목과 사용되는 항목에 대해 더 세부적인 제어를 원합니다. 몇 년 전 로봇 배제 프로토콜을 공식적인 공식 표준으로 만들기 위해 노력한 Google은 robots.txt가 오래된 표준이고 너무 많은 사이트가 이에 관심을 기울이지 않는다는 이유로 robots.txt의 중요성을 덜 강조했습니다. Google의 신뢰 담당 부사장인 Danielle Romain은 작년에 "기존 웹 게시자 컨트롤이 새로운 AI 및 연구 사용 사례 이전에 개발되었다는 점을 알고 있습니다."라고 썼습니다 . "우리는 이제 웹 및 AI 커뮤니티가 새로운 AI 및 연구 사용 사례에 대한 웹 게시자 선택 및 제어를 위한 추가적인 기계 판독 가능 수단을 모색할 때라고 믿습니다." AI 회사가 모델을 구축하고 훈련하는 방법에 대한 규제 및 법적 문제에 직면하더라도 해당 모델은 계속 개선되고 새로운 회사가 매일 시작되는 것처럼 보입니다. 크고 작은 웹사이트는 결정에 직면해 있습니다. AI 혁명에 복종할 것인지, 아니면 이에 맞서 싸울 것인지. 탈퇴를 선택하는 사람들에게 가장 강력한 무기는 30년 전 웹의 가장 초기이자 가장 낙관적인 진정한 신자들에 의해 체결된 합의입니다. 그들은 인터넷이 좋은 곳이고, 무엇보다도 인터넷이 좋은 곳이 되기를 원하는 좋은 사람들로 가득 차 있다고 믿었습니다. 그 세계에서, 그 인터넷에서는 텍스트 파일로 자신의 소망을 설명하는 것만으로도 충분한 거버넌스였습니다. 이제 AI가 인터넷의 문화와 경제를 다시 한 번 재편하면서 평범한 일반 텍스트 파일이 약간 구식으로 보이기 시작했습니다.