WORK ABOUT LAB CONTACT
contact@yellow-finger.com
02.2205.4128

AI Tools Are Scraping Your Website. Is That a Good Thing?

인공지능 도구는 당신의 웹사이트를 긁고 있다. 그게 좋은 일일까?

AI Tools Are Scraping Your Website. Is That a Good Thing?
The rise of artificial intelligence (AI) has been disruptive. Things are changing rapidly. And it seems like this technology is posing new moral, ethical, and existential questions each day. There...
인공지능(AI)의 부상은 파괴적이었다. 상황이 빠르게 변하고 있다. 그리고 이 기술은 매일 새로운 도덕적, 윤리적, 실존적 질문을 제기하는 것처럼 보인다. 저기...
요약 :)
인공 지능(AI)의 부상은 파괴적이었습니다. 상황이 빠르게 변하고 있습니다. 그리고 이 기술이 매일 새로운 도덕적, 윤리적, 실존적 질문을 던지는 것 같습니다.

선택할 수있는 많은 이야기와 의견이 있습니다. 그런데 최근 한 사건이 눈에 들어왔다.

웹사이트 소유자는 자신의 사이트가 콘텐츠 스크래핑 봇에 의해 " 해머링 "되고 있다고 주장했습니다. img2dataset 도구는 Stable Diffusion 과 같은 AI 도구에서 사용하기 위해 대량의 이미지를 분류합니다 .

사이트 소유자가 도구의 GitHub 리포지토리에서 문제를 열었습니다. 그는 스크래핑을 거부하도록 권고 받았습니다. 그렇게 하려면 웹사이트에 특정 헤더를 추가해야 합니다.

이것이 우리의 새로운 현실입니다. 이러한 도구는 저작권이 있는 이미지를 포함하여 모든 종류의 콘텐츠를 가져옵니다. 그들은 그것을 사용자에게 역류시키고 있습니다. 실제로 세계 최대의 매시업입니다.

또한 참여를 원하지 않는다고 명시하는 것은 웹사이트 소유자에게 달려 있습니다. 이것이 들리는 것처럼 터무니 없습니까? 문제와 그것이 웹사이트 소유자에게 의미하는 바를 살펴보겠습니다.
더보기→

출처.
Eric Karkovack . (2023.05.10). Speckyboy Design Magazine. AI Tools Are Scraping Your Website. Is That a Good Thing?. 2023.05.11. https://speckyboy.com/ai-tools-scraping-your-website/
인공 지능(AI)의 부상은 파괴적이었습니다. 상황이 빠르게 변하고 있습니다. 그리고 이 기술이 매일 새로운 도덕적, 윤리적, 실존적 질문을 던지는 것 같습니다. 선택할 수있는 많은 이야기와 의견이 있습니다. 그런데 최근 한 사건이 눈에 들어왔다. 웹사이트 소유자는 자신의 사이트가 콘텐츠 스크래핑 봇에 의해 " 해머링 "되고 있다고 주장했습니다. img2dataset 도구는 Stable Diffusion 과 같은 AI 도구에서 사용하기 위해 대량의 이미지를 분류합니다 . 사이트 소유자가 도구의 GitHub 리포지토리에서 문제를 열었습니다. 그는 스크래핑을 거부하도록 권고 받았습니다. 그렇게 하려면 웹사이트에 특정 헤더를 추가해야 합니다. 이것이 우리의 새로운 현실입니다. 이러한 도구는 저작권이 있는 이미지를 포함하여 모든 종류의 콘텐츠를 가져옵니다. 그들은 그것을 사용자에게 역류시키고 있습니다. 실제로 세계 최대의 매시업입니다. 또한 참여를 원하지 않는다고 명시하는 것은 웹사이트 소유자에게 달려 있습니다. 이것이 들리는 것처럼 터무니 없습니까? 문제와 그것이 웹사이트 소유자에게 의미하는 바를 살펴보겠습니다. 이익을 위해 웹 사이트 콘텐츠를 스크랩하는 것은 새로운 것이 아닙니다. 어떤 수준에서 웹사이트를 스크랩하는 도구는 참신한 아이디어가 아닙니다. 검색 엔진은 수년 동안 콘텐츠를 인덱싱하고 관련 비트를 결과에 표시해 왔습니다 . 또한 RSS는 웹 초기부터 텍스트와 이미지 검색을 허용했습니다. 그리고 Google과 같은 회사는 이러한 노력으로 막대한 이익을 얻었습니다. 더 많은 데이터를 수집할수록 더 나은 결과를 제공합니다. 따라서 더 많은 눈알을 끌어들입니다. 그 결과 더 큰 광고 수익이 발생합니다. 그것은 수십 년 동안 세계의 방식이었습니다. 따라서 다른 회사가 유사한 접근 방식을 취하는 것은 놀라운 일이 아닙니다. 결국 AI 개발자는 도구를 "훈련"하기 위해 좋은 콘텐츠 소스가 필요합니다. 가능한 한 많은 데이터를 수집하는 것보다 더 좋은 방법이 있을까요? 그들에게 웹은 계속해서 주는 선물입니다. 따라서 봇이 귀하의 웹사이트를 방문하고 콘텐츠를 분류한다는 단순한 사실은 큰 문제가 아닙니다. 그러나 아마도 그것이 유사성이 끝나는 곳일 것입니다. 검색 엔진 봇은 수년 동안 데이터를 인덱싱하고 스크랩했습니다. 웹사이트 소유자에게 어떤 이점이 있습니까? 큰 차이점은 누가 혜택을 받는가입니다. 검색 엔진이 귀하의 웹사이트를 색인화하면 무언가를 얻을 수 있습니다. 더 나은 순위는 더 많은 방문자와 잠재적으로 더 많은 고객을 의미합니다. 그리고 검색엔진최적화(SEO)를 실천하면 구글에 방문을 요청하는 것이다. AI 봇은 초대받지 않은 손님 수준까지 올라갈 수 없습니다. 그러나 그들은 정확히 당신의 이익을 위해 방문하지 않습니다. 예를 들어 ChatGPT에 코드 작성을 요청하면 대학에서 수강한 컴퓨터 과학 과정을 생각하지 않습니다. 이 도구는 이전에 스크랩한 콘텐츠를 활용하고 있습니다. 사실, 라인 대 라인 복사가 아닐 수도 있습니다( 때로는 그렇습니다 ). 그러나 언어 모델은 대답을 생성하기 위해 "배운" 것을 사용하고 있습니다. 마찬가지로 유니콘을 타고 있는 Elon Musk의 이미지를 생성하는 것은 마법이 아닙니다(재미를 망치게 해서 죄송합니다). 다양한 시각적 구성 요소는 어딘가에서 가져와야 했습니다. 원본(잠재적으로 저작권이 있는) 이미지가 핵심 요소입니다. 두 시나리오 모두에서 수혜자는 AI 도구와 최종 사용자입니다. 이 콘텐츠를 생성하는 데 사용된 소스는 무엇입니까? 월간 대역폭 사용량에 더 많은 봇 트래픽이 추가되었습니다. img2dataset의 개발자는 약간 다른 견해를 가지고 있습니다. 옵트아웃 요구에 대한 우려에 대한 응답 : “앞으로 AI의 혜택을 받을 수 있는 기회가 많이 생길 것입니다. 나는 당신이 나중에보다는 그것을 빨리 볼 수 있기를 바랍니다. 크리에이터로서 혜택을 받을 수 있는 더 많은 기회가 있습니다.” 그들의 논리는 우리 모두가 언젠가는 AI의 혜택을 받을 것이라고 제안하는 것 같습니다. 따라서 도구가 콘텐츠를 스크랩하도록 허용하는 것은 인류에게 좋습니다. 또는 그런 것. Google의 검색 엔진과 Bard AI 도구의 구분이 명확하지 않습니다. 차단할 것인가, 차단하지 않을 것인가? AI가 웹 사이트를 스크래핑하지 못하도록 차단할지 여부를 결정하는 것은 복잡합니다. 또는 적어도 여러 단계가 필요합니다. 아마도 가장 쉬운 부분은 당신의 철학을 확인하는 것입니다. 콘텐츠를 스크랩해도 괜찮습니까? 그렇다면 계속하십시오. 그렇지 않은 경우 방정식의 다른 부분이 더 복잡해집니다. 우선, 모든 AI 스크래핑을 거부하는 보편적인 방법은 없습니다. image2dataset를 차단하기 위한 헤더는 해당 도구 에서만 작동합니다. 이는 널리 사용되는 도구를 추적하고 이를 차단하는 방법을 찾는 것을 의미합니다. 그리고 Google 및 Microsoft와 같은 회사는 대화를 더욱 복잡하게 만들고 있습니다. 둘 다 자체 검색 엔진입니다. 당신은 그들이 당신의 웹사이트를 색인화하기를 원할 것입니다. 그러나 그들은 또한 AI 도구를 가지고 있습니다. 이 서로 다른 제품 사이에 선이 그어진 위치는 어디입니까? Google의 Bard는 웹 사이트에서 콘텐츠를 스크랩하지 않는다고 주장합니다. 그러나 같은 대화에서 웹사이트는 데이터를 가져오는 곳의 일부라고도 말합니다. 그 답을 마음대로 만드십시오. 모든 종류의 AI 도구를 차단하고 싶다면 쉽지 않을 것입니다. 하지만 오래 가지 않을 수도 있습니다. 콘텐츠 스크래핑과 아무 관련이 없는 웹사이트 소유자를 위한 서비스를 상상할 수 있습니다. 그들은 우리가 더 효율적으로 그렇게 할 수 있습니다. 그러나 그때까지 이것은 패배하는 것처럼 보입니다. AI는 불가피하다. 그리고 시장에 출시되는 모든 새로운 앱을 분류할 시간이 있는 사람은 누구입니까? 또한 SEO에 부정적인 영향을 미치지 않으면서 이러한 도구를 차단하기 어려울 수 있습니다. AI 도구가 웹 사이트를 긁지 못하도록 차단하려면 지속적인 경계가 필요할 수 있습니다. 웹사이트 소유자는 스스로를 보호해야 합니다. 소개에서 실망한 사용자만큼 모든 사람이 영향을 받는 것은 아닙니다. 이 경우 image2dataset가 대량의 이미지를 인덱싱한 것으로 보입니다. 같은 보트에 있지 않는 한 귀하의 사이트에는 문제가 발생하지 않을 것입니다. 그러나 문제는 훨씬 더 깊습니다. 우리가 콘텐츠를 어떻게 가치 있게 여기는지 생각하게 만들어야 합니다. 그리고 우리는 이러한 도구가 어떤 종류의 권리(있는 경우)를 가지고 있는지 질문해야 합니다. 그들이 원하는 것을 단순히 가져갈 수 있습니까? 아니면 무엇이 허용되고 허용되지 않는지 설명하는 지침이 있어야 합니까? 산업에 대한 의미 있는 규제는 몇 달 또는 몇 년이 걸릴 수 있습니다. 그동안 웹사이트 소유자는 스스로를 보호해야 합니다. 노력의 일환으로 자신의 목소리를 내는 것이 중요합니다. 회사가 투명한 프로세스를 스크래핑하지 않도록 옵트아웃하도록 권장합니다. 선출직 공무원 및 기타 영향력 있는 사람들에게 우려 사항을 표현하십시오. AI 도구의 맹공격을 늦추지 못할 수도 있습니다. 그러나 일이 너무 멀어지는 것을 막을 수 있습니다. 그것은 우리 모두에게 도움이 될 것입니다.