Porn, dog poop, and social media photos: the “taskers” who are scraping the internet for Meta’s AI company.

메타가 부분적으로 소유한 한 기업이 인스턴그램 계정을 샅샅이 훑어 저작권이 있는 자료를 수집하고 포르노 오디오를 필사하는 방식으로 수만 명의 사람들에게 인공지능(AI) 학습을 시켜온 것으로 가디언이 확인했다.

마크 저커버그의 소셜미디어 제국이 49% 지분을 보유한 스케일 AI는 의학, 물리학, 경제학 등 분야의 전문가들을 아웃라이어라는 플랫폼을 통해 첨단 AI 시스템을 개선한다는 명목으로 모집했다. 해당 웹사이트는 높은 자격을 갖춘 개인에게 유연한 일자리를 제공하며 "AI가 배우는 전문가가 되라"고 초대한다.

그러나 플랫폼 작업자들은 도덕적으로 불편하고 고급 AI 개선과는 거리가 먼 타인의 다양한 개인 데이터를 긁어모으는 작업에 끌려들어갔다고 말한다.

아웃라이어는 미국 국방부 및 방산업체와 계약을 맺은 스케일 AI가 운영한다. 최고경영자(CEO)이자 메타의 최고 AI 책임자인 알렉산드르 왕은 포브스가 "세계 최연소 자수성가 억만장자"로 꼽은 인물이다. 전무이사였던 마이클 크라치오스는 도널드 트럼프 전 대통령의 과학 고문을 지냈다.

미국에 거주하는 한 아웃라이어 계약업체는 페이스북이나 인스턴그램 같은 메타 플랫폼 사용자들이 자신과 친구들의 사진을 포함한 계정 데이터가 어떻게 수집되는지 알면 놀랄 것이라고 말했다. "사람들은 무작위 주(州)의 책상에 앉은 누군가가 당신의 [소셜미디어] 프로필을 보고 AI 데이터를 생성하는 데 사용한다는 것을 이해하지 못한 것 같다"고 이 관계자는 말했다.

가디언은 AI 시스템 학습을 위해 아웃라이어에서 일한 10명과 인터뷰했으며, 일부는 1년 이상 근무했다. 많은 이들이 기자, 대학원생, 교사, 사서 등 다른 직업을 가지고 있었다. 그러나 AI로 인해 점점 더 위협받는 경제 상황에서 그들은 추가 수입을 원했다. "많은 이들이 정말 절박했습니다"라고 한 작업자가 말했다. "많은 사람들이 정말 이 일자리가 필요했고, 저를 포함해 나쁜 상황에서 최선을 다하려 했습니다."

점점 늘어나는 글로벌 AI 긱(gig) 노동자 계층과 마찬가지로 대부분은 자신의 대체자를 훈련시키고 있다고 믿었다. 한 예술가는 "내 희망과 꿈의 자동화에 직접 기여했다"는 "내면화된 수치심과 죄책감"에 대해 말했다. 이어 "한 인간으로서, 이 시스템에 화가 난다"고 덧붙였다.

스케일 AI 및 유사 플랫폼을 상대로 소송을 진행 중인 AI 긱 노동자를 대리하는 클락슨 법률사무소의 파트너 글렌 다나스는 전 세계 수십만 명의 사람들이 현재 아웃라이어 같은 플랫폼에서 일하고 있다고 추정한다. 가디언은 영국, 미국, 호주에 거주하는 아웃라이어 작업자(태스커)들과 이야기를 나눴다.

인터뷰에서 태스커들은 이제 익숙해진 AI 긱 노동의 굴욕을 설명했다: 지속적인 모니터링과 불안정한 단편적 고용. 스케일 AI는 "미끼 전환" 전술을 사용한다는 비난을 받아왔다. 채용 시 높은 급여를 광고한 후 상당히 낮은 임금을 제시하는 것이다. 스케일 AI는 진행 중인 소송에 대해 논평을 거부했으나 한 관계자는 급여율은 작업자가 다른 낮은 임금의 프로젝트를 선택할 때만 변경된다고 말했다.

태스커들은 특정 업무를 수행하기 위해 반복적이고 무급 AI 인터뷰를 완료해야 했다고 보고했으며, 여러 명은 이러한 인터뷰가 AI 훈련에 재사용된다고 믿었다. 모두 허브스태프라는 플랫폼을 통해 지속적으로 모니터링된다고 말했는데, 이 플랫폼은 작업 중 방문한 웹사이트의 스크린샷을 찍을 수 있었다. 스케일 AI 관계자는 허브스태프가 정확한 지급을 보장하기 위해 사용되며 태스커를 "적극적으로 모니터링"하기 위한 것이 아니라고 말했다.

여러 태스커는 포르노 오디오를 필사하거나 죽은 동물이나 개 배설물 이미지에 레이블을 붙이라는 요청을 받았다고 설명했다. 한 박사 과정 학생은 유아 생식기 다이어그램에 레이블을 붙여야 했다고 말했다. 다른 이들은 폭력 사건을 묘사하는 경찰 통화를 필사했다.

"우리는 이미 이번 임무에는 누드가 없을 것이라고 들었습니다. 적절한 행동, 잔혹한 장면 없음, 피 같은 것 없음"이라고 그 학생은 말했다. "그런데 포르노 오디오 필사본을 받거나, 무작위로 사람들이 이유 없이 토하는 클립이 나오곤 했습니다."

가디언은 아웃라이어가 작업자들에게 요구한 일부 업무의 동영상과 스크린샷을 검토했다. 여기에는 개 배설물 사진과 "교정 시설에서 수감자가 명령을 따르지 않으면 어떻게 하시겠습니까?"와 같은 프롬프트가 포함되었다.

스케일 AI 관계자는 부적절한 콘텐츠가 신고되면 회사가 해당 작업을 중단하며, 작업자들이 불편함을 느끼는 작업을 계속할 필요는 없다고 말했다. 이 관계자는 또한 스케일 AI가 아동 성학대 자료나 포르노그래피 관련 프로젝트를 수주하지 않는다고 덧붙였다.

아웃라이어 작업자들은 소셜미디어 스크래핑이 예상된다고 언급했다. 7명의 태스커가 타인의 인스턴그램과 페이스북 계정을 샅샅이 훑어 이름, 위치, 친구별로 개인을 태그했다고 설명했다. 일부 작업에는 18세 미만의 사람들 계정으로 AI를 훈련시키는 것이 포함되었다. 업무는 다른 작업자들이 아직 업로드하지 않은 새로운 데이터를 요구하도록 구성되어 있어 더 많은 사람들의 소셜미디어 계정을 파고들도록 했다.

가디언은 작업자들에게 개인의 페이스북 계정에서 사진을 선택하고 사진 속 사람의 나이 순으로 배열하도록 요구하는 한 가지 작업을 확인했다.

여러 태스커는 이러한 업무가 불안정하다고 느꼈으며, 한 명은 유명인과 공인들의 사진만 사용해 완료하려고 했다. "아이들과 관련된 사진을 포함시키는 것이 불편했지만, 훈련 자료에는 아이들이 포함되어 있었습니다"라고 한 작업자가 말했다.

"저는 AI에 작업을 제출할 때 친구나 가족의 사진을 전혀 사용하지 않았습니다"라고 다른 이가 말했다. "윤리적으로 마음에 들지 않는다는 것은 이해합니다."

스케일 AI 관계자는 태스커들이 개인 소셜미디어 계정을 검토하지 않았으며, 개인의 나이나 개인적 관계에 레이블을 붙이는 작업에 대해 알지 못한다고 말했다. 이 관계자는 또한 스케일 AI가 아동과 관련된 명시적 민감 콘텐츠 프로젝트는 수주하지 않지만, 아동의 공개 소셜미디어 데이터는 사용한다고 덧붙였다. 작업자들은 이러한 작업을 완료하기 위해 개인 페이스북이나 인스턴그램 계정에 로그인하지 않았다.

다른 업무에서 태스커들은 저작권이 있는 예술 작품 이미지를 수집했다고 설명했다. 소셜미디어 훈련과 유사하게, 이 작업은 지속적인 새로운 입력을 요구했는데, 이는 AI가 자체 예술적 이미지를 생성하도록 훈련시키기 위한 것으로 보인다. 작업자들이 선택지를 다 소진하자 예술가와 크리에이터의 소셜미디어 계정으로 눈을 돌렸다.

가디언은 "원주민 보호자"의 AI 생성 그림과 "AI 생성 이미지를 사용하지 마십시오. 인간 예술가가 만든 손으로 그리거나 그림을 그리거나 삽화로 만든 예술 작품만 선택하십시오"라는 지시가 포함된 이 업무의 문서를 확인했다.

스케일 AI 관계자는 회사가 기여자들에게 저작권이 있는 예술 작품을 사용해 업무를 완료하도록 요구하지 않으며, 이 기준을 위반하는 작업은 거부한다고 말했다.

태스커들은 또한 자신들이 AI를 훈련시켜 무엇을 하게 하는지, 자신들의 제출물이 어떻게 사용될지에 대해 불확실함을 표명했다.

"다이어그램에 레이블을 붙이는 것은 AI가 이미 할 수 있는 일인 것 같아서, 왜 죽은 동물 같은 것이 필요한지 정말 궁금합니다"라고 한 명이 말했다.

스케일 AI의 고객에는 구글, 메타, 오픈AI와 같은 주요 기술 기업과 미국 국방부, 카타르 정부가 포함되었다. 이 회사는 AI 모델이 확장됨에 따라 새로운 레이블이 붙은 데이터를 훈련시키는 증가하는 수요를 해결한다.

태스커들은 ChatGPT 및 Claude와 상호작용하거나 메타의 데이터를 사용해 업무를 완료했다고 설명했으며, 일부는 메타의 새로운 모델인 아보카도를 훈련시키고 있을지도 모른다고 생각했다.

메타와 안트로픽은 논평 요청에 응답하지 않았다. 오픈AI는 2025년 6월에 스케일 AI와의 협력을 중단했으며, "공급업체 행동 강령은 모든 사람에 대한 윤리적이고 공정한 대우에 대한 명확한 기대를 제시한다"고 밝혔다.

가디언이 인터뷰한 대부분의 태스커들은 아웃라이어 플랫폼을 통해 계속 일을 맡고 있다. 수입은 일정하지 않으며 때로는 대규모 삭감이 있다. 그러나 AI 시대가 빠르게 다가옴에 따라 그들은 대안이 거의 없을 수 있다고 느낀다.

"AI에 대해 낙관적이어야 합니다. 그렇지 않으면 전망이 좋지 않기 때문입니다"라고 한 작업자가 말했다. "그래서 결국 모든 것이 잘 될 것이라고 믿습니다."

스케일 AI 대변인은 "아웃라이어는 명확한 보상과 함께 유연한 프로젝트 기반 작업을 제공합니다. 기여자는 언제, 얼마나 참여할지 결정하며, 기회는 프로젝트 수요에 따라 변동합니다. 우리는 유연성과 우리 플랫폼에서 자신의 전문성을 활용할 기회를 높이 평가하는 고도로 숙련된 개인들로부터 종종 듣습니다."

자주 묻는 질문
AI 훈련을 위한 데이터 수집에 관한 FAQ

면책 조항: 이 FAQ는 인공지능 훈련을 위해 공개적으로 이용 가능한 온라인 데이터를 사용한다는 보고된 관행을 다룹니다. 귀하의 질문에 있는 구체적인 예시는 스크랩될 수 있는 광범위한 인터넷 콘텐츠 범주의 예시로 사용됩니다. 이 FAQ는 일반적인 과정에 대한 명확한 사실 정보를 제공하는 것을 목표로 합니다.

초보자 수준 질문

1. 이 맥락에서 '태스커'란 무엇인가요?
태스커는 방대한 양의 온라인 데이터를 수집하고 레이블을 붙이는 작업을 담당하는 작업자나 자동화 시스템을 비공식적으로 지칭하는 용어입니다. 그들의 임무는 AI 모델 훈련에 사용될 수 있도록 이 데이터를 모으는 것입니다.

2. AI 회사는 왜 이런 종류의 데이터가 필요하나요?
이미지와 텍스트를 생성하거나 이해하는 AI 모델은 특히 방대하고 다양한 데이터셋을 분석함으로써 학습합니다. 현실 세계를 다루기 위해 그들은 사람들이 온라인에서 이야기하고, 게시하고, 검색하는 모든 것의 예시가 필요합니다. 일상적인 소셜미디어 사진부터 더 틈새적이거나 노골적인 콘텐츠까지요. 이는 AI가 맥락을 이해하고, 객체를 인식하며, 관련성 있는 응답을 생성하는 데 도움이 됩니다.

3. 제 개인 소셜미디어 데이터가 수집되고 있나요?
일반적으로 AI 회사들은 공개적으로 이용 가능한 정보로 모델을 훈련시킨다고 밝힙니다. 이는 일반적으로 공개 개인정보 보호 설정으로 게시한 콘텐츠를 의미합니다. 개인 메시지, 비공개 계정 또는 비밀번호로 보호된 콘텐츠는 이러한 데이터셋의 일부가 되어서는 안 됩니다. 소셜 플랫폼의 개인정보 보호 설정을 항상 확인하세요.

4. '인터넷 스크래핑'이란 무엇을 의미하나요?
웹 스크래핑은 자동화 도구를 사용해 웹사이트를 체계적으로 탐색하고 공개적으로 이용 가능한 텍스트, 이미지, 메타데이터를 복사하는 것입니다. 정보를 복사하여 붙여넣는 매우 빠른 자동화 버전과 같습니다.

5. 이것은 합법적인가요?
합법성은 복잡하며 관할권에 따라 다릅니다. 종종 웹사이트 이용 약관과 저작권법이 적용되는 회색 지대에서 운영됩니다. 많은 기업들은 공개적으로 이용 가능한 데이터를 AI 훈련에 사용하는 것이 공정 사용에 해당한다는 주장에 의존하지만, 이는 전 세계 법정에서 활발히 논쟁되고 도전받고 있습니다.

고급/실용적 질문

6. AI가 불쾌하거나 불안한 콘텐츠를 보아야 하는 이유는 무엇인가요?
민감한 주제에 대한 콘텐츠를 안전하고 효과적으로 관리하거나 질문에 답하기 위해 AI는 이를 인식할 수 있어야 합니다. 이러한 데이터에 대한 훈련은 AI가 도움이 되도록 합니다.

Related Posts