https://time.com/6247678/openai-chatgpt-kenya-workers/
챗GPT의 회사 OpenAI의 아웃소싱 파트너로 있었던 Sama는 케냐의 회사인데
케냐 노동자들은 시간당 2달러가 안되는 돈을 받고 있었던 것으로 확인됐음
해당 회사는 생성된 텍스트, 이미지, 비디오, 오디오 등에서
성적 학대, 수간, 살인, 자살, 고문, 자해 및 근친상간 같은 유해 컨텐츠를 탐지하는데 인력을 쓰고 있었는데
약 30명의 근로자가 각 주제에 집중하여 3팀으로 나뉘어 라벨을 지정하는 일을 함
(각 팀당 3명의 직원이 9시간 교대 근무를 했다고 함)
관련하여 해당 데이터를 읽은 어떤 직원은 "고문이었다"라고 얘기했으며 직원들의 트라우마가 너무 심했다고 함
Sama는 해당 계약엔 불법 콘텐츠에 대한 언급은 없었는데 OpenAI로부터 작업 시작 후에야 불법 범주를 언급하는 추가지침을 받았다고 밝힘
Open AI는 Sama로부터 C4(아동학대), C3(강간 등), C2, V3, V2, V1 이미지를 포함하여 1400개의 이미지를 받았는데
자기들은 C4 범주의 콘텐츠를 수집할 의도가 없었다고 밝힘
Sama는 OpenAI가 관련 범주의 콘텐츠를 수집하려고 시도했다고 말했는데
이에 대해서는 오해라고, 오해라는걸 인지한 이후에는 문제의 컨텐츠를 열어보지 않았다고 밝힘
관련하여 Sama는 계획보다 8개월 빨리 2022년 2월에 작업을 그만둠
현재는 Open AI가 다른 회사와도 협력하고 있는지는 밝혀져 있지 않다고 함
자세한 내용은 링크 읽어보면 좋을 것 같음
오역의역으로 잘못된 내용 있으면 댓글로 알려줘!
개인적으로 마지막 문단이 인상 깊어서
But the need for humans to label data for AI systems remains, at least for now. “They’re impressive, but ChatGPT and other generative models are not magic – they rely on massive supply chains of human labor and scraped data, much of which is unattributed and used without consent,” Andrew Strait, an AI ethicist, recently wrote on Twitter. “These are serious, foundational problems that I do not see OpenAI addressing.”
하지만 적어도 지금은 인간이 AI 시스템을 위해 데이터에 레이블을 지정해야 할 필요성이 여전히 있습니다. "인상적이지만 ChatGPT와 다른 생성 모델은 마법이 아닙니다. 인간 노동과 스크래핑된 데이터의 거대한 공급망에 의존하며, 그 중 많은 부분이 출처가 명시되지 않고 동의 없이 사용됩니다." AI 윤리학자인 앤드류 스트레이트는 최근 트위터에 이렇게 적었습니다. "이것들은 OpenAI가 해결하지 못할 심각하고 근본적인 문제입니다."