3일 뉴시스에 따르면 인공지능 음성 합성 기술을 이용한 사기, 동의 없는 성인 콘텐츠 제작 등 범죄가 일어나고 있다. 딥보이스(Deep Voice)는 딥러닝(Deep Learning)과 목소리(Voice)의 합성어로 AI 기술 기반 음성 합성을 말한다.
유튜브 등에서 쉽게 볼 수 있는 'AI 커버' 영상에도 딥보이스 기술이 쓰였다. AI 커버는 브루노 마스가 부른 뉴진스의 하입보이 처럼 사람의 목소리를 AI에 학습시켜 특정 노래를 부른 것처럼 만든 콘텐츠다.
문제는 전화나 SNS 영상에서 나오는 타인의 목소리를 탈취해서도 음성 합성이 가능하다는 점이다. 2023년 게임 업계는 딥보이스를 사용해 성우의 목소리로 음란 콘텐츠를 만든 사례가 폭로된 바 있다.
게임 '엘더스크롤5 스카이림'은 발매된 게임을 변형해 이용자들이 원하는 게임 콘텐츠를 만들 수 있는 '모드' 문화가 활발하다. 성인용 모드 제작자들이 성우 목소리를 추출해 노골적인 성적 묘사를 하는 음성 파일을 만들었다. 이 폭로 후 미국 성우 협회는 게임 제작사에 적극적인 대응을 촉구했다.
딥보이스 범죄는 동의 없는 성적 콘텐츠 제작뿐 아니라 보이스 피싱에서도 활용될 수 있다.
지난 5월 경찰청은 홍보자료를 통해 "딥보이스는 억양과 호흡, 침묵까지 표현할 수 있어 실제 음성과 구분이 어려워지고 있다고 한다"며 " SNS에 음성이 포함된 게시물을 올릴 때는 주의하고 (전화로 오는) 의심스러운 요청은 반드시 사실 여부를 확인해야 한다"고 당부했다.
보안 업계에서는 이러한 딥보이스 피싱에 대응하는 방안으로 신뢰할 수 있는 사람들끼리 미리 특정 단어를 정하고 무언가를 요청할 때 활용할 것을 조언하기도 했다.
유튜브 등에서 쉽게 볼 수 있는 'AI 커버' 영상에도 딥보이스 기술이 쓰였다. AI 커버는 브루노 마스가 부른 뉴진스의 하입보이 처럼 사람의 목소리를 AI에 학습시켜 특정 노래를 부른 것처럼 만든 콘텐츠다.
문제는 전화나 SNS 영상에서 나오는 타인의 목소리를 탈취해서도 음성 합성이 가능하다는 점이다. 2023년 게임 업계는 딥보이스를 사용해 성우의 목소리로 음란 콘텐츠를 만든 사례가 폭로된 바 있다.
게임 '엘더스크롤5 스카이림'은 발매된 게임을 변형해 이용자들이 원하는 게임 콘텐츠를 만들 수 있는 '모드' 문화가 활발하다. 성인용 모드 제작자들이 성우 목소리를 추출해 노골적인 성적 묘사를 하는 음성 파일을 만들었다. 이 폭로 후 미국 성우 협회는 게임 제작사에 적극적인 대응을 촉구했다.
딥보이스 범죄는 동의 없는 성적 콘텐츠 제작뿐 아니라 보이스 피싱에서도 활용될 수 있다.
지난 5월 경찰청은 홍보자료를 통해 "딥보이스는 억양과 호흡, 침묵까지 표현할 수 있어 실제 음성과 구분이 어려워지고 있다고 한다"며 " SNS에 음성이 포함된 게시물을 올릴 때는 주의하고 (전화로 오는) 의심스러운 요청은 반드시 사실 여부를 확인해야 한다"고 당부했다.
보안 업계에서는 이러한 딥보이스 피싱에 대응하는 방안으로 신뢰할 수 있는 사람들끼리 미리 특정 단어를 정하고 무언가를 요청할 때 활용할 것을 조언하기도 했다.
https://n.news.naver.com/mnews/article/417/0001024901?sid=102