
레오나르도 다빈치의 모나리자 그림이 마치 살아있는 듯 두눈을 부릅뜨고 랩을 하는 영상이 화제를 모으고 있다. 이 영상은 마이크로소프트(MS)의 새로운 인공지능(AI) 모델 ‘VASA-1′을 활용, 단일 인물 사진과 음성 파일만으로 제작된 것이다.
2024년 4월 24일 기준 한 엑스(옛 트위터)에 올라온 영상 조회수는 700만회가 넘는다. 지난 18일 올라왔다는 점을 감안하면 일주일도 지나지 않아 폭발적인 관심을 끈 것이다.
영상을 자세히 보면, 모나리자는 눈을 깜빡이거나 치켜뜨며 익살스러운 표정으로 미국 유명 배우 앤 핸서웨이가 과거 한 방송에서 공개한 극성 파파라치 디스랩을 부른다.
영상을 게재한 ‘AI 교육가’ 최민씨는 “마이크로소프트가 막 VASA-1를 개발했다”며 “이 AI 기술로 단일 이미지에 오디오 클립을 결합해 사진이 노래하거나 말하도록 만들 수 있다. 알리바바의 ‘EMO’와 비슷하다”고 설명했다. EMO는 사용자가 인물 혹은 캐릭터 이미지에 오디오를 입력하면 위 영상처럼 오디오 내용에 따라 움직이는 기술을 말한다. 화제가 된 랩하는 모나리자 영상에는 모나리자 사진 한 장과 앤 핸서웨이가 방송에서 부른 디스랩 음성 파일 하나만이 접목된 셈이다.
앞서 MS는 지난 19일 AI 모델 VASA-1을 발표했다. 단일 인물 사진과 음성 파일만으로 ‘말하는 얼굴’을 생성하는 기술이다. 만화 캐릭터나 사진, 그림을 실시간으로 노래하거나 말하게 만들 수 있다. 이 과정에서 얼굴 움직임을 사실적으로 구현한다. 전면 이미지뿐만 아니라 좌우 방향의 모습으로도 적용이 가능하며, 사용자의 눈동자 방향, 머리의 거리, 심지어 감정까지 표현할 수 있는 기능을 갖췄다.
MS는 교육 형평성을 강화하고 의사소통에 어려움이 있는 사람들을 위해 VASA-1을 개발했다고 한다.
다만 MS는 혹시 모를 악용 가능성을 우려해 기술을 즉시 배포하지는 않을 예정이다. 마이크로소프트 연구팀은 “해당 기술이 규정에 따라 책임감 있게 사용될 것이라는 확신이 들 때까지 온라인 데모나 제품을 출시할 계획이 없다”며 “다른 생성 기술과 마찬가지로 사람을 사칭하는 데 오용될 가능성이 있다”고 했다. 그러면서 “우리는 실제 인물을 오해할 소지가 있거나 유해한 내용을 생성하는 행위에 반대하며, 우리의 첨단 위변조 탐지 기술을 적용하기 위해 노력하고 있다”고 덧붙였다.