OpenAI는 최근 15초의 음성 샘플과 텍스트 입력을 통해 샘플의 화자와 유사한 자연스러운 음성을 생성하는 새로운 기술 “Voice Engine”을 발표했다. 이 기술은 2024년 3월 29일에 공개되었으며, 이전의 노력에서 발전된 것이다.
기술의 배경과 개발 경과
OpenAI는 2022년 하반기부터 Voice Engine을 개발하기 시작하고, 2023년 말에는 소수의 파트너와 함께 비공개 테스트를 시작했다. 이 기술은 책을 읽을 수 없는 사람들이나 어린이를 위한 독서 지원, 동영상 및 팟캐스트의 다국어 번역 등 다양한 용도로 활용되고 있다. 또한, 원격 지역에서 필요한 서비스 제공 및 언어를 사용하지 못하는 사람들의 지원에도 사용되고 있다.
Voice Engine의 활용 사례
Voice Engine은 디지털 교육 자료의 제작이나 지역 보건 요원을 위한 서비스 제공 등 다양한 분야에서 활용되고 있다. 예를 들어, Dimagi는 수유 중인 어머니에게 상담 등 필요한 서비스를 제공하는 도구를 개발하고 있다. 또한, 음성 장애나 학습 요구가 있는 사람들의 지원에도 사용되고 있으며, 임상 현장에서의 시험도 진행되고 있다.
안전 대책과 리스크 관리
한편, OpenAI는 합성 음성의 남용에 대한 위험에도 언급하고 있다. Voice Engine을 테스트하는 파트너들은 다른 개인이나 기관을 가장할 수 없도록 하는 사용 정책에 동의하고 있으며, 음성이 AI에 의해 생성된 것임을 시청자에게 명확히 공개해야 한다. 또한, OpenAI는 전자 워터마크 및 적극적인 모니터링 등의 안전 대책을 시행하고 있으며, 기술을 널리 공개하지 않을 것이라고 밝혔다.
결론
OpenAI의 Voice Engine은 15초의 음성 샘플로부터 자연스러운 음성을 생성하는 혁신적인 기술이다. 다양한 분야에서의 활용이 기대되지만, 그 사용에는 리스크 관리와 안전 대책이 필요하다. OpenAI는 기술의 안전한 활용을 위해 적극적으로 노력하고 있으며, 앞으로의 발전이 기대된다.