구글, 제미나이 3.1 플래시 TTS 공개 및 음성 제어 기능 강화
구글이 차세대 인공지능 음성 모델인 제미나이 3.1 플래시 TTS를 발표했습니다. 개발자는 이번 모델을 통해 음성 스타일과 전달 방식을 정밀하게 제어할 수 있습니다. 구글은 신스아이디 워터마크를 적용해 오남용 방지 대책도 마련했습니다.
팩트구글은 2026년 4월 15일 차세대 인공지능 음성 모델인 제미나이 3.1 플래시 TTS(Gemini 3.1 Flash Text-to-Speech)를 공식 발표했습니다. 해당 모델은 아티피셜 어낼리시스(Artificial Analysis) TTS 리더보드에서 1,211점의 엘로(Elo) 점수를 기록하며 성능을 입증했습니다.
주장구글은 제미나이 3.1 플래시 TTS를 통해 개발자와 기업이 차세대 인공지능 음성 애플리케이션을 구축하도록 지원합니다. 이번 모델은 이전 버전보다 향상된 음성 품질과 정밀한 제어 기능을 제공하는 것이 핵심입니다.
팩트제미나이 3.1 플래시 TTS는 70개 이상의 언어를 지원하며 다중 화자 대화 기능을 기본으로 탑재했습니다. 아티피셜 어낼리시스 평가 결과, 이 모델은 고품질 음성 생성과 낮은 비용 사이에서 최적의 균형을 갖췄습니다.
팩트개발자는 구글 AI 스튜디오를 통해 음성 스타일, 속도, 전달 방식을 제어하는 오디오 태그를 활용합니다. 이러한 태그는 자연어 명령을 통해 문장 중간에도 표현력을 세밀하게 조정합니다.
주장이번 업데이트는 개발자가 감독의 역할을 수행하도록 돕는 데 목적을 둡니다. 장면 설정, 화자별 오디오 프로필 지정, 감독의 메모 기능을 통해 일관성 있는 음성 연출이 가능합니다.
팩트설정이 완료된 음성 파라미터는 제미나이 API 코드로 내보낼 수 있습니다. 개발자는 이를 통해 다양한 프로젝트와 플랫폼에서 동일한 음성 품질과 캐릭터성을 유지합니다.
팩트제미나이 3.1 플래시 TTS는 현재 제미나이 API와 구글 AI 스튜디오에서 프리뷰 형태로 제공됩니다. 기업 고객은 버텍스 AI(Vertex AI)를 통해, 워크스페이스 사용자는 구글 비즈(Google Biz)를 통해 해당 기능을 체험합니다.
교차검증인공지능 음성 기술의 발전은 창의적인 콘텐츠 제작을 가능하게 하지만, 딥페이크나 음성 사칭 등 오남용의 위험을 내포합니다. 구글은 이러한 문제를 해결하고자 신스아이디(SynthID) 워터마크 기술을 적용해 인공지능 생성 음성을 식별합니다.
교차검증글로벌 시장을 겨냥한 다국어 지원은 현지화된 음성 경험을 제공하는 데 큰 이점을 가집니다. 다만 다양한 언어와 억양을 완벽하게 구현하는 것은 여전히 기술적 도전 과제로 남아 있습니다.
출처구글 딥마인드 공식 블로그 및 관련 기술 문서를 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.