구글, 제미니 3.1 플래시 라이브로 실시간 음성 AI 성능 강화
구글 딥마인드가 실시간 대화 기능을 개선한 제미니 3.1 플래시 라이브를 발표했습니다. 향상된 음향 인식과 추론 능력으로 자연스러운 음성 상호작용을 구현합니다.
주장구글 딥마인드가 제미니 3.1 플래시 라이브를 출시하며 실시간 대화형 인공지능 기술을 한 단계 진전시켰습니다. 이 모델은 차세대 음성 우선 인공지능에 필요한 속도와 자연스러운 대화 리듬을 제공합니다.
팩트구글은 2026년 3월 26일 제미니 3.1 플래시 라이브를 공식 발표했습니다. 해당 모델은 정밀도를 높이고 지연 시간을 줄여 음성 상호작용의 유동성을 확보했습니다.
팩트새로운 오디오 모델은 음성 톤을 정교하게 이해하여 자연스러운 대화를 지원합니다. 개발자는 이를 활용해 복잡한 작업을 안정적으로 수행하는 음성 에이전트를 구축할 수 있습니다.
팩트제미니 3.1 플래시 라이브는 구글 제품 전반에 적용됩니다. 개발자는 구글 인공지능 스튜디오의 제미니 라이브 응용 프로그램 인터페이스를 통해 모델을 미리 확인 가능합니다.
팩트기업은 고객 경험을 위한 제미니 엔터프라이즈에서 이 모델을 활용할 수 있습니다. 일반 사용자는 서치 라이브와 제미니 라이브를 통해 해당 기능을 경험합니다.
팩트이 모델은 다단계 함수 호출 측정 벤치마크인 컴플렉스펑크벤치 오디오에서 90.8%의 점수를 기록했습니다. 이는 이전 모델 대비 향상된 성능을 입증합니다.
팩트스케일 인공지능의 오디오 멀티챌린지 벤치마크에서는 사고 기능을 활성화했을 때 36.1%의 점수를 달성했습니다. 이 시험은 실제 환경의 소음 속에서 복잡한 지시를 따르고 장기적인 추론을 수행하는 능력을 평가합니다.
팩트제미니 3.1 플래시 라이브는 음조 이해 능력이 개선되어 2.5 플래시 네이티브 오디오보다 음높이와 속도 같은 음향적 뉘앙스를 효과적으로 인식합니다. 사용자의 좌절감이나 혼란스러운 표현에도 동적으로 반응합니다.
팩트모델은 이전보다 빠른 응답 속도를 보이며 대화 흐름을 두 배 더 길게 유지합니다. 이는 긴 브레인스토밍 과정에서도 사고의 맥락을 놓치지 않도록 돕습니다.
팩트제미니 3.1 플래시 라이브는 다국어를 지원하여 서치 라이브의 글로벌 확장을 뒷받침합니다. 200개 이상의 국가와 지역에서 사용자가 선호하는 언어로 실시간 다중 모드 대화를 할 수 있습니다.
팩트모든 생성 오디오에는 신스아이디 워터마크가 삽입됩니다. 이 기술은 오디오 출력에 직접 포함되어 인공지능 생성 콘텐츠를 식별하고 잘못된 정보 확산을 방지합니다.
교차검증버라이즌, 라이브킷, 홈디포 등 주요 기업은 개선된 자연스러운 대화 기능에 긍정적인 평가를 내놓았습니다. 이는 실제 비즈니스 환경에서의 실질적인 유용성을 시사합니다.
출처https://deepmind.google/blog/gemini-3-1-flash-live-making-audio-ai-more-natural-and-reliable/
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.