오픈AI, GPT-5급 추론 능력 갖춘 실시간 음성 모델 3종 출시
오픈AI가 실시간 음성 대화에서 고도화된 추론 능력을 발휘하는 신규 모델 3종을 공개했습니다. 이번 모델은 기존 음성 모델의 한계를 극복하고 다양한 언어 지원과 실시간 전사 기능을 강화했습니다.
주장오픈AI는 실시간 음성 대화 환경에서 GPT-5 수준의 추론 능력을 구현하는 것을 목표로 합니다. 이는 기존 음성 모델이 텍스트 전용 모델 대비 낮은 성능을 보이던 한계를 극복하기 위한 전략입니다.
팩트오픈AI는 GPT-리얼타임-2(GPT-Realtime-2), GPT-리얼타임-트랜슬레이트(GPT-Realtime-Translate), GPT-리얼타임-위스퍼(GPT-Realtime-Whisper) 등 3종의 신규 음성 모델을 출시했습니다. 이들은 실시간 추론과 번역, 음성-텍스트 변환 기능을 수행합니다.
팩트핵심 모델인 GPT-리얼타임-2는 5단계로 추론 강도를 조절합니다. 컨텍스트 윈도우는 기존 3만 2000 토큰에서 12만 8000 토큰으로 확장했습니다.
팩트GPT-리얼타임-2는 빅 벤치 오디오(Big Bench Audio) 벤치마크에서 96.6%의 정확도를 기록했습니다. 이는 이전 모델인 GPT-리얼타임-1.5의 81.4% 대비 크게 향상된 수치입니다.
교차검증실시간 모델은 성능 향상 과정에서 컴퓨팅 자원을 과도하게 소모할 위험이 있습니다. 오픈AI는 지연 시간을 최소화하고자 기본 추론 설정을 '낮음'으로 지정하여 운영합니다.
주장이번 모델은 음성을 단순한 입력 수단을 넘어 주요 인터페이스로 격상시킵니다. 보이스 투 액션, 시스템 투 보이스, 보이스 투 보이스 등 세 가지 상호작용 패턴으로 사용자 경험을 혁신합니다.
팩트GPT-리얼타임-트랜슬레이트는 70개 이상의 입력 언어와 13개 이상의 출력 언어를 지원합니다. 해당 기능은 고객 지원, 교육, 미디어 등 다양한 분야에서 언어 장벽을 낮춥니다.
팩트GPT-리얼타임-위스퍼는 낮은 지연 시간으로 실시간 전사를 수행합니다. 이 모델은 회의나 강의 현장에서 즉각적인 자막 생성 및 요약 작업에 활용됩니다.
팩트가격은 토큰 및 분 단위로 책정했습니다. GPT-리얼타임-2는 입력 토큰 100만 개당 32달러, 출력 토큰 100만 개당 64달러의 비용이 발생합니다.
교차검증실시간 API는 유럽 연합 내 데이터 거주 요건을 준수합니다. 오픈AI는 기업용 개인정보 보호 정책을 적용하여 보안성을 강화했습니다.
출처더 디코더(The Decoder)의 보도 내용을 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.