MARKETS
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
Wittgenhaus

2026년 5월 9일 토요일

전문가의 AI 하이브리드 리서치 랩

AI검증

오픈AI의 실시간 음성 모델 GPT-리얼타임-2 등 3종 출시

오픈AI가 실시간 음성 에이전트의 지능과 활용성을 높인 GPT-리얼타임-2 등 3종의 모델을 공개했습니다. 이번 모델은 추론 성능과 컨텍스트 윈도우를 대폭 개선하여 실무형 에이전트 구현을 지원합니다.

2026년 5월 8일

주장오픈AI는 실시간 음성 에이전트의 지능과 사용성을 극대화하기 위해 GPT-리얼타임-2를 포함한 3종의 모델을 출시했습니다. 이번 모델은 단순한 음성 품질 향상을 넘어 복잡한 추론과 도구 활용이 가능한 실무형 에이전트 구현을 목표로 합니다.

팩트이번에 공개된 모델은 GPT-리얼타임-2, GPT-리얼타임-트랜슬레이트, GPT-리얼타임-위스퍼 총 3종입니다. 이들 모델은 현재 오픈AI의 실시간 API를 통해 개발자에게 제공됩니다.

팩트GPT-리얼타임-2는 이전 모델 대비 빅 벤치 오디오 성능이 15.2% 향상되었습니다. 또한 컨텍스트 윈도우가 기존 32K에서 128K로 확장되어 더 긴 대화 유지가 가능합니다.

팩트개발자는 최소, 낮음, 중간, 높음, 매우 높음 등 5단계의 추론 수준을 선택할 수 있습니다. 기본값은 낮음으로 설정되며, 추론 수준에 따라 첫 음성 응답까지 걸리는 시간이 1.12초에서 2.33초 사이로 조정됩니다.

팩트GPT-리얼타임-트랜슬레이트는 70개 이상의 입력 언어를 13개 출력 언어로 실시간 번역합니다. GPT-리얼타임-위스퍼는 실시간 스트리밍 전사 및 자막 생성 기능을 제공하여 음성 데이터의 활용도를 높입니다.

팩트모델은 도구 사용 시 "캘린더를 확인 중입니다"와 같은 안내 문구를 스스로 생성하여 사용자에게 진행 상황을 공유합니다. 또한 사용자의 말을 중간에 끊지 않도록 조정하는 기능과 오류 발생 시 자연스럽게 대처하는 복구 능력을 강화했습니다.

팩트스케일 에이아이의 평가에 따르면, GPT-리얼타임-2는 지시사항 유지율이 기존 36.7%에서 70.8%로 상승했습니다. 글린과 젠스파크 등 기업 내부 평가에서도 업무 효율성과 대화 성공률이 유의미하게 개선되었습니다.

팩트가격은 이전 모델과 동일합니다. 음성 입력은 시간당 1.15달러, 음성 출력은 시간당 4.61달러의 비용이 발생합니다.

교차검증일각에서는 이번 업데이트가 API 중심의 변화일 뿐 일반 사용자가 사용하는 챗GPT 음성 모드에는 아직 적용되지 않았다는 점을 지적합니다. 또한 음성 인터페이스가 과거 가상현실처럼 일시적인 유행에 그칠 가능성에 대한 회의적인 시각도 존재합니다.

출처해당 내용은 레이턴트 스페이스(Latent Space)의 기술 분석 보고서를 교차 검증했습니다.

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

버블 지표

상세보기 →

릴리즈 & 논문

전체보기 →

PAPERS