오픈에이아이의 저지연 음성 인공지능 기술 구조와 인프라 설계
오픈에이아이가 실시간 음성 대화의 자연스러운 흐름을 구현하기 위해 웹아르티씨 기반의 저지연 인프라를 구축했습니다. 대규모 사용자 환경을 고려한 트랜시버 모델 도입으로 서비스 확장성과 운영 효율성을 동시에 확보했습니다.
주장오픈에이아이는 음성 인공지능이 자연스러운 대화를 구현하려면 말하는 속도에 맞춰 실시간으로 반응해야 한다고 판단합니다. 네트워크 지연은 대화의 흐름을 끊고 사용자 경험을 저해하는 핵심 요소입니다.
팩트오픈에이아이는 매주 9억 명 이상의 활성 사용자를 보유하고 있습니다. 이 거대한 규모를 감당하기 위해 빠른 연결 설정과 낮은 지연 시간, 안정적인 미디어 전송이 필수적입니다.
팩트오픈에이아이는 웹아르티씨(WebRTC, 웹 실시간 통신) 표준을 기반으로 실시간 음성 인프라를 구축했습니다. 웹아르티씨는 브라우저와 모바일 앱 간의 저지연 오디오 및 데이터 전송을 위한 개방형 표준입니다.
교차검증기존의 일대일 연결 방식이나 선택적 전달 장치(SFU) 모델은 오픈에이아이의 대규모 인프라 환경에서 운영 효율성이 떨어지는 문제를 보였습니다. 특히 쿠버네티스 환경에서 대규모 사용자 데이터그램 프로토콜(UDP) 포트를 관리하는 작업은 보안과 확장성 측면에서 한계를 지닙니다.
팩트오픈에이아이는 트랜시버(transceiver) 모델을 도입하여 웹아르티씨 세션을 관리합니다. 이 모델은 클라이언트 연결을 종단에서 종료하고, 미디어와 이벤트를 내부 프로토콜로 변환하여 모델 추론 서버로 전달합니다.
주장트랜시버 모델은 세션 상태를 한곳에서 관리하여 세션 소유권 문제를 해결합니다. 이를 통해 백엔드 서비스는 복잡한 웹아르티씨 피어 역할을 수행하지 않고 일반적인 서비스처럼 확장 가능한 구조를 갖춥니다.
팩트초기 트랜시버 서비스는 고(Go) 언어와 피온(Pion) 라이브러리를 사용하여 구축되었습니다. 해당 서비스는 챗지피티 음성 기능과 리얼타임 API의 웹아르티씨 엔드포인트를 담당합니다.
교차검증세션당 하나의 포트를 사용하는 방식은 클라우드 로드 밸런서와 쿠버네티스 환경에서 운영 복잡성을 높입니다. 포트 범위가 넓어질수록 보안 정책 감사와 방화벽 설정이 어려워지는 위험이 발생합니다.
팩트오픈에이아이는 저스틴 우버티와 션 두보이스와 같은 웹아르티씨 전문가들을 영입하여 인프라를 고도화했습니다. 이들은 검증된 미디어 인프라를 바탕으로 실시간 인공지능과 웹아르티씨를 결합하는 작업을 주도했습니다.
출처해당 내용은 2026년 5월 4일 오픈에이아이 엔지니어링 블로그에 게시된 기술 보고서를 통해 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.