아마존 세이지메이커와 vLLM 기반 실시간 음성 애플리케이션 구축
아마존 세이지메이커 AI와 vLLM을 결합하여 실시간 양방향 음성 처리를 구현합니다. HTTP/2 프로토콜과 웹소켓 기술을 활용해 음성 인식 지연 시간을 획기적으로 줄였습니다.
주장아마존 세이지메이커 AI와 vLLM의 결합은 실시간 음성 애플리케이션 구축의 복잡성을 해결합니다. 기존 방식은 전체 오디오를 수신한 뒤 처리를 시작했으나, 이제는 양방향 스트리밍을 통해 즉각적인 음성-텍스트 변환을 수행합니다.
팩트2025년 11월부터 아마존 세이지메이커 AI는 클라이언트와 모델 컨테이너 간의 양방향 데이터 스트리밍을 지원합니다. 이 기능은 HTTP/2 프로토콜을 활용하여 실시간 추론을 가능하게 합니다.
팩트세이지메이커 AI는 8443 포트에서 HTTP/2 양방향 스트리밍을 기본으로 제공합니다. 이 시스템은 클라이언트의 HTTP/2 이벤트 스트림과 컨테이너의 웹소켓 간 프로토콜 변환을 자동으로 처리합니다.
팩트vLLM의 실시간 API는 웹소켓을 사용하여 양방향 스트리밍을 지원합니다. 또한 CUDA 그래프 실행을 통해 GPU 커널 시작 오버헤드를 줄여 스트리밍 전사 과정의 토큰당 지연 시간을 낮춥니다.
교차검증음성 데이터는 모델에 도달하기 전 16kHz 모노 PCM16 형식으로 재샘플링 및 인코딩을 거쳐야 합니다. 클라이언트 측 파이프라인에서 이 변환 과정을 정확히 처리하지 못하면 모델 성능이 저하됩니다.
팩트이번 솔루션은 Voxtral-Mini-4B-Realtime-2602 모델을 실시간 음성 인식 모델로 채택했습니다. 해당 모델은 vLLM 컨테이너를 통해 세이지메이커 엔드포인트에 배포되어 즉각적인 전사 결과를 생성합니다.
팩트전체 솔루션은 클라이언트, 세이지메이커 AI, 도커 컨테이너의 3단계 계층으로 구성됩니다. 컨테이너 내부의 FastAPI 브릿지는 세이지메이커와 vLLM 사이에서 메시지를 양방향으로 전달합니다.
팩트vLLM 실시간 API 프로토콜은 base64로 인코딩된 PCM16 오디오 청크를 입력으로 받습니다. 서버는 입력된 오디오를 바탕으로 transcription.delta 이벤트를 통해 텍스트를 점진적으로 반환합니다.
교차검증세이지메이커 AI는 핑/퐁 유지 프레임을 통해 웹소켓 연결을 관리하고 컨테이너 상태를 확인합니다. 이러한 인프라 관리 기능은 별도의 사용자 지정 계측 없이도 프로덕션 수준의 가시성을 제공합니다.
출처아마존 웹 서비스 공식 기술 블로그(https://aws.amazon.com/blogs/machine-learning/build-real-time-voice-applications-with-amazon-sagemaker-ai-and-vllm/)를 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.
