AI검증

아마존 세이지메이커와 vLLM 기반 실시간 음성 애플리케이션 구축

아마존 세이지메이커 AI와 vLLM을 결합하여 실시간 양방향 음성 처리를 구현합니다. HTTP/2 프로토콜과 웹소켓 기술을 활용해 음성 인식 지연 시간을 획기적으로 줄였습니다.

2026년 5월 20일

주장아마존 세이지메이커 AI와 vLLM의 결합은 실시간 음성 애플리케이션 구축의 복잡성을 해결합니다. 기존 방식은 전체 오디오를 수신한 뒤 처리를 시작했으나, 이제는 양방향 스트리밍을 통해 즉각적인 음성-텍스트 변환을 수행합니다.

팩트2025년 11월부터 아마존 세이지메이커 AI는 클라이언트와 모델 컨테이너 간의 양방향 데이터 스트리밍을 지원합니다. 이 기능은 HTTP/2 프로토콜을 활용하여 실시간 추론을 가능하게 합니다.

팩트세이지메이커 AI는 8443 포트에서 HTTP/2 양방향 스트리밍을 기본으로 제공합니다. 이 시스템은 클라이언트의 HTTP/2 이벤트 스트림과 컨테이너의 웹소켓 간 프로토콜 변환을 자동으로 처리합니다.

팩트vLLM의 실시간 API는 웹소켓을 사용하여 양방향 스트리밍을 지원합니다. 또한 CUDA 그래프 실행을 통해 GPU 커널 시작 오버헤드를 줄여 스트리밍 전사 과정의 토큰당 지연 시간을 낮춥니다.

교차검증음성 데이터는 모델에 도달하기 전 16kHz 모노 PCM16 형식으로 재샘플링 및 인코딩을 거쳐야 합니다. 클라이언트 측 파이프라인에서 이 변환 과정을 정확히 처리하지 못하면 모델 성능이 저하됩니다.

팩트이번 솔루션은 Voxtral-Mini-4B-Realtime-2602 모델을 실시간 음성 인식 모델로 채택했습니다. 해당 모델은 vLLM 컨테이너를 통해 세이지메이커 엔드포인트에 배포되어 즉각적인 전사 결과를 생성합니다.

팩트전체 솔루션은 클라이언트, 세이지메이커 AI, 도커 컨테이너의 3단계 계층으로 구성됩니다. 컨테이너 내부의 FastAPI 브릿지는 세이지메이커와 vLLM 사이에서 메시지를 양방향으로 전달합니다.

팩트vLLM 실시간 API 프로토콜은 base64로 인코딩된 PCM16 오디오 청크를 입력으로 받습니다. 서버는 입력된 오디오를 바탕으로 transcription.delta 이벤트를 통해 텍스트를 점진적으로 반환합니다.

교차검증세이지메이커 AI는 핑/퐁 유지 프레임을 통해 웹소켓 연결을 관리하고 컨테이너 상태를 확인합니다. 이러한 인프라 관리 기능은 별도의 사용자 지정 계측 없이도 프로덕션 수준의 가시성을 제공합니다.

출처아마존 웹 서비스 공식 기술 블로그(https://aws.amazon.com/blogs/machine-learning/build-real-time-voice-applications-with-amazon-sagemaker-ai-and-vllm/)를 교차 검증했습니다.

주제

아마존

관련 콘텐츠

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

TELEGRAM · Clash Report

Syrian President Ahmad al-Sharaa: We should never be forced to choose between Israeli ambitions and Iranian ambitions in the region. The region itself must have its own independent policy and its own independent identity.

9분 전

TELEGRAM · Clash Report

Syrian President Ahmad al-Sharaa: In its natural course, a national renaissance takes about 20 to 25 years before its full results become visible. When we talk about Singapore, Rwanda today, Türkiye, or even the Gulf Cooperation Council countries—every country that has achieved this kind of success took time. It took around 20 to 25 years. But that doesn't mean we have to wait 20 years before we see change in Syria. What matters is that the trajectory is upward. Progress should become visibl

9분 전

TELEGRAM · Clash Report

Syrian President Ahmad al-Sharaa: Let's distinguish between the SDF and the Kurdish people. The Kurdish community is a large community spread across Syria; it is not confined to one specific area. A segment of the Kurdish population had been denied Syrian citizenship under the previous regime. This is an old issue that we inherited, but we were determined to resolve it. We issued a decree granting citizenship and nationality rights, and many have already received them. Their cultural rights

9분 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

루마니아의 러시아 드론 격추 및 외교적 항의

국제6시간 전

먼데이닷컴 등 기술 기업의 인공지능 전환에 따른 대규모 인력 감축

경제22시간 전

오픈에이아이의 허깅페이스 시스템 침해와 투명성 요구

AI6시간 전

앤스로픽 클로드 오퍼스 5의 ARC-AGI-3 벤치마크 신기록 달성

AI12시간 전

오픈에이아이 지피티-5 모델의 생화학 무기 정보 제공 논란

AI12시간 전

릴리즈 & 논문

전체보기 →

RELEASES

vLLMv0.26.0

v0.26.0 릴리즈

이번 릴리즈에서는 Inkling 모델 제품군 지원, DeepSeek-V4 성능 향상, fp32 `lm_head` 지원 추가, 유연한 어텐션 백엔드, KV 오프로딩 및 계층형 보조 스토리지 기능 강화 등 다양한 업데이트가 포함되었습니다. 또한 Rust 프론트엔드 기능 확장 및 Transformers 5.13.0 지원이 추가되었습니다.

1일 전

LangChainlangchain-anthropic==1.5.2

langchain-anthropic==1.5.2

Claude Opus 5 모델 지원이 추가되었습니다. 이번 릴리즈는 이전 버전인 langchain-anthropic==1.5.1 이후의 변경 사항을 포함합니다.

2일 전

Anthropicv0.120.0

v0.120.0

이번 릴리즈에서는 claude-opus-5 모델이 추가되었습니다. 또한, 도구 추가/제거 블록 및 tool_change 이벤트가 지원되며, 클라이언트 측 대체 크레딧 토큰 유형이 확장되고 서버 측 대체 기본 옵션이 추가되었습니다.

2일 전

LangChainlangchain-openai==1.4.1

langchain-openai==1.4.1

이번 릴리즈에서는 LangSmith 게이트웨이를 환경 변수를 통해 지원하도록 기능이 추가되었습니다. 또한 `gpt-5.3-chat-latest` 프로필이 수정되었습니다.