MARKETS
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
Wittgenhaus

2026년 5월 15일 금요일

전문가의 AI 하이브리드 리서치 랩

AI검증

스트림 비전 에이전트와 아마존 노바 2 소닉 기반 실시간 음성 에이전트 구축

스트림의 비전 에이전트와 아마존 노바 2 소닉을 결합하여 고성능 실시간 음성 에이전트를 구현합니다. 이 기술은 복잡한 인프라 구축 과정을 간소화하고 자연스러운 양방향 대화를 지원합니다.

2026년 5월 14일

주장실시간 음성 에이전트를 구축하는 작업은 음성 인식과 언어 모델, 텍스트 음성 변환을 정교하게 조율해야 하는 복잡한 공학적 과제입니다. 기업은 인프라 구축에 많은 시간을 소비하기보다 스트림의 비전 에이전트와 같은 프레임워크를 활용하여 생산성을 높여야 합니다.

팩트아마존 노바 2 소닉은 아마존 베드록에서 제공하는 음성 대 음성 기반 모델입니다. 이 모델은 실시간 양방향 오디오 스트리밍과 네이티브 턴 감지, 함수 호출 기능을 지원하여 별도의 음성 인식 및 변환 서비스 없이도 파이프라인을 처리합니다.

팩트스트림의 비전 에이전트는 파이썬 기반의 오픈 소스 프레임워크로 25개 이상의 통합 기능을 제공합니다. 이 프레임워크는 리액트, 아이오에스, 안드로이드, 플러터 등 다양한 플랫폼을 위한 클라이언트 소프트웨어 개발 키트를 지원하여 개발자가 빠르게 프로덕션 수준의 에이전트를 배포하도록 돕습니다.

교차검증음성 인공지능 애플리케이션은 네트워크 불안정이나 브라우저 호환성, 세션 타임아웃 등 실제 배포 환경의 변수에 취약합니다. 비전 에이전트는 재연결 로직과 웹 실시간 통신 연결 관리를 추상화하여 이러한 인프라 부담을 줄입니다.

팩트스트림의 에지 네트워크는 전 세계적으로 분산되어 있으며 일반적으로 500밀리초 미만의 접속 시간과 30밀리초 미만의 오디오 지연 시간을 제공합니다. 이 네트워크는 클라이언트와 에이전트 백엔드 사이에서 실시간 전송 계층 역할을 수행합니다.

주장시스템 설계의 핵심은 미디어 전송과 인공지능 지능의 역할을 명확히 분리하는 것입니다. 스트림의 인프라는 미디어 전송을 담당하고, 아마존 노바 소닉은 고객의 아마존 웹 서비스 계정 내에서 실행되어 데이터 보안과 비즈니스 로직을 고객이 직접 통제하도록 합니다.

팩트오디오 데이터는 양방향으로 흐르며 사용자의 음성은 실시간 전송 프로토콜을 통해 스트림의 선택적 전달 장치로 전달됩니다. 이후 비전 에이전트 워커가 이를 펄스 코드 변조 데이터로 디코딩하여 아마존 베드록의 실시간 응용 프로그램 인터페이스로 전송합니다.

팩트아마존 노바 2 소닉은 음성 경계를 감지하고 추론 및 텍스트 음성 변환을 수행하며 필요시 고객의 데이터베이스나 응용 프로그램 인터페이스를 호출하는 함수 호출 기능을 제공합니다. 또한 사용자가 말을 끊고 들어오는 상황인 바지인을 자연스럽게 처리합니다.

교차검증에이전트가 생성한 오디오가 다시 마이크로 입력되어 루프를 만드는 현상을 방지하기 위해 브라우저 수준에서 에코 캔슬링 기술을 사용합니다. 이는 대화의 흐름을 방해하지 않고 자연스러운 상호작용을 유지하는 데 필수적입니다.

출처아마존 웹 서비스 머신러닝 블로그의 공식 기술 문서를 교차 검증했습니다.

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

버블 지표

상세보기 →

릴리즈 & 논문

전체보기 →

RELEASES

vLLMv0.21.0

v0.21.0

이번 릴리즈에서는 Transformers v4 지원이 공식적으로 중단되었으며, C++20 컴파일러가 빌드 요구사항으로 추가되었습니다. KV 오프로딩 서브시스템이 하이브리드 메모리 할당기(HMA)와 통합되었고, 추론 모델을 위한 스페큘러티브 디코딩의 'thinking budget' 지원이 개선되었습니다. 또한 NVIDIA Blackwell GPU를 위한 새로운 TOKENSPEED_MLA 백엔드가 추가되었습니다.

3시간 전

openai/tiktoken0.13.0

(없음)

내용 없음

7시간 전

microsoft/semantic-kernelpython-1.42.0

python-1.42.0

이번 릴리즈에서는 Python 패키지 버전이 1.42.0으로 업데이트되었습니다. 또한, Microsoft Agent Framework 후속 호출에 대한 문서가 추가되었으며, 여러 종속성 패키지들이 업데이트되었습니다. Azure AI Search 커넥터의 비공개 속성 접근이 중단되었고, OpenAPI 경로 매개변수 퍼센트 인코딩 및 HttpPlugin 요청 유효성 검사가 개선되었습니다.

1일 전

meta-llama/llama-stackv1.0.2

v1.0.2

UI 잠금 파일에서 ogx-client가 ^1.0.1로 업데이트되었습니다. 또한, 임시 이벤트 루프 초기화 후 SQL 엔진이 재설정되는 수정 사항이 포함되었습니다.

1일 전

Anthropicv0.102.0

v0.102.0

이번 릴리즈에서는 BetaManagedAgentsSearchResultBlock 타입과 캐시 진단 베타 지원이 추가되었습니다. 또한 Pydantic 이터레이터의 조기 검증을 지원하며, API 사양 업데이트가 포함되었습니다.

1일 전

PAPERS