MARKETS
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
Wittgenhaus

2026년 5월 3일 일요일

전문가의 AI 하이브리드 리서치 랩

AI검증

AWS Batch와 Parakeet-TDT 결합을 통한 음성 변환 비용 절감 솔루션

대규모 음성 데이터를 효율적으로 처리하기 위해 NVIDIA Parakeet-TDT 모델과 AWS Batch를 결합한 아키텍처를 소개합니다. 이 솔루션은 인프라 최적화와 스팟 인스턴스 활용을 통해 운영 비용을 획기적으로 낮춥니다.

2026년 4월 22일

주장대규모 미디어 라이브러리나 고객 센터 녹취록을 처리할 때 기존의 관리형 자동 음성 인식 서비스 비용은 확장성을 저해하는 주요 요인입니다. 이를 해결하기 위해 엔비디아(NVIDIA) Parakeet-TDT 모델과 아마존 웹 서비스(AWS) Batch를 결합한 비용 효율적인 대규모 음성 변환 솔루션을 제안합니다.

팩트엔비디아 Parakeet-TDT-0.6B-v3 모델은 2025년 8월에 출시된 오픈 소스 다국어 자동 음성 인식(ASR) 모델입니다. 해당 모델은 유럽 25개 언어를 지원하며, 깨끗한 환경에서 6.34%의 단어 오류율(WER)을 기록하는 높은 정확도를 보입니다.

팩트Parakeet-TDT는 토큰 및 지속 시간 변환기(Token-and-Duration Transducer) 아키텍처를 사용하여 침묵 구간을 지능적으로 건너뜁니다. 이 기술은 실시간보다 빠른 추론 속도를 구현하며, 오디오 시간당 저렴한 비용으로 대규모 변환을 가능하게 합니다.

팩트지원하는 25개 언어에는 영어, 독일어, 프랑스어, 스페인어, 이탈리아어, 폴란드어, 우크라이나어가 포함됩니다. 이 모델은 자동 언어 감지 기능을 갖추고 있어 언어별로 별도의 모델을 구성할 필요가 없습니다.

교차검증모델 배포를 위해서는 최소 4GB의 비디오 메모리(VRAM)를 갖춘 그래픽 처리 장치(GPU) 인스턴스가 필요하며, 8GB 이상일 때 더 나은 성능을 보입니다. 테스트 결과 G6 인스턴스(NVIDIA L4 GPU)가 가장 우수한 비용 대비 성능을 제공합니다.

팩트전체 시스템은 아마존 S3(Amazon S3)에 오디오 파일이 업로드되면 아마존 이벤트브리지(Amazon EventBridge)가 이를 감지하여 AWS Batch 작업을 트리거하는 방식으로 작동합니다. 작업이 완료되면 타임스탬프가 포함된 JSON 결과물이 출력 S3 버킷에 저장됩니다.

팩트인프라 구축 시 AWS 클라우드포메이션(CloudFormation) 템플릿을 사용하여 G6 및 G5 GPU 인스턴스를 프로비저닝할 수 있습니다. 또한 아마존 EC2(Amazon EC2) 스팟 인스턴스를 활용하면 워크로드 유형에 따라 최대 90%까지 비용을 절감합니다.

팩트스팟 인스턴스 사용 시 'SPOT_PRICE_CAPACITY_OPTIMIZED' 할당 전략을 선택하면 중단 가능성이 낮고 가격이 저렴한 인스턴스 풀을 자동으로 선택합니다. G6 xlarge, G6 2xlarge 등 다양한 인스턴스 타입을 혼합하여 가용성을 높입니다.

교차검증이 아키텍처는 유휴 상태일 때 인스턴스 수를 0으로 조정하여 비용 발생을 방지합니다. ASR 작업은 상태를 저장하지 않는(stateless) 방식이므로 스팟 인스턴스 중단 상황에서도 작업 재시도가 용이하여 안정적인 운영이 가능합니다.

팩트컨테이너 이미지 빌드 시 아마존 리눅스(Amazon Linux) 2023을 기반으로 하며, 런타임 시 모델 다운로드 지연을 방지하기 위해 빌드 과정에서 모델을 미리 캐시합니다. 관련 코드는 깃허브(GitHub) 저장소에서 제공하며, updateImage.sh 스크립트를 통해 아마존 ECR(Amazon ECR)로 배포할 수 있습니다.

출처AWS 공식 블로그의 'Cost-effective multilingual audio transcription at scale with Parakeet-TDT and AWS Batch' 게시물을 교차 검증했습니다.

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

WIRE

WIRE

버블 지표

상세보기 →

릴리즈 & 논문

전체보기 →

RELEASES

vLLMv0.20.1

vLLM v0.20.1

이번 릴리즈는 v0.20.0 버전을 기반으로 하며, DeepSeek V4의 안정성 및 성능 개선에 중점을 두었습니다. 또한 여러 중요한 버그 수정이 포함되었습니다. 주요 변경 사항으로는 DeepSeek V4 모델 지원, 성능 향상을 위한 다양한 최적화, 그리고 CUDA 그래프 및 메모리 관련 버그 수정 등이 있습니다.

12시간 전

LangChainlangchain-openrouter==0.2.3

langchain-openrouter==0.2.3

langchain-openrouter 0.2.3 버전이 출시되었습니다. 스트리밍 시 분할된 `reasoning_details`를 병합하는 버그가 수정되었습니다.

1일 전

LangChainlangchain-mistralai==1.1.3

langchain-mistralai==1.1.3

이번 릴리즈에서는 MistralAI 통합에 대한 기능 개선 및 버그 수정이 포함되었습니다. 주요 변경 사항으로는 휴먼 메시지에 대한 이미지 입력 지원 추가, 모델 프로필 데이터 업데이트, 그리고 `langchain-core`의 최소 버전이 `1.2.21`로 상향 조정되었습니다. 또한, 여러 의존성 패키지가 최신 버전으로 업데이트되었습니다.

1일 전

meta-llama/llama-stackv0.8.0

v0.8.0

이번 릴리즈에서는 Anthropic Messages API를 네이티브로 지원하며, 대화 압축 기능이 추가되었습니다. 또한, 기존 Eval API 및 관련 API가 제거되었고, 문서 전반에 걸쳐 UX 개선 및 최적화가 이루어졌습니다. 보안 취약점 수정 및 CI/CD 파이프라인 개선 작업도 포함되었습니다.

2일 전

LangChainlangchain==1.3.0a1

langchain v1.3.0a1

이번 릴리즈에서는 `create_agent`에 `stream_events` 기능이 추가되었으며, HITL 미들웨어에 `respond` 결정 기능이 포함되었습니다. 또한, 에이전트 상태를 도구 디스패치에 인라인하는 것을 중단하여 성능을 개선했습니다.

2일 전

PAPERS