마이크로소프트, 음성 인식 모델 MAI-Transcribe-1 공개
마이크로소프트가 기존 모델 대비 처리 속도를 2.5배 높인 음성 인식 모델 MAI-Transcribe-1을 공개했습니다. 해당 모델은 25개 언어를 지원하며 기업용 AI 솔루션의 자동화 효율을 높일 전망입니다.
주장마이크로소프트가 새로 공개한 음성 인식 모델 MAI-Transcribe-1은 업계 최고 수준의 성능을 보입니다. 이 모델은 기존 경쟁 기술을 뛰어넘는 정확도를 기록하며 음성 인식 분야의 새로운 기준을 제시합니다.
팩트MAI-Transcribe-1은 FLEURS 벤치마크 테스트에서 Scribe v2, Whisper-large-V3, GPT-Transcribe, Gemini 3.1 Flash-Lite보다 낮은 단어 오류율을 기록했습니다. 이 모델은 총 25개의 언어를 지원하며 다국어 처리 능력을 입증했습니다.
팩트해당 모델의 처리 속도는 마이크로소프트의 이전 서비스인 애저 패스트(Azure Fast)와 비교해 2.5배 빠릅니다. 서비스 이용 비용은 오디오 시간당 0.36달러로 책정되어 경제적 효율성을 확보했습니다.
팩트마이크로소프트는 이 모델이 배경 소음이 심하거나 음질이 낮은 환경, 여러 사람이 동시에 말하는 상황에서도 안정적으로 작동한다고 밝혔습니다. 이러한 특성은 실제 비즈니스 환경에서의 실용성을 높입니다.
팩트현재 MAI-Transcribe-1은 코파일럿 보이스(Copilot Voice)와 마이크로소프트 팀즈(Microsoft Teams)에 순차적으로 적용되고 있습니다. 개발자는 마이크로소프트 파운드리(Microsoft Foundry)와 마이크로소프트 AI 플레이그라운드(Microsoft AI Playground)에서 공개 미리보기 형태로 모델을 체험할 수 있습니다.
팩트마이크로소프트는 이 모델을 MAI-보이스-1(MAI-Voice-1) 및 언어 모델과 결합해 음성 에이전트 기능을 구현할 수 있다고 설명했습니다. 이는 기업용 인공지능 솔루션의 자동화 수준을 한 단계 높입니다.
주장이번 모델 출시는 마이크로소프트가 자사 생태계 내에서 인공지능 기반 음성 처리 기술을 내재화하려는 전략을 보여줍니다. 이는 외부 응용 프로그램 인터페이스(API) 의존도를 낮추고 서비스 품질을 직접 관리하려는 의도로 풀이됩니다.
교차검증코히어(Cohere)와 미스트랄(Mistral) 등 경쟁사들도 최근 유사한 성능의 오픈 소스 음성 인식 대안을 출시했습니다. 시장 내 경쟁이 심화함에 따라 기술적 우위를 확보하려는 기업 간의 경쟁은 더욱 치열해질 전망입니다.
교차검증기술적 성능이 뛰어나더라도 실제 기업 환경에서의 도입 속도는 비용 대비 효과와 기존 시스템과의 호환성에 따라 달라질 수 있습니다. 또한 다양한 언어 환경에서의 실제 정확도 검증이 지속해서 필요합니다.
출처본 정보는 디 디코더(The Decoder)의 보도 내용을 바탕으로 교차 검증했습니다. 상세 내용은 https://the-decoder.com/microsofts-mai-transcribe-1-runs-2-5x-faster-than-its-predecessor-at-0-36-per-audio-hour/ 에서 확인할 수 있습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.