이중언어 음성 인식 모델의 코드 스위칭 성능 분석
서비스나우 AI 팀이 이중언어 사용자의 발화를 처리하는 음성 인식 모델 벤치마크 결과를 공개했습니다. 코드 스위칭 환경에서 모델별 정확도와 의미 보존 능력을 평가했습니다. 기업용 AI 도입을 위한 핵심 지표와 모델별 성능 차이를 분석합니다.
주장전 세계 인구 절반 이상이 두 개 이상의 언어를 사용하며 일상 대화에서 언어를 섞어 쓰는 코드 스위칭 현상이 빈번하게 발생합니다. 기업 환경의 음성 에이전트는 이러한 이중언어 사용자의 발화를 정확히 이해해야 운영 효율성을 높일 수 있습니다.
팩트서비스나우 AI 팀은 스페인어-영어, 프랑스어-영어, 캐나다 프랑스어-영어, 독일어-영어 등 4개 언어 조합을 대상으로 벤치마크를 구축했습니다. 해당 데이터셋은 인사 및 IT 서비스 관리 시나리오를 바탕으로 총 918개의 레코드를 포함합니다.
팩트데이터셋 구축 과정에서 12~40단어 길이의 문장을 사용했습니다. 이메일이나 전화번호 같은 고유 명사가 아닌 실제 전환 가능한 단어를 최소 3개 이상 포함하도록 설계했습니다. 모든 데이터는 원어민 언어학자의 검수를 거쳐 신뢰성을 확보했습니다.
팩트모델 성능 평가를 위해 단어 오류율(WER), 의미론적 단어 오류율(SWER), 답변 오류율(AER) 등 세 가지 지표를 사용했습니다. 특히 AER은 음성 인식 오류가 실제 업무 처리 과정에서 얼마나 큰 실패를 유발하는지 측정하는 핵심 지표입니다.
주장음성 에이전트 파이프라인의 첫 단계인 자동 음성 인식(ASR)에서의 오류는 후속 작업으로 전파되어 운영상의 치명적인 결과를 초래할 수 있습니다. 따라서 이중언어 환경에서의 정확한 전사는 기업용 AI 도입의 필수적인 선결 과제입니다.
팩트이번 벤치마크 결과, 일레븐랩스의 스크라이브 V2가 전반적인 전사 정확도와 의미 보존 측면에서 가장 우수한 성적을 거두었습니다. 어셈블리 AI의 유니버설 3-프로와 구글의 제미나이 3 플래시 또한 상위권 모델로 확인되었습니다.
주장제미나이 3 플래시는 단순 전사 정확도인 WER보다 의미론적 지표인 AER에서 더 높은 경쟁력을 보였습니다. 이는 대규모 오디오 언어 모델(LALM)이 단순 받아쓰기를 넘어 문맥과 의미를 추론하는 데 강점이 있음을 시사합니다.
교차검증오픈AI의 위스퍼 라지 V3 터보는 코드 스위칭 음성 인식에서 가장 낮은 성능을 보였습니다. 명시적인 언어 설정이 없을 경우, 해당 모델은 음성을 전사하는 대신 영어로 번역하려는 경향이 있어 코드 스위칭 처리에 한계를 드러냈습니다.
교차검증모델별로 코드 스위칭 처리 비용과 성능 차이가 언어 조합에 따라 다르게 나타납니다. 특정 모델은 특정 언어 조합에서만 우수한 성능을 보이기도 하여, 기업은 도입 목적에 맞는 모델 선택이 필요합니다.
주장기업은 단순히 모델의 범용적인 성능 지표만 확인해서는 안 됩니다. 실제 업무 시나리오와 가장 유사한 언어 환경에서 모델의 AER 수치를 면밀히 검토해야 합니다.
주장코드 스위칭은 글로벌 비즈니스 환경에서 피할 수 없는 과제입니다. 이번 벤치마크는 기업이 음성 AI를 선택할 때 고려해야 할 기술적 기준점을 제시합니다.
출처서비스나우 AI 팀이 허깅페이스 블로그를 통해 공개한 코드 스위칭 음성 인식 벤치마크 연구 결과를 교차 검증했습니다. (https://huggingface.co/blog/ServiceNow-AI/code-switching)
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

