미니맥스, 초장문 문맥 처리 효율 28배 높인 ‘MSA’ 기술 공개
미니맥스 연구진이 대규모 언어 모델의 연산 비용을 획기적으로 줄이는 ‘미니맥스 희소 어텐션(MSA)’을 발표했습니다. 이 기술은 100만 토큰 규모의 문맥에서도 기존 대비 14배 이상의 추론 속도 향상을 실현했습니다.
주장미니맥스(MiniMax) 연구진이 초장문 문맥 처리를 위한 새로운 어텐션 메커니즘인 ‘미니맥스 희소 어텐션(MiniMax Sparse Attention, 이하 MSA)’을 공개했습니다. 연구진 소속 정보는 arxiv 등록 기준입니다.
팩트최신 거대언어모델(LLM)은 에이전트 워크플로우와 대규모 코드 분석을 위해 수십만에서 수백만 토큰을 동시에 처리해야 합니다. 하지만 기존 소프트맥스 어텐션(Softmax Attention) 방식은 토큰이 늘어날수록 연산량이 제곱으로 증가하는 한계가 있습니다.
팩트MSA는 그룹 쿼리 어텐션(Grouped Query Attention, GQA)을 기반으로 설계된 블록 단위의 희소 어텐션 기술입니다. 이 기술은 경량화된 인덱스 브랜치를 통해 키-값(Key-Value) 블록의 점수를 매기고, 각 그룹별로 상위 K개(Top-k) 부분 집합만 선택합니다.
팩트선택된 블록만 연산하는 메인 브랜치 방식을 채택하여 연산 효율을 극대화했습니다. 연구진은 이를 위해 지수 함수를 사용하지 않는(exp-free) Top-k 선택 알고리즘과 KV-아우터 희소 어텐션 커널을 공동 설계했습니다.
팩트1,090억 파라미터 규모의 멀티모달 모델에서 MSA를 적용한 결과, 100만 토큰 문맥 기준 토큰당 어텐션 연산량을 기존 대비 28.4배 절감했습니다.
팩트엔비디아 H800 GPU 환경에서 MSA 전용 커널을 사용했을 때, 프리필(Prefill, 초기 문맥 처리) 단계에서는 14.2배, 디코딩(Decoding, 답변 생성) 단계에서는 7.6배의 실시간 속도 향상을 기록했습니다.
주장MSA는 단순성과 확장성을 최우선으로 설계되었습니다. 다양한 GPU 환경에서 효율적으로 배포할 수 있도록 구조를 간소화한 점이 특징입니다.
교차검증본 연구는 아카이브(arxiv)에 공개된 선공개 논문으로, 아직 학계의 공식적인 동료 평가(Peer Review) 과정을 거치지 않았습니다. 기술의 학술적 엄밀함은 향후 검증이 필요합니다.
교차검증MSA는 특정 하드웨어 환경인 H800 GPU에 최적화된 커널을 사용합니다. 따라서 일반적인 소비자용 GPU나 다른 아키텍처에서의 범용성과 재현성은 실제 환경에 따라 달라질 수 있다는 한계가 존재합니다.
주장미니맥스는 이번 기술을 적용한 멀티모달 모델 ‘미니맥스-M3(MiniMax-M3)’를 허깅페이스(HuggingFace)를 통해 공개했습니다. 이는 실제 프로덕션 환경에서 MSA의 성능을 입증하려는 시도입니다.
팩트연구진은 MSA의 추론 커널을 오픈소스로 공개하여 개발자들이 직접 활용할 수 있도록 지원합니다. 이는 고성능 AI 모델의 문턱을 낮추는 데 기여할 전망입니다.
출처arxiv의 선공개 논문(https://arxiv.org/abs/2606.13392)을 참고했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

