AI미검

미니맥스, 초장문 문맥 처리 효율 28배 높인 ‘MSA’ 기술 공개

미니맥스 연구진이 대규모 언어 모델의 연산 비용을 획기적으로 줄이는 ‘미니맥스 희소 어텐션(MSA)’을 발표했습니다. 이 기술은 100만 토큰 규모의 문맥에서도 기존 대비 14배 이상의 추론 속도 향상을 실현했습니다.

2026년 6월 12일

주장미니맥스(MiniMax) 연구진이 초장문 문맥 처리를 위한 새로운 어텐션 메커니즘인 ‘미니맥스 희소 어텐션(MiniMax Sparse Attention, 이하 MSA)’을 공개했습니다. 연구진 소속 정보는 arxiv 등록 기준입니다.

팩트최신 거대언어모델(LLM)은 에이전트 워크플로우와 대규모 코드 분석을 위해 수십만에서 수백만 토큰을 동시에 처리해야 합니다. 하지만 기존 소프트맥스 어텐션(Softmax Attention) 방식은 토큰이 늘어날수록 연산량이 제곱으로 증가하는 한계가 있습니다.

팩트MSA는 그룹 쿼리 어텐션(Grouped Query Attention, GQA)을 기반으로 설계된 블록 단위의 희소 어텐션 기술입니다. 이 기술은 경량화된 인덱스 브랜치를 통해 키-값(Key-Value) 블록의 점수를 매기고, 각 그룹별로 상위 K개(Top-k) 부분 집합만 선택합니다.

팩트선택된 블록만 연산하는 메인 브랜치 방식을 채택하여 연산 효율을 극대화했습니다. 연구진은 이를 위해 지수 함수를 사용하지 않는(exp-free) Top-k 선택 알고리즘과 KV-아우터 희소 어텐션 커널을 공동 설계했습니다.

팩트1,090억 파라미터 규모의 멀티모달 모델에서 MSA를 적용한 결과, 100만 토큰 문맥 기준 토큰당 어텐션 연산량을 기존 대비 28.4배 절감했습니다.

팩트엔비디아 H800 GPU 환경에서 MSA 전용 커널을 사용했을 때, 프리필(Prefill, 초기 문맥 처리) 단계에서는 14.2배, 디코딩(Decoding, 답변 생성) 단계에서는 7.6배의 실시간 속도 향상을 기록했습니다.

주장MSA는 단순성과 확장성을 최우선으로 설계되었습니다. 다양한 GPU 환경에서 효율적으로 배포할 수 있도록 구조를 간소화한 점이 특징입니다.

교차검증본 연구는 아카이브(arxiv)에 공개된 선공개 논문으로, 아직 학계의 공식적인 동료 평가(Peer Review) 과정을 거치지 않았습니다. 기술의 학술적 엄밀함은 향후 검증이 필요합니다.

교차검증MSA는 특정 하드웨어 환경인 H800 GPU에 최적화된 커널을 사용합니다. 따라서 일반적인 소비자용 GPU나 다른 아키텍처에서의 범용성과 재현성은 실제 환경에 따라 달라질 수 있다는 한계가 존재합니다.

주장미니맥스는 이번 기술을 적용한 멀티모달 모델 ‘미니맥스-M3(MiniMax-M3)’를 허깅페이스(HuggingFace)를 통해 공개했습니다. 이는 실제 프로덕션 환경에서 MSA의 성능을 입증하려는 시도입니다.

팩트연구진은 MSA의 추론 커널을 오픈소스로 공개하여 개발자들이 직접 활용할 수 있도록 지원합니다. 이는 고성능 AI 모델의 문턱을 낮추는 데 기여할 전망입니다.

출처arxiv의 선공개 논문(https://arxiv.org/abs/2606.13392)을 참고했습니다.

주제

LLM

관련 콘텐츠

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

SCMP

A tale of two markets: Wall Street cheers record highs while Beijing deflates bubbles — When the S&P 500, Nasdaq and Dow Jones Industrial Average hit record highs in early July, US President Donald Trump hailed it as evidence of America’s economic revival. “This is WINNING. The Golden Age of America is beginning – and we are just getting started,” he wrote in a social media post on

2시간 전

SCMP

Judge rules singer D4vd must stand trial in killing of 14-year-old Celeste Rivas Hernandez — A judge ruled on Monday that there is enough evidence to put singer D4vd on trial in the killing and dismemberment of 14-year-old Celeste Rivas Hernandez after, authorities said, she had threatened to expose their relationship and end his career. Los Angeles Judge Charlaine Olmedo decided the eviden

2시간 전

SCMP

Police say there were at least 3 shooters at Seattle food festival, 1 among the dead — Police now say there were at least three suspects involved in a shoot-out at a crowded food festival near Seattle’s Space Needle over the weekend. One of them was among those killed in the violence. In a document filed in juvenile court in Seattle, where a 15-year-old arrested in the case did not ap

2시간 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

중국 AI 모델 확산에 따른 미국 내 기술 경쟁과 규제 논란

AI21시간 전

구조 기반 딥러닝 모델 바이트넷 원의 다가 이온 결합 부위 식별 기술

AI10시간 전

오픈 시큐어 AI 얼라이언스 출범과 보안 생태계 개방

AI15시간 전

태국 1조 바트 규모 랜드브리지 사업 중단 및 인프라 전략 수정

경제10시간 전

분산형 인공 초지능 구현을 위한 에이전트 연결 기술 표준화

AI10시간 전

릴리즈 & 논문

전체보기 →

RELEASES

OpenAIv2.49.0

v2.49.0

Python 3.10 이상 버전이 요구 사항으로 추가되었으며, 버전 검토가 자동화되었습니다.

4시간 전

LangChainlangchain-fireworks==1.5.2

langchain-fireworks==1.5.2

이번 릴리즈에서는 Fireworks 관련 변경 사항이 적용되었습니다. 또한, 모델 프로필 데이터가 여러 차례 업데이트되었습니다.

9시간 전

meta-llama/llama-stackv1.2.2

v1.2.2

CVE-2026-59885 관련 pyasn1 업데이트 및 AsyncOpenAI 클라이언트의 _enforce_credentials=False 설정 관련 수정 사항이 포함되었습니다. 이번 릴리즈는 보안 취약점 수정 및 클라이언트 동작 개선에 중점을 두었습니다.

11시간 전

meta-llama/llama-stackv0.7.3

v0.7.3

이번 릴리즈에서는 Pillow, python-multipart, pyasn1, urllib3, python-dotenv, nltk, langchain-core, aiohttp, pyjwt 등 여러 라이브러리의 보안 취약점(CVE)을 해결하기 위한 업데이트가 포함되었습니다. 또한 CI 설정에서 릴리즈 브랜치에 대한 클라이언트 체크아웃을 고정하는 수정 사항도 적용되었습니다.

11시간 전

meta-llama/llama-stackv0.4.7

v0.4.7

이번 릴리즈에서는 여러 보안 취약점(CVE)을 해결하기 위해 litellm, pillow, pyasn1 등 다양한 의존성 라이브러리가 업데이트되었습니다. 또한, pillow, nltk, langchain-core 라이브러리의 CVE 관련 업데이트가 포함되었습니다.

11시간 전

PAPERS

cs.CV

암시적 및 명시적 기하학을 활용한 3D 인식 VLM

5일 전

cs.AI

MIRROR: 다중 모달 추론을 위한 타 시점 학습

5일 전