전문가 모델 효율 극대화한 EMO 모델 개발
앨런 인공지능 연구소와 UC 버클리 연구진이 모듈형 구조를 갖춘 EMO 모델을 개발했습니다. 이 모델은 전체 전문가의 일부만 사용해도 성능 저하를 최소화합니다. 메모리 제약 환경에서 효율적인 운영이 가능합니다.
주장앨런 인공지능 연구소와 UC 버클리 연구진이 사전 학습 과정에서 모듈형 구조를 형성하는 EMO(Expert Modular Optimization) 모델을 개발했습니다. 이 모델은 전체 전문가 중 일부만 남겨도 성능 저하가 거의 발생하지 않는다는 점이 핵심입니다.
팩트EMO 모델은 128개의 전문가 중 25퍼센트인 32개만 사용해도 성능 하락이 1퍼센트 포인트에 불과합니다. 12.5퍼센트인 16개의 전문가만 사용해도 성능 하락은 약 3퍼센트 포인트 수준으로 유지됩니다.
교차검증기존의 혼합 전문가 모델은 전문가들이 문법적 패턴이나 구두점 같은 얕은 언어 정보에 의존합니다. 이로 인해 특정 도메인만 추출하여 모델을 경량화하는 작업이 사실상 불가능합니다.
팩트연구진은 문서 경계라는 학습 신호를 활용하여 모델이 특정 도메인에 전문성을 갖도록 유도했습니다. 문서 내 토큰들이 공유된 전문가 풀에서 활성화되도록 강제하여 도메인별 전문화를 달성했습니다.
팩트학습 안정성을 위해 연구진은 로드 밸런싱을 개별 배치가 아닌 문서 전체에 걸쳐 전역적으로 계산했습니다. 또한 학습 도중 문서 풀의 크기를 무작위로 변경하여 추론 시 다양한 크기의 전문가 하위 그룹을 다룰 수 있도록 설계했습니다.
주장EMO 모델은 전문가들이 실제 주제별로 전문성을 학습하게 합니다. 이는 모델이 건강, 정치, 영화 등 특정 도메인에 맞춰 내부적으로 구조화됨을 의미합니다.
교차검증표준 혼합 전문가 모델은 동일한 설정에서 전문가를 제거할 경우 성능이 10에서 15퍼센트 포인트까지 급락합니다. 심지어 동일한 활성 매개변수를 가진 밀집 모델보다 성능이 낮아지는 경우도 발생합니다.
팩트연구진은 10억 개의 활성 매개변수와 140억 개의 전체 매개변수를 가진 모델을 1조 개의 토큰으로 학습시켰습니다. 해당 모델은 동일한 조건의 표준 모델보다 우수한 성능을 보였습니다.
주장EMO 모델은 메모리 제약이 있는 환경에서 특정 도메인 전문가만 로드하여 효율적으로 운영할 수 있습니다. 또한 유해 콘텐츠 차단이나 특정 목적을 위한 모델 미세 조정에도 유용하게 활용됩니다.
출처더 디코더(The Decoder) 보도 내용 및 관련 논문 자료를 교차 검증했습니다. 연구진은 허깅페이스와 깃허브를 통해 모델과 학습 코드를 공개했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.