IBM Granite 4.1 모델의 데이터 큐레이션 기반 성능 최적화
IBM이 데이터 품질을 높여 소형 모델의 효율성을 극대화한 Granite 4.1을 공개했습니다. 15조 개의 토큰을 활용한 다단계 학습과 엄격한 품질 관리를 통해 기업용 인공지능 환경에 최적화했습니다.
주장IBM의 Granite 4.1 모델은 매개변수 규모를 무작정 늘리는 대신 데이터 큐레이션의 질적 향상에 집중합니다. 이는 기업용 인공지능 환경에서 효율성과 성능을 동시에 확보하려는 전략적 선택입니다.
팩트Granite 4.1은 3B, 8B, 30B 크기의 디코더 전용 밀집 모델로 구성됩니다. 이 모델들은 약 15조 개의 토큰을 학습하며 5단계의 다단계 사전 학습 과정을 거칩니다.
팩트모델 아키텍처는 GQA, RoPE, SwiGLU 활성화 함수, RMSNorm을 채택하여 설계되었습니다. 8B 인스트럭트 모델은 이전 버전인 32B MoE 모델과 대등하거나 더 뛰어난 성능을 보입니다.
팩트사전 학습은 5단계로 나뉘며 1~2단계는 기초 학습, 3~4단계는 고품질 데이터 어닐링, 5단계는 긴 문맥 학습으로 진행됩니다. 1단계에서는 일반 웹 데이터가 59%를 차지하지만, 이후 단계로 갈수록 수학, 코드, 합성 데이터의 비중이 증가합니다.
교차검증512K 토큰에 달하는 긴 문맥 처리 능력을 확보하기 위해 단계별 확장 과정을 거칩니다. 이 과정에서 짧은 문맥 성능 저하를 막고자 각 단계마다 모델 병합을 수행하는 기술적 보완책을 적용합니다.
주장지도 미세 조정 단계에서는 LLM-as-Judge 프레임워크를 도입하여 데이터 품질을 엄격하게 관리합니다. 이는 모델이 환각 현상을 일으키거나 잘못된 정보를 생성하는 것을 방지하는 핵심 품질 통제 과정입니다.
팩트지도 미세 조정 데이터는 구조적, 의미적, 행동적 기준에 따라 평가됩니다. 환각이나 잘못된 계산이 포함된 데이터는 점수와 관계없이 즉시 제거하며 검색 증강 생성 환경에서의 답변이 검색된 문맥에 근거하는지 확인하는 검증 절차도 포함합니다.
팩트모든 Granite 4.1 모델은 아파치 2.0 라이선스로 배포되어 기업이 자유롭게 활용할 수 있습니다. 이는 오픈 소스 생태계 내에서 IBM의 영향력을 확대하려는 의도입니다.
교차검증모델 성능은 RULER 벤치마크를 통해 검증되었으며 30B 모델의 경우 128K 문맥에서 76.7점을 기록했습니다. 다만 모델 크기가 작을수록 긴 문맥 처리 시 성능 하락폭이 존재하므로 용도에 맞는 모델 선택이 필요합니다.
출처허깅페이스 공식 블로그 및 IBM Granite 팀 기술 문서를 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.