구글 젬마 4 공개, 온디바이스 멀티모달 AI 시대 연다
구글 딥마인드가 온디바이스 환경에 최적화된 개방형 멀티모달 모델 젬마 4를 발표했습니다. 효율적인 추론 기술을 적용해 적은 파라미터로도 높은 성능을 구현하며 개발자 접근성을 높였습니다.
주장구글 딥마인드의 젬마 4는 온디바이스 환경에서 고성능 멀티모달 지능을 구현합니다. 아파치 2.0 라이선스를 채택하여 누구나 자유롭게 활용하고 미세 조정할 수 있는 개방형 모델입니다.
팩트젬마 4는 총 4가지 모델 크기로 출시되었습니다. 모든 모델은 기본 모델과 지시어 미세 조정 모델을 포함합니다. E2B와 E4B 모델은 128k 컨텍스트 윈도우를 지원하며, 31B와 26B 모델은 256k 컨텍스트 윈도우를 제공합니다.
팩트젬마 4는 텍스트뿐만 아니라 이미지와 오디오 입력을 지원하는 멀티모달 모델입니다. 특히 소형 모델인 E2B와 E4B는 오디오 처리 기능을 포함하여 다양한 온디바이스 환경에서 활용 가능합니다.
팩트31B 밀집 모델은 1452점의 엘엠아레나(LMArena) 텍스트 점수를 기록했습니다. 26B 혼합 전문가(MoE) 모델은 4B 활성 파라미터만으로 1441점을 달성했습니다. 이는 기존 모델 대비 약 30배 적은 파라미터로도 유사한 성능을 낸다는 의미입니다.
주장젬마 4는 효율적인 추론을 위해 계층별 임베딩(PLE)과 공유 키-값(KV) 캐시 기술을 도입했습니다. 이러한 구조적 혁신은 모델의 메모리 사용량을 줄이고 긴 문맥 처리 능력을 향상시킵니다.
팩트계층별 임베딩은 각 디코더 계층에 별도의 저차원 조건부 경로를 제공하여 모델의 효율성을 높입니다. 이는 모든 정보를 초기 임베딩에 압축해야 하는 기존 트랜스포머 모델의 한계를 극복합니다.
교차검증공유 키-값 캐시는 모델의 마지막 계층들이 앞선 계층의 상태를 재사용하게 하여 연산량을 줄입니다. 이 기술은 성능 저하를 최소화하면서 온디바이스 환경에서의 속도와 메모리 효율을 극대화합니다.
팩트젬마 4의 비전 인코더는 가변 종횡비를 지원합니다. 사용자는 속도와 품질 사이의 균형을 맞추기 위해 이미지 토큰 수를 설정할 수 있습니다. 이는 광학 문자 인식(OCR), 객체 탐지, 그래픽 사용자 인터페이스(GUI) 요소 분석 등 다양한 시각적 작업에 최적화됩니다.
주장젬마 4는 허깅페이스의 트랜스포머, 라마(Llama).cpp, 엠엘엑스(MLX) 등 다양한 라이브러리와 호환됩니다. 개발자는 선호하는 도구를 사용하여 즉시 모델을 배포하고 미세 조정할 수 있습니다.
출처허깅페이스의 젬마 4 기술 블로그를 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.