AI미검

알리바바 Qwen 팀, 추론 능력 높이는 FIPO 알고리즘 개발

알리바바 Qwen 연구팀이 강화학습 기반의 새로운 추론 알고리즘인 FIPO를 공개했습니다. 이 알고리즘은 미래 행동을 예측해 보상을 차등 지급함으로써 모델의 추론 체인 길이를 획기적으로 늘렸습니다.

2026년 4월 5일

주장알리바바 Qwen 연구팀은 기존 강화학습의 보상 할당 방식이 가진 한계를 극복하고자 FIPO(Future-KL Influenced Policy Optimization) 알고리즘을 제안했습니다. 기존 방식은 모든 토큰에 동일한 보상을 부여하여 추론 길이에 제약이 있었으나, FIPO는 미래의 행동 변화를 예측하여 보상을 차등 지급합니다.

팩트FIPO 알고리즘은 Qwen2.5-32B-Base 모델을 대상으로 성능을 검증했습니다. 기존 DAPO 방식과 비교했을 때 추론 체인 길이를 4,000 토큰에서 10,000 토큰 이상으로 두 배 넘게 늘렸습니다. AIME 2024 수학 벤치마크에서는 정확도가 50%에서 56%로 상승했으며, 이는 Deepseek-R1-Zero-Math-32B와 OpenAI의 o1-mini를 앞서는 수치입니다.

팩트이 알고리즘은 별도의 가치 평가 모델(Value Model) 없이 강화학습만으로 높은 성능을 달성했습니다. 기존 방식들은 보조 모델을 통해 토큰별 이득 점수를 추정했으나, 이는 외부 데이터 오염 가능성을 높이는 단점이 있었습니다.

팩트모델은 학습 과정에서 4단계의 진화 과정을 거치며 스스로를 검증하는 능력을 습득합니다. 초기에는 단순한 계획을 세우던 모델이 점차 중간 결과를 재계산하고, 대수적 방식에서 기하학적 방식으로 접근법을 바꾸며 교차 검증을 수행하는 단계로 발전합니다.

주장FIPO는 OpenAI의 o-시리즈나 Deepseek-R1이 사용하는 추론 시간 확장 전략과 유사한 효과를 냅니다. 외부의 긴 사고 과정(Long-CoT) 합성 데이터 없이 오직 강화학습만으로 이러한 행동을 자연스럽게 유도했다는 점이 핵심입니다.

팩트학습 안정성을 유지하기 위해 FIPO는 몇 가지 안전장치를 포함합니다. 가까운 토큰에 더 높은 가중치를 부여하는 할인 계수를 적용하고, 학습 단계 간 모델의 변화가 큰 토큰은 필터링하여 학습 붕괴를 방지합니다.

팩트알리바바 Qwen 팀은 이번에 개발한 FIPO 학습 시스템과 모든 설정을 오픈 소스로 공개할 계획입니다. 이는 인공지능 연구 커뮤니티가 강화학습 기반의 추론 모델을 더 깊이 있게 연구할 수 있는 토대가 됩니다.

교차검증현재까지 FIPO의 성능은 수학적 문제 해결 영역에서만 검증되었습니다. 코드 작성이나 기호 논리 등 다른 분야에서도 동일한 성능 향상이 나타날지는 아직 확인되지 않았으며, 추가적인 연구가 필요합니다.

교차검증추론 체인이 길어짐에 따라 연산 비용이 증가하는 문제는 여전히 해결해야 할 과제입니다. 또한, 더 큰 모델로부터 지식을 증류받는 방식과 비교했을 때 순수 강화학습만으로는 학습 효율에 한계가 있을 수 있습니다.

출처해당 내용은 The Decoder의 보도와 알리바바 Qwen 팀의 Arxiv 논문을 교차 검증했습니다.

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

TELEGRAM · Clash Report

Trump: We are doing a lot of trips. We will be going to Türkiye. We will, at some point, be going back to China for a big conference.

5시간 전

TELEGRAM · Clash Report

Trump: I want to thank China. I asked President Xi not to get involved in Iran. He said he wouldn't, and he didn't. Very nice.

5시간 전

TELEGRAM · Clash Report

Trump: Bibi Netanyahu is a warrior-prime minister. He should be acknowledged as that. They should give him credit.

5시간 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

뇌-컴퓨터 인터페이스(BCI) 임상 시험의 급격한 증가와 기술적 도약

AI19시간 전

구글, 생성형 AI 스팸 탐지 기술 S-CTS 도입

AI14시간 전

아우라, 전자잉크 적용 디지털 액자 잉크 출시

AI5시간 전

릴라이언스 인더스트리, 인도 AI 시장 주도권 확보 전략

AI11시간 전

인공지능 모델의 인물 인식 수준 확인 도구 '인 더 웨이츠'

AI19시간 전

릴리즈 & 논문

전체보기 →

RELEASES

LangChainlangchain==1.3.10

langchain==1.3.10

langchain 1.3.10 릴리즈에서는 cryptography, aiohttp, pyjwt 라이브러리 버전이 업데이트되었습니다. 또한, 요약 형식 변경 및 특정 스냅샷에 대한 프로바이더 전략 감지 기능이 수정되었습니다. README 설치 및 리소스 문서도 갱신되었습니다.

1일 전

LangChainlangchain-core==1.4.8

langchain-core==1.4.8

이번 릴리즈에서는 Python 3.10 미만 버전에 대한 코드가 제거되었으며, `BaseTool.tool_call_schema` 및 `model_json_schema`에 대한 성능 개선이 이루어졌습니다. 또한, v3 스트리밍 이벤트에서 사용 토큰 세부 정보가 보존되고, 명시적 역직렬화 허용 목록에 대한 테스트가 업데이트되었습니다.

1일 전

Anthropicv0.111.0

v0.111.0

이번 릴리즈에서는 refusal-fallback 미들웨어 요청에 fallback-refusal-middleware 태그를 추가하는 기능이 포함되었습니다. 자세한 변경 사항은 전체 변경 로그를 참조하시기 바랍니다.

1일 전

Anthropicv0.110.0

v0.110.0

이번 릴리즈에서는 새로운 code_execution_20260120 도구에 대한 지원이 추가되었습니다. 또한, 헤더 병합 시 x-stainless-helper가 덮어쓰이는 대신 추가되도록 수정되었으며, 스트림 이벤트 유형이 보존되도록 개선되었습니다.

1일 전

OpenAIv2.43.0

v2.43.0

OpenAI Python 라이브러리가 v2.43.0 버전으로 업데이트되었습니다. 이번 릴리즈에서는 API 관련 변경 사항으로 OpenAPI 사양 또는 Stainless 설정을 업데이트했습니다.