MARKETS
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
Wittgenhaus

2026년 5월 4일 월요일

전문가의 AI 하이브리드 리서치 랩

AI미검

알리바바 Qwen 팀, 추론 능력 높이는 FIPO 알고리즘 개발

알리바바 Qwen 연구팀이 강화학습 기반의 새로운 추론 알고리즘인 FIPO를 공개했습니다. 이 알고리즘은 미래 행동을 예측해 보상을 차등 지급함으로써 모델의 추론 체인 길이를 획기적으로 늘렸습니다.

2026년 4월 5일

주장알리바바 Qwen 연구팀은 기존 강화학습의 보상 할당 방식이 가진 한계를 극복하고자 FIPO(Future-KL Influenced Policy Optimization) 알고리즘을 제안했습니다. 기존 방식은 모든 토큰에 동일한 보상을 부여하여 추론 길이에 제약이 있었으나, FIPO는 미래의 행동 변화를 예측하여 보상을 차등 지급합니다.

팩트FIPO 알고리즘은 Qwen2.5-32B-Base 모델을 대상으로 성능을 검증했습니다. 기존 DAPO 방식과 비교했을 때 추론 체인 길이를 4,000 토큰에서 10,000 토큰 이상으로 두 배 넘게 늘렸습니다. AIME 2024 수학 벤치마크에서는 정확도가 50%에서 56%로 상승했으며, 이는 Deepseek-R1-Zero-Math-32B와 OpenAI의 o1-mini를 앞서는 수치입니다.

팩트이 알고리즘은 별도의 가치 평가 모델(Value Model) 없이 강화학습만으로 높은 성능을 달성했습니다. 기존 방식들은 보조 모델을 통해 토큰별 이득 점수를 추정했으나, 이는 외부 데이터 오염 가능성을 높이는 단점이 있었습니다.

팩트모델은 학습 과정에서 4단계의 진화 과정을 거치며 스스로를 검증하는 능력을 습득합니다. 초기에는 단순한 계획을 세우던 모델이 점차 중간 결과를 재계산하고, 대수적 방식에서 기하학적 방식으로 접근법을 바꾸며 교차 검증을 수행하는 단계로 발전합니다.

주장FIPO는 OpenAI의 o-시리즈나 Deepseek-R1이 사용하는 추론 시간 확장 전략과 유사한 효과를 냅니다. 외부의 긴 사고 과정(Long-CoT) 합성 데이터 없이 오직 강화학습만으로 이러한 행동을 자연스럽게 유도했다는 점이 핵심입니다.

팩트학습 안정성을 유지하기 위해 FIPO는 몇 가지 안전장치를 포함합니다. 가까운 토큰에 더 높은 가중치를 부여하는 할인 계수를 적용하고, 학습 단계 간 모델의 변화가 큰 토큰은 필터링하여 학습 붕괴를 방지합니다.

팩트알리바바 Qwen 팀은 이번에 개발한 FIPO 학습 시스템과 모든 설정을 오픈 소스로 공개할 계획입니다. 이는 인공지능 연구 커뮤니티가 강화학습 기반의 추론 모델을 더 깊이 있게 연구할 수 있는 토대가 됩니다.

교차검증현재까지 FIPO의 성능은 수학적 문제 해결 영역에서만 검증되었습니다. 코드 작성이나 기호 논리 등 다른 분야에서도 동일한 성능 향상이 나타날지는 아직 확인되지 않았으며, 추가적인 연구가 필요합니다.

교차검증추론 체인이 길어짐에 따라 연산 비용이 증가하는 문제는 여전히 해결해야 할 과제입니다. 또한, 더 큰 모델로부터 지식을 증류받는 방식과 비교했을 때 순수 강화학습만으로는 학습 효율에 한계가 있을 수 있습니다.

출처해당 내용은 The Decoder의 보도와 알리바바 Qwen 팀의 Arxiv 논문을 교차 검증했습니다.

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

WIRE

WIRE

버블 지표

상세보기 →

릴리즈 & 논문

전체보기 →

RELEASES

LangChainlangchain-anthropic==1.4.3

langchain-anthropic==1.4.3

이번 릴리즈에서는 Anthropic 관련 기능이 1.4.3 버전으로 업데이트되었습니다. 또한, `create_agent`로의 이전 경고 대상 재지정 및 기타 내부 정리 작업이 포함되었습니다. 문서의 X 핸들 참조 업데이트와 Anthropic 관련 HTTPX 최종 처리기 보호 기능도 개선되었습니다.

10시간 전

LangChainlangchain-classic==1.0.5

langchain-classic==1.0.5

langchain-classic 1.0.5 릴리즈에서는 `create_agent`로의 마이그레이션을 위한 경고 메시지 수정 및 기타 정리 작업이 포함되었습니다. 또한, 일부 의존성 버전이 업데이트되었으며, 코어 라이브러리의 최소 버전이 상향 조정되었습니다.

10시간 전

vLLMv0.20.1

vLLM v0.20.1

이번 릴리즈는 v0.20.0 버전을 기반으로 하며, DeepSeek V4의 안정성 및 성능 개선에 중점을 두었습니다. 또한 여러 중요한 버그 수정이 포함되었습니다. 주요 변경 사항으로는 DeepSeek V4 모델 지원, 성능 향상을 위한 다양한 최적화, 그리고 CUDA 그래프 및 메모리 관련 버그 수정 등이 있습니다.

19시간 전

LangChainlangchain-openrouter==0.2.3

langchain-openrouter==0.2.3

langchain-openrouter 0.2.3 버전이 출시되었습니다. 스트리밍 시 분할된 `reasoning_details`를 병합하는 버그가 수정되었습니다.

2일 전

LangChainlangchain-mistralai==1.1.3

langchain-mistralai==1.1.3

이번 릴리즈에서는 MistralAI 통합에 대한 기능 개선 및 버그 수정이 포함되었습니다. 주요 변경 사항으로는 휴먼 메시지에 대한 이미지 입력 지원 추가, 모델 프로필 데이터 업데이트, 그리고 `langchain-core`의 최소 버전이 `1.2.21`로 상향 조정되었습니다. 또한, 여러 의존성 패키지가 최신 버전으로 업데이트되었습니다.

2일 전

PAPERS