MARKETS
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
Wittgenhaus

2026년 6월 10일 수요일

AI 시대, 당신을 더욱 스마트하게

AI미검

거대언어모델 온폴리시 증류의 기하학적 구조와 학습 역학 규명

연구진은 온폴리시 증류(OPD)가 거대언어모델의 추론 능력을 향상하는 과정에서 나타나는 파라미터 공간의 변화를 분석했습니다. 연구 결과 OPD는 지도 미세 조정(SFT)이나 강화 학습(RLVR)과는 차별화된 고유의 학습 기하학적 구조를 형성함을 확인했습니다.

2026년 6월 9일

팩트젠난 션(Zhennan Shen)을 포함한 다국적 연구진은 최근 거대언어모델의 추론 성능을 높이는 온폴리시 증류(On-Policy Distillation, OPD)의 학습 역학을 분석한 논문을 발표했습니다. 연구진 소속 정보는 arxiv 등록 기준입니다.

주장연구진은 OPD가 단순히 지도 미세 조정(Supervised Fine-Tuning, SFT)과 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR) 사이의 중간 단계가 아니라고 강조합니다. OPD는 모델의 파라미터 공간에서 독자적인 업데이트 기하학을 형성합니다.

팩트연구진은 파라미터 공간 진단 도구를 활용해 OPD의 업데이트 궤적을 SFT 및 RLVR과 비교했습니다. 그 결과 OPD는 SFT보다 적은 가중치에 영향을 미치며 주요 방향을 회피하는 경향을 보였습니다.

팩트OPD는 RLVR과 비교했을 때 파라미터 업데이트 과정에서 상대적으로 덜 엄격한 제약을 받는 것으로 나타났습니다. 이는 OPD가 모델 학습 과정에서 고유한 유연성을 유지함을 의미합니다.

주장본 연구의 핵심 발견은 '부분 공간 잠금(Subspace Locking)' 현상입니다. OPD의 누적 업데이트는 학습 초기 단계에서 좁고 낮은 차원의 채널로 빠르게 진입합니다.

팩트연구진은 학습 초기 형성된 업데이트 부분 공간(Update Subspace) 내에서만 학습을 제한하는 실험을 수행했습니다. 이 경우 OPD의 성능은 유지되었으나, SFT의 성능은 크게 저하되었습니다.

팩트이러한 결과는 OPD가 학습 초기부터 특정 부분 공간을 확보하고 이를 기능적으로 충분히 활용한다는 사실을 입증합니다. 모델의 잠재 공간(Latent Space, 데이터의 핵심 특징을 압축하여 표현하는 다차원 공간) 내에서 효율적인 경로를 찾아가는 셈입니다.

교차검증본 논문은 arxiv에 선공개된 프리프린트로, 학계의 공식적인 동료 평가(Peer Review)를 거치지 않았습니다. 따라서 연구 결과의 학술적 타당성에 대해서는 향후 추가적인 검증이 필요합니다.

교차검증연구진이 제시한 부분 공간 잠금 현상이 다양한 모델 아키텍처와 데이터셋에서도 동일하게 재현되는지는 명확하지 않습니다. 일반화 가능성(Generalizability) 측면에서 특정 모델 구조에 편향된 결과일 가능성을 배제할 수 없습니다.

주장연구진은 업데이트 토큰을 희소화(Sparsifying)하거나 롤아웃 생성을 오프폴리시(Off-policy)로 전환해도 OPD의 순위 역학(Rank Dynamics)은 유지된다고 설명합니다. 이는 OPD의 학습 구조가 외부 변수에 대해 상당한 견고함을 갖췄음을 시사합니다.

팩트반면, OPD 목적 함수를 RLVR과 혼합할 경우 이러한 고유한 순위 역학은 변화하는 것으로 나타났습니다. 이는 서로 다른 학습 기법이 모델 파라미터에 미치는 영향이 근본적으로 다름을 보여줍니다.

출처arxiv의 선공개 논문(https://arxiv.org/abs/2606.07082)을 참고했습니다.

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

릴리즈 & 논문

전체보기 →

PAPERS