다르마AI의 DPO 기술을 활용한 OCR 모델 오류 개선
다르마AI가 직접 선호도 최적화(DPO) 기술을 활용해 광학 문자 인식(OCR) 모델의 텍스트 퇴화 현상을 획기적으로 줄였습니다. 기존 지도 미세 조정 방식의 한계를 넘어 모델 스스로 생성한 실패 사례를 학습에 활용했습니다.
주장다르마AI는 직접 선호도 최적화(DPO) 기술을 챗봇 대화 정렬이 아닌 구조화된 문서 추출 작업인 광학 문자 인식(OCR) 모델 개선에 적용했습니다. 이는 DPO가 대화형 모델을 넘어 특정 작업의 오류를 직접적으로 완화하는 도구로 활용될 수 있음을 증명합니다.
팩트2026년 6월 3일 발표된 내용에 따르면, 다르마OCR 모델은 포르투갈어 텍스트 추출 작업에서 텍스트 퇴화 현상을 겪었습니다. 기존의 지도 미세 조정(SFT) 방식만으로는 이 퇴화율을 실무에 적용 가능한 수준으로 낮추는 데 한계가 있었습니다.
교차검증지도 미세 조정은 모델의 도메인 적응력을 높이지만, 반복 루프와 같은 구조적 오류를 직접적으로 제어하지는 못합니다. 따라서 지도 미세 조정만으로는 모델의 성능 향상과 퇴화 방지를 동시에 달성하기 어렵다는 구조적 한계가 존재합니다.
팩트텍스트 퇴화는 모델이 추론 과정에서 높은 확률의 반복 루프 영역에 빠지는 기하학적 현상입니다. 이는 단순히 디코딩 과정의 문제가 아니라, 학습 목표와 확률 분포가 결합하여 발생하는 시스템 수준의 실패입니다.
교차검증특정 모델군에서는 지도 미세 조정 이후 오히려 퇴화율이 0.60%에서 3.23%로 상승하는 사례가 발견되었습니다. 이는 지도 미세 조정이 퇴화 현상을 일관되게 해결하지 못하며, 모델의 능력과 퇴화 저항성이 독립적으로 움직일 수 있음을 시사합니다.
주장이러한 한계를 극복하기 위해 DPO는 전체 출력을 하나의 단위로 평가합니다. 토큰 단위로 평가하는 지도 미세 조정보다 오류 수정에 유리하며, 퇴화된 출력을 명시적으로 잘못된 결과로 라벨링해 모델이 해당 경로를 피하도록 유도합니다.
팩트연구 결과, 지도 미세 조정 이후 DPO 단계를 추가했을 때 테스트된 모든 모델군에서 텍스트 퇴화 현상이 감소했습니다. 평균 감소율은 59.4%를 기록했으며, 가장 높은 성과를 보인 모델은 퇴화율을 87.6%까지 줄였습니다.
팩트다르마OCR은 모델이 스스로 생성한 실패 사례를 DPO 학습의 부정적 신호로 활용했습니다. 2만3726개의 학습 문서를 사용하여 지도 미세 조정 모델이 생성한 여러 후보군 중 퇴화 현상이 나타난 출력을 거부된 예시로 설정했습니다.
주장구조화된 생성 작업에서는 인간의 주관적 평가 대신 작업의 정확성 기준을 선호 신호로 삼아야 합니다. 모델이 스스로 범하는 전형적인 실패 유형을 학습 데이터로 삼는 것이 가장 효과적인 오류 완화 전략입니다.
주장이번 사례는 DPO가 언어 모델의 정렬을 넘어 데이터 추출과 같은 특정 도메인의 기술적 결함을 해결하는 핵심 기술로 자리 잡을 수 있음을 보여줍니다. 앞으로 구조화된 문서 처리 분야에서 DPO의 활용 범위는 더욱 확대될 전망입니다.
주장다르마AI의 접근 방식은 모델의 자가 학습 데이터를 활용해 정교한 오류 교정을 수행했다는 점에서 의미가 큽니다. 이는 향후 OCR 기술의 신뢰성을 높이는 중요한 이정표가 됩니다.
출처허깅페이스 블로그의 다르마AI DPO 관련 게시물과 다르마OCR 연구 논문을 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

