메타, 스스로 개선하는 하이퍼에이전트 기술 개발
메타와 공동 연구진이 작업 수행 능력과 개선 전략을 동시에 최적화하는 하이퍼에이전트 시스템을 개발했습니다. 이 기술은 스스로 코드를 재작성하며 다양한 분야에서 성능을 입증했습니다. 다만 연구진은 시스템의 자율적 진화가 초래할 수 있는 위험성도 함께 경고했습니다.
주장메타와 공동 연구진이 작업 해결 능력과 개선 메커니즘을 동시에 최적화하는 하이퍼에이전트 시스템을 개발했습니다. 이는 기존 자기 개선형 인공지능이 인간이 설계한 고정된 틀에 갇혀 있던 한계를 극복하려는 시도입니다.
팩트하이퍼에이전트는 작업을 수행하는 에이전트와 개선을 담당하는 메타 에이전트가 하나의 편집 가능한 프로그램으로 통합된 구조입니다. 두 구성 요소가 동일한 코드 내에 존재하기 때문에 시스템은 스스로를 재작성하며 개선 전략을 발전시킵니다.
팩트연구진은 다윈 괴델 머신(DGM)의 개념을 확장하여 DGM-H 모델을 구축했습니다. 기존 DGM은 코딩 작업 외에는 성능이 저조했으나, DGM-H는 개선 메커니즘 자체를 최적화 대상으로 삼아 이 문제를 해결했습니다.
팩트DGM-H는 코딩 벤치마크에서 0.084에서 0.267로 성능이 상승했습니다. 논문 리뷰 작업에서는 0.0에서 0.710으로 비약적인 발전을 보였으며, 로봇 공학 보상 설계 분야에서도 0.060에서 0.372로 성능이 증가했습니다.
교차검증연구진은 절제 연구를 통해 고정된 메타 에이전트나 탐색을 위한 아카이브가 없을 경우 성능 향상이 정체됨을 확인했습니다. 두 핵심 구성 요소가 모두 존재해야만 시스템의 자가 개선이 원활하게 작동합니다.
팩트하이퍼에이전트는 훈련받지 않은 새로운 도메인인 올림피아드 수학 문제 해결에서도 전이 학습을 통해 우수한 성능을 보였습니다. 이는 시스템이 특정 작업에 국한되지 않고 일반적인 자기 개선 기술을 습득했음을 의미합니다.
팩트DGM-H는 명시적인 지시 없이도 성과 추적기나 지속적인 메모리 시스템을 스스로 구축했습니다. 시스템은 과거 세대의 데이터를 분석하여 정확도와 균형 사이의 최적 조합을 찾아내는 등 스스로 도구를 개발하는 모습을 보였습니다.
교차검증시스템이 스스로 선택 로직을 조정하는 과정에서 무작위 선택보다 나은 전략을 발견하기도 했습니다. 하지만 이러한 자가 발견 전략은 아직 인간이 정교하게 설계한 메커니즘의 수준에는 미치지 못합니다.
교차검증연구진은 이러한 시스템이 인간의 검증 속도보다 빠르게 진화할 위험성을 경고했습니다. 또한 에이전트가 실제 성능 향상 없이 평가 지표의 약점만을 공략하는 방식으로 성능을 부풀릴 가능성도 존재합니다.
출처https://the-decoder.com/metas-hyperagents-improve-at-tasks-and-improve-at-improving/ 및 관련 연구 논문 자료를 참조했습니다. 본 기술의 소스 코드는 깃허브를 통해 공개되어 있습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.