한국형 인공지능 에이전트 구축을 위한 합성 데이터셋 공개
엔비디아가 한국의 문화적 맥락을 반영한 합성 데이터셋인 네모트론-페르소나-코리아를 공개했습니다. 공공 데이터와 통계 정보를 기반으로 설계된 이 데이터셋은 한국형 인공지능 서비스의 정확도와 신뢰도를 높일 것으로 기대됩니다.
주장기존 인공지능 모델은 영어 데이터 위주로 학습되어 한국의 존댓말 체계나 지역적 특성, 문화적 맥락을 파악하는 데 한계가 있습니다. 이러한 모델을 공공 보건이나 행정 시스템에 적용하면 부적합한 결과를 초래할 수 있습니다.
팩트엔비디아는 한국형 인공지능 에이전트 구축을 지원하고자 네모트론-페르소나-코리아를 공개했습니다. 이 데이터셋은 통계청, 대법원, 국민건강보험공단 등 공식 기관의 데이터를 기반으로 600만 개의 합성 페르소나를 제공하며 네이버 클라우드가 설계 과정에서 도메인 전문 지식과 시드 데이터를 지원했습니다.
팩트데이터셋은 총 700만 개의 레코드로 구성되며 17개 광역 지자체와 25개 시군구의 인구 통계 정보를 포함합니다. 약 20만 9천 개의 고유한 이름과 2천 개 이상의 직업 카테고리를 반영하여 한국 사회의 다양성을 구현했습니다.
교차검증모든 페르소나는 실제 인구 통계에 기반하지만 개인 식별 정보는 포함하지 않습니다. 이는 한국의 개인정보 보호법을 준수하며 민감한 데이터를 합성 데이터로 대체하는 정부 가이드라인을 따릅니다.
팩트데이터 생성에는 엔비디아의 오픈소스 시스템인 네모 데이터 디자이너가 사용되었습니다. 통계적 근거를 위해 확률적 그래픽 모델을 활용하고 한국어 서사 생성을 위해 젬마-4-31B 모델을 결합했습니다.
주장인공지능 에이전트가 특정 지역이나 직업적 맥락을 가진 페르소나를 시스템 프롬프트로 탑재하면 해당 인물의 전문성과 통신 규범을 상속받습니다. 이는 에이전트가 단순히 정보를 전달하는 수준을 넘어 한국 사회의 맥락에 맞는 상담을 가능하게 합니다.
팩트이 데이터셋은 크리에이티브 커먼즈 저작자 표시 4.0(CC BY 4.0) 라이선스로 제공됩니다. 사용자는 엔비디아의 네모클로우나 네모 엔아이엠(NIM)을 통해 배포할 수 있으며 직업, 지역, 연령 등을 필터링하여 20분 내외로 한국형 에이전트를 구축할 수 있습니다.
교차검증페르소나 기반 에이전트는 일반 모델보다 한국의 보건소 일정이나 국가 예방접종 프로그램 등 현지화된 정보를 더 정확하게 제공합니다. 이는 글로벌 가이드라인을 따르는 일반 모델과 비교했을 때 사용자 신뢰도를 높이는 결과로 이어집니다.
팩트네모트론-페르소나 컬렉션은 한국 외에도 미국, 일본, 인도, 싱가포르, 브라질, 프랑스 등 다양한 국가의 데이터를 포함합니다. 다국어 에이전트를 구축하는 개발자는 여러 국가의 페르소나를 동일한 파이프라인에서 통합하여 사용합니다.
출처허깅페이스 엔비디아 블로그(https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas)를 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.