MIT, 차트 해석 인공지능 학습용 데이터셋 차트넷 개발
MIT와 MIT-IBM 컴퓨팅 연구소가 차트 해석 능력을 높이는 대규모 데이터셋 차트넷을 개발했습니다. 이 데이터셋은 100만 개 이상의 차트 이미지와 관련 데이터를 포함하며 인공지능 모델의 성능을 크게 향상합니다.
주장비즈니스 트렌드 분석과 과학적 수치 해석을 위해서는 차트를 정확히 이해하는 인공지능 모델이 필수적입니다. 기존의 시각-언어 모델은 차트의 복잡한 시각적 정보와 수치 데이터를 통합하는 과정에서 한계를 보였습니다.
팩트MIT와 MIT-IBM 컴퓨팅 연구소는 차트넷(ChartNet)이라는 새로운 데이터셋을 개발했습니다. 이 데이터셋은 100만 개 이상의 다양한 차트 이미지와 함께 해당 차트를 생성하는 코드, 텍스트 설명, 수치 데이터 테이블을 포함합니다.
팩트연구진은 차트넷을 활용해 오픈소스 시각-언어 모델을 학습시켰습니다. 그 결과, 소규모 오픈소스 모델이 데이터 추출 및 차트 요약 작업에서 기존의 대규모 상용 모델 성능을 능가했습니다.
교차검증기존 데이터셋은 인터넷에서 수집한 제한적인 이미지에 의존하여 모델이 차트의 기본 데이터를 해석하는 데 필요한 규모와 추가 정보가 부족했습니다. 차트넷은 이러한 고품질 학습 데이터 부족 문제를 해결하기 위해 합성 데이터 생성 방식을 도입했습니다.
팩트요바나 콘디치 연구원은 단 하나의 차트를 기반으로 수백 개의 변형을 생성하여 100만 개 이상의 이미지를 구축했습니다. 연구진은 코드 실행 가능 여부와 이미지의 정확성을 확인하는 자동 품질 검사 절차를 거쳐 데이터의 완성도를 높였습니다.
주장차트넷은 차트 이해를 위한 원스톱 솔루션을 지향하며 인공지능 모델과 이를 훈련하는 실무자가 필요로 하는 요소를 모두 포함합니다. 연구진은 이 데이터셋이 방대한 연산 자원이 없는 소규모 기업도 고성능 인공지능을 활용하도록 돕기를 기대합니다.
팩트차트넷에는 합성 데이터뿐만 아니라 인간 전문가가 직접 주석을 단 데이터도 포함되어 있습니다. 이는 특정 응용 분야에서 모델의 성능을 미세 조정하는 데 활용되어 데이터의 신뢰성을 보장합니다.
교차검증시각-언어 모델은 선 차트와 같은 특정 유형을 안정적으로 인식하기 위해 학습 과정에서 수천 개의 예시를 필요로 합니다. 차트넷은 이러한 학습 요구 사항을 충족하기 위해 질문-답변 쌍을 포함하여 모델이 차트 정보를 올바르게 연결하도록 유도합니다.
팩트이번 연구 결과는 미국 전기전자공학회(IEEE) 컴퓨터 비전 및 패턴 인식 학회에서 발표될 예정입니다. 연구에는 MIT와 IBM 리서치의 다수 전문가가 공동 저자로 참여하여 기술적 완성도를 높였습니다.
출처MIT News 보도자료(https://news.mit.edu/2026/mit-researchers-teach-ai-models-to-interpret-charts-0603)를 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

