AWS, 지능형 문서 처리 스키마 자동 생성 기능 공개
아마존웹서비스(AWS)가 기업의 지능형 문서 처리(IDP) 도입을 돕는 다중 문서 발견 기능을 발표했습니다. 이 기술은 문서 레이아웃을 자동 분석해 스키마를 생성함으로써 수작업 효율을 높입니다.
주장지능형 문서 처리(IDP) 도입 과정에서 가장 큰 장애물은 수천 개에 달하는 문서 유형을 일일이 정의하고 스키마를 생성하는 수작업입니다. 아마존웹서비스(AWS)는 이번에 발표한 다중 문서 발견 기능을 통해 이러한 수동 작업을 자동화하고 기업의 IDP 도입 장벽을 낮춥니다.
팩트해당 솔루션은 AWS 스텝 펑션스(Step Functions)와 AWS 람다(Lambda)를 활용해 서버리스 환경에서 작동합니다. 사용자가 아마존 S3 버킷이나 압축 파일 형태로 문서를 올리면 아마존 베드록(Bedrock) 모델이 이를 분석해 IDP 가속기용 구성 파일을 자동으로 만듭니다.
팩트문서 분류 단계에서는 코히어 임베드(Cohere Embed) v4 모델을 사용해 문서의 시각적 특징을 벡터 임베딩으로 변환합니다. 시스템은 텍스트 내용보다 문서의 레이아웃과 구조적 특징을 우선 분석하여 유사한 유형의 문서를 클러스터링합니다.
팩트클러스터링 최적화는 실루엣 점수를 기준으로 결정하며 케이-민즈(k-means) 알고리즘을 통해 케이(k)값을 2에서 20 사이로 테스트합니다. 시스템은 가장 높은 점수를 기록한 그룹화 방식을 선택해 문서 유형 개수를 자동으로 파악합니다.
팩트클러스터링이 완료되면 스트랜즈 에이전트(Strands Agent)가 각 그룹을 분석해 문서 유형을 식별하고 스키마를 생성합니다. 에이전트는 클러스터 중심부와 주변부 등 다양한 위치의 문서를 전략적으로 샘플링하여 문서의 변동성을 포괄적으로 반영합니다.
주장이번 기술은 라벨링 되지 않은 대규모 문서 집합을 즉시 활용 가능한 구조적 데이터로 변환하는 데 핵심적인 역할을 합니다. 이는 데이터 과학자가 수동으로 분류 규칙을 만들던 기존의 비효율적인 방식을 획기적으로 개선합니다.
팩트벤치마크 테스트 결과, 조정된 랜드 지수(ARI)와 정규화된 상호 정보량(NMI)에서 1.0이라는 수치를 기록했습니다. 이는 모델이 은행 수표, 임대 계약서, 신용카드 명세서 등 다양한 문서를 정확하게 구분함을 의미합니다.
교차검증벤치마크 데이터셋에서 9개의 문서 유형을 완벽하게 분류했으나 이는 특정 데이터셋을 기준으로 한 결과입니다. 실제 기업 환경의 데이터 특성에 따라 클러스터링 품질과 스키마 생성 정확도는 달라질 수 있습니다.
교차검증본 솔루션은 다중 페이지 문서의 경우 첫 번째 페이지만을 사용해 임베딩을 생성합니다. 문서 첫 페이지에 유형을 구분할 시각적 정보가 부족하면 분류 정확도가 떨어질 위험이 있습니다.
출처AWS 머신러닝 블로그(https://aws.amazon.com/blogs/machine-learning/automate-schema-generation-for-intelligent-document-processing/)를 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.