아마존 베드록 기반 동적 문서 데이터 추출 파이프라인 구축
기업은 아마존 베드록의 온디맨드와 배치 추론 방식을 결합하여 비정형 문서에서 효율적으로 데이터를 추출합니다. 이 시스템은 문서 특성에 따라 처리 방식과 프롬프트를 최적화하여 비즈니스 인텔리전스를 확보합니다.
주장기업은 아마존 베드록(Amazon Bedrock)을 활용하여 방대한 비정형 문서에서 비즈니스 인텔리전스를 효율적으로 추출합니다. 온디맨드와 배치 추론 방식을 결합하면 처리 시간과 비용을 유연하게 관리할 수 있습니다.
팩트온디맨드 파이프라인은 아마존 심플 큐 서비스(AWS SQS) FIFO 큐를 사용하여 문서별로 즉각적인 처리를 수행합니다. 결과가 수 초 내에 필요한 시간 민감형 작업에 이 방식을 적용합니다.
팩트온디맨드 파이프라인은 아마존 람다(AWS Lambda) 함수를 통해 PDF 문서를 PNG 이미지로 변환합니다. 변환된 데이터는 아마존 다이나모DB(Amazon DynamoDB) 테이블에 저장하며, 작업 완료 시 SQS 메시지는 큐에서 자동으로 삭제됩니다.
팩트배치 추론 파이프라인은 표준 SQS 큐를 사용하여 대량의 문서를 비동기적으로 처리합니다. 이는 처리 효율성을 극대화하여 비용을 최적화하는 데 유리합니다.
팩트배치 추론 작업은 아마존 이벤트브리지(Amazon EventBridge) 스케줄러가 주기적으로 실행합니다. 아마존 베드록 배치 추론 작업을 수행하려면 최소 100개의 레코드가 필요합니다.
교차검증표준 SQS 큐를 사용하는 배치 파이프라인은 메시지 중복 전달 가능성이 존재합니다. 따라서 람다 함수 내에 중복 메시지를 식별하고 무시하는 로직을 반드시 포함해야 합니다.
교차검증클로드 3.5 소네트(Claude 3.5 Sonnet) 모델은 멀티모달 호출당 최대 20개의 이미지만 처리합니다. 20페이지가 넘는 문서는 청크 단위로 분할하여 처리해야 하는 기술적 제약이 있습니다.
팩트아마존 베드록 프롬프트 관리 기능을 통해 프롬프트 아이디(ID)와 버전을 문서 수준에서 동적으로 지정합니다. 다양한 형식의 문서에 최적화된 프롬프트를 적용하여 추출 정확도를 높입니다.
팩트프롬프트 관리 서비스에는 리전당 50개의 프롬프트와 프롬프트당 10개의 버전이라는 서비스 제한이 존재합니다. 사용자는 이 제한 범위 내에서 프롬프트 버전을 관리합니다.
주장데이터 추출 파이프라인의 성공적인 운영을 위해서는 문서의 양과 처리 속도 요구사항을 사전에 분석해야 합니다. 두 가지 파이프라인 방식을 적절히 혼용하는 전략이 필요합니다.
주장기업은 프롬프트 관리 기능을 활용하여 문서 유형별로 최적화된 추출 모델을 유지합니다. 이는 데이터 추출의 일관성과 정확성을 동시에 확보하는 핵심 요소입니다.
출처아마존 웹 서비스 공식 블로그(https://aws.amazon.com/blogs/machine-learning/extract-data-with-on-demand-and-batch-pipelines-dynamically/)를 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

