MARKETS
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
Wittgenhaus

2026년 6월 12일 금요일

AI 시대, 당신을 더욱 스마트하게

AI검증

아마존 베드록 기반 동적 문서 데이터 추출 파이프라인 구축

기업은 아마존 베드록의 온디맨드와 배치 추론 방식을 결합하여 비정형 문서에서 효율적으로 데이터를 추출합니다. 이 시스템은 문서 특성에 따라 처리 방식과 프롬프트를 최적화하여 비즈니스 인텔리전스를 확보합니다.

2026년 6월 11일

주장기업은 아마존 베드록(Amazon Bedrock)을 활용하여 방대한 비정형 문서에서 비즈니스 인텔리전스를 효율적으로 추출합니다. 온디맨드와 배치 추론 방식을 결합하면 처리 시간과 비용을 유연하게 관리할 수 있습니다.

팩트온디맨드 파이프라인은 아마존 심플 큐 서비스(AWS SQS) FIFO 큐를 사용하여 문서별로 즉각적인 처리를 수행합니다. 결과가 수 초 내에 필요한 시간 민감형 작업에 이 방식을 적용합니다.

팩트온디맨드 파이프라인은 아마존 람다(AWS Lambda) 함수를 통해 PDF 문서를 PNG 이미지로 변환합니다. 변환된 데이터는 아마존 다이나모DB(Amazon DynamoDB) 테이블에 저장하며, 작업 완료 시 SQS 메시지는 큐에서 자동으로 삭제됩니다.

팩트배치 추론 파이프라인은 표준 SQS 큐를 사용하여 대량의 문서를 비동기적으로 처리합니다. 이는 처리 효율성을 극대화하여 비용을 최적화하는 데 유리합니다.

팩트배치 추론 작업은 아마존 이벤트브리지(Amazon EventBridge) 스케줄러가 주기적으로 실행합니다. 아마존 베드록 배치 추론 작업을 수행하려면 최소 100개의 레코드가 필요합니다.

교차검증표준 SQS 큐를 사용하는 배치 파이프라인은 메시지 중복 전달 가능성이 존재합니다. 따라서 람다 함수 내에 중복 메시지를 식별하고 무시하는 로직을 반드시 포함해야 합니다.

교차검증클로드 3.5 소네트(Claude 3.5 Sonnet) 모델은 멀티모달 호출당 최대 20개의 이미지만 처리합니다. 20페이지가 넘는 문서는 청크 단위로 분할하여 처리해야 하는 기술적 제약이 있습니다.

팩트아마존 베드록 프롬프트 관리 기능을 통해 프롬프트 아이디(ID)와 버전을 문서 수준에서 동적으로 지정합니다. 다양한 형식의 문서에 최적화된 프롬프트를 적용하여 추출 정확도를 높입니다.

팩트프롬프트 관리 서비스에는 리전당 50개의 프롬프트와 프롬프트당 10개의 버전이라는 서비스 제한이 존재합니다. 사용자는 이 제한 범위 내에서 프롬프트 버전을 관리합니다.

주장데이터 추출 파이프라인의 성공적인 운영을 위해서는 문서의 양과 처리 속도 요구사항을 사전에 분석해야 합니다. 두 가지 파이프라인 방식을 적절히 혼용하는 전략이 필요합니다.

주장기업은 프롬프트 관리 기능을 활용하여 문서 유형별로 최적화된 추출 모델을 유지합니다. 이는 데이터 추출의 일관성과 정확성을 동시에 확보하는 핵심 요소입니다.

출처아마존 웹 서비스 공식 블로그(https://aws.amazon.com/blogs/machine-learning/extract-data-with-on-demand-and-batch-pipelines-dynamically/)를 교차 검증했습니다.

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

버블 지표

상세보기 →

릴리즈 & 논문

전체보기 →

RELEASES

meta-llama/llama-stackv1.1.0

v1.1.0

이번 릴리즈에서는 라이브러리 클라이언트의 요청 빌드 전 헤더 정리, CI 환경에서 테스트 픽스처가 메인 서버 로그를 덮어쓰는 문제 수정, OpenAI 응답 스키마 드리프트 검사기 추가 등 다양한 수정 사항이 포함되었습니다. 또한, 라우터의 헬스 체크 및 벡터 스토어 팬아웃 병렬 처리, 비-OpenAI 모델을 위한 5단계 토크나이저 해석 체인 추가, pgvector에서 psycopg2를 asyncpg로 마이그레이션하는 등의 성능 개선 및 기능 추가가 이루어졌습니다. Anthropic Message Batches API가 추가되었으며, 여러 프로바이더의 비동기 안전성 개선 및 비밀 처리 강화 등 전반적인 안정성 향상에 초점을 맞추었습니다.

11시간 전

LangChainlangchain-core==1.4.6

langchain-core==1.4.6

이번 릴리즈에서는 추적 메타데이터에 패키지 버전 추적 기능이 추가되었습니다. 또한, v1 스트리밍 도구 호출이 정규화되었으며, 타입 체크 설정이 통합되었습니다.

17시간 전

LangChainlangchain-model-profiles==0.0.6

langchain-model-profiles 0.0.6

langchain-model-profiles 0.0.6 버전이 릴리즈되었습니다. 이번 업데이트에서는 모델 프로필에 `text_inputs` 및 `text_outputs` 필드가 추가되었으며, 프로필 생성을 위한 도구가 개선되었습니다. 또한, 여러 종속성이 업데이트되었습니다.

21시간 전

LangChainlangchain-core==1.4.5

langchain-core==1.4.5

langchain-core 1.4.5 릴리즈에서는 스트리밍 시 툴 호출 청크 유효성 검사 기능이 추가되었습니다. 또한, 비동기 트레이서의 동기 컨텍스트에서의 대체 동작 및 구조화된 출력 모델의 대체 동작이 개선되었습니다.

21시간 전

LangChainlangchain-mistralai==1.1.5

langchain-mistralai==1.1.5

MistralAI 라이브러리 1.1.5 버전이 출시되었습니다. 이번 업데이트에서는 MistralAI 통합 테스트의 안정성이 향상되었으며, 의존성 라이브러리들이 업데이트되었습니다. 또한, 코어 라이브러리의 변경 사항이 포함되었습니다.

1일 전

PAPERS