MARKETS
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
Wittgenhaus

2026년 5월 4일 월요일

전문가의 AI 하이브리드 리서치 랩

AI검증

DVC와 SageMaker를 활용한 머신러닝 데이터 계보 추적 체계 구축

머신러닝 운영 팀은 데이터와 코드, 실험 지표를 연결하여 모델 재현성을 확보해야 합니다. DVC와 Amazon SageMaker, MLflow를 통합하면 데이터 계보를 명확하게 추적할 수 있습니다. 이를 통해 규제 산업에서 요구하는 엄격한 감사 요건을 충족합니다.

2026년 4월 21일

주장머신러닝 운영 팀은 모델 학습에 사용된 데이터와 코드, 실험 지표를 정확히 연결하는 데 어려움을 겪습니다. 이러한 추적성 부족은 규제 산업에서 모델의 재현성을 입증해야 할 때 운영상의 병목 현상을 초래합니다.

팩트본 솔루션은 데이터 버전 관리 도구인 DVC(Data Version Control), 확장형 컴퓨팅 서비스인 Amazon SageMaker AI, 실험 추적 및 모델 관리 플랫폼인 MLflow를 통합합니다. DVC는 데이터 버전을 관리하고, SageMaker는 학습 자원을 제공하며, MLflow는 실험 기록과 모델 레지스트리 역할을 수행합니다.

팩트DVC는 대용량 데이터셋을 직접 저장하는 대신 Git에 가벼운 메타파일을 저장하고 실제 데이터는 Amazon S3에 보관합니다. 이 방식은 저장소 비대화를 방지하며 데이터셋에 대한 브랜칭과 태깅 등 Git과 유사한 버전 관리 기능을 제공합니다.

팩트데이터 흐름은 SageMaker 처리 작업으로 데이터를 전처리하고 DVC로 버전화하는 단계에서 시작합니다. 이후 학습 작업에서 특정 Git 태그로 데이터셋을 불러오고, 학습 결과를 MLflow에 기록하여 모델과 데이터 간의 연결 고리를 완성합니다.

팩트모든 MLflow 학습 실행 시 'data_git_commit_id' 매개변수를 기록하여 DVC 커밋 해시를 저장합니다. 이 해시는 Amazon S3에 저장된 정확한 데이터셋 상태를 가리키는 포인터 역할을 수행하며 모델의 계보를 증명합니다.

교차검증DVC는 데이터 버전 관리에 특화되어 있으며, MLflow는 모델 생애 주기 관리에 강점이 있습니다. 두 도구를 결합하면 데이터에서 학습까지의 계보와 학습에서 배포까지의 계보를 분리하여 관리할 수 있습니다.

팩트시스템 구현을 위해서는 AWS 계정 권한과 Python 3.11 또는 3.12 버전, SageMaker Python SDK v3.4.0 이상이 필요합니다. SageMaker 실행 역할은 Git 저장소에 접근할 수 있는 권한을 보유해야 합니다.

교차검증본 가이드는 AWS CodeCommit을 Git 저장소로 사용하지만, GitHub나 GitLab 등 다른 제공업체도 사용 가능합니다. 다만 외부 저장소 이용 시 토큰 관리와 같은 별도의 인증 설정이 필요합니다.

주장데이터셋 수준의 계보 추적은 헬스케어, 금융, 자율주행 등 엄격한 감사 요건이 필요한 산업에서 필수적입니다. 특정 데이터 레코드를 학습에서 제외하거나 과거 모델을 재현해야 할 때 이 시스템은 강력한 도구로 기능합니다.

팩트DVC는 콘텐츠 주소 지정 저장소인 MD5 해시를 사용하여 중복 데이터를 저장하지 않습니다. 변경된 파일만 새로운 해시로 저장하므로 대규모 데이터셋을 효율적으로 관리하고 스토리지 비용을 절감합니다.

출처AWS 공식 블로그(https://aws.amazon.com/blogs/machine-learning/end-to-end-lineage-with-dvc-and-amazon-sagemaker-ai-mlflow-apps/)를 통해 해당 기술 아키텍처를 교차 검증했습니다.

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

WIRE

WIRE

버블 지표

상세보기 →

릴리즈 & 논문

전체보기 →

RELEASES

LangChainlangchain-anthropic==1.4.3

langchain-anthropic==1.4.3

이번 릴리즈에서는 Anthropic 관련 기능이 1.4.3 버전으로 업데이트되었습니다. 또한, `create_agent`로의 이전 경고 대상 재지정 및 기타 내부 정리 작업이 포함되었습니다. 문서의 X 핸들 참조 업데이트와 Anthropic 관련 HTTPX 최종 처리기 보호 기능도 개선되었습니다.

7시간 전

LangChainlangchain-classic==1.0.5

langchain-classic==1.0.5

langchain-classic 1.0.5 릴리즈에서는 `create_agent`로의 마이그레이션을 위한 경고 메시지 수정 및 기타 정리 작업이 포함되었습니다. 또한, 일부 의존성 버전이 업데이트되었으며, 코어 라이브러리의 최소 버전이 상향 조정되었습니다.

7시간 전

vLLMv0.20.1

vLLM v0.20.1

이번 릴리즈는 v0.20.0 버전을 기반으로 하며, DeepSeek V4의 안정성 및 성능 개선에 중점을 두었습니다. 또한 여러 중요한 버그 수정이 포함되었습니다. 주요 변경 사항으로는 DeepSeek V4 모델 지원, 성능 향상을 위한 다양한 최적화, 그리고 CUDA 그래프 및 메모리 관련 버그 수정 등이 있습니다.

16시간 전

LangChainlangchain-openrouter==0.2.3

langchain-openrouter==0.2.3

langchain-openrouter 0.2.3 버전이 출시되었습니다. 스트리밍 시 분할된 `reasoning_details`를 병합하는 버그가 수정되었습니다.

2일 전

LangChainlangchain-mistralai==1.1.3

langchain-mistralai==1.1.3

이번 릴리즈에서는 MistralAI 통합에 대한 기능 개선 및 버그 수정이 포함되었습니다. 주요 변경 사항으로는 휴먼 메시지에 대한 이미지 입력 지원 추가, 모델 프로필 데이터 업데이트, 그리고 `langchain-core`의 최소 버전이 `1.2.21`로 상향 조정되었습니다. 또한, 여러 의존성 패키지가 최신 버전으로 업데이트되었습니다.

2일 전

PAPERS