AI 성능을 결정하는 데이터 품질 확보 전략
고품질 인공지능 모델 구축을 위해 데이터 생성 단계부터 품질을 관리하는 체계가 필요합니다. 미국 엔와이유 랑곤 헬스는 원천 시스템 개선과 통합 플랫폼 도입으로 데이터 신뢰성을 확보했습니다.
주장인공지능 모델의 성능은 학습 데이터의 품질이 결정합니다. 고품질 데이터를 확보하기 위해서는 데이터가 생성되는 트랜잭션 시스템의 문제를 근본적으로 해결해야 합니다.
팩트엔와이유 랑곤 헬스(NYU Langone Health)는 기존 온프레미스 데이터 레이크를 폐기하고 엔터프라이즈 데이터 웨어하우스를 현대화했습니다. 이 기관은 임상의와 분석가, 과학자가 함께 사용하는 통합 데이터 및 인공지능 플랫폼을 운영합니다.
팩트나더 메라비 최고 디지털 정보 책임자는 2017년부터 데이터 전략을 주도하며 의료 시스템의 기초를 마련했습니다. 그는 깨끗한 물을 얻으려면 끝단에서 필터링하는 대신 파이프 자체를 고쳐야 한다는 원칙을 강조합니다.
교차검증데이터 품질을 확보하지 못한 상태에서 인공지능 모델만 구축하는 방식은 비용 효율성이 낮고 위험합니다. 데이터가 통합되지 않으면 부서 간 지표가 충돌하여 신뢰할 수 없는 결과를 도출할 가능성이 큽니다.
팩트엔와이유 랑곤 헬스는 환자 데이터와 재무 데이터, 운영 데이터의 원천을 명확히 정의했습니다. 데이터 웨어하우스 계층에서 데이터를 매핑하는 대신 원천 시스템에서 문제를 해결하는 방식을 고수합니다.
주장의료 분야에서 통합 데이터는 환자 중심의 의료 서비스를 가능하게 합니다. 임상 시험 데이터와 수술 중 수집된 표본, 재무 정보를 연결해야 진정한 데이터 활용이 가능합니다.
팩트엔와이유 랑곤 헬스는 데이터와 인공지능 모델을 관리하기 위해 유니티 카탈로그(Unity Catalog)를 사용합니다. 데이터의 발견 가능성과 신뢰성을 높이기 위해 마스터 데이터 소스를 정의하고 소유권을 명확히 합니다.
교차검증플랫폼 도입만으로 충분한 가치를 창출하기는 어렵습니다. 정보기술 부서뿐만 아니라 임상의와 연구원 등 조직 전체가 데이터를 활용하도록 데이터 리터러시 교육과 커뮤니티 구축을 병행해야 합니다.
팩트응급실과 같은 고위험 환경에서는 사후 보고보다 실시간 의사결정 지원이 중요합니다. 엔와이유 랑곤 헬스는 특정 위급 상황을 감지하여 오진을 방지하는 모델을 실시간으로 운영합니다.
출처데이터브릭스 블로그(https://www.databricks.com/blog/data-quality-ai-strategy)를 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.