DNA 서열 기반 염색체 간 구조 예측 모델 TwinC 개발
연구진이 염색체 간 상호작용을 예측하는 딥러닝 모델 TwinC를 개발했습니다. 이 모델은 유전자 조절 기전 연구에 새로운 통찰을 제공할 것으로 기대됩니다.
주장기존 3차원 게놈 예측 모델은 주로 염색체 내 구조 분석에 집중해 왔으며, 염색체 간 상호작용 연구는 상대적으로 부족했습니다. 연구진은 이러한 한계를 극복하고자 염색체 간 접촉을 예측하는 딥러닝 모델인 TwinC를 개발했습니다.
팩트TwinC는 합성곱 신경망을 기반으로 작동하며, 근접 결합 분석법인 하이-씨(Hi-C) 및 디엔에이 스프라이트(DNA SPRITE) 데이터를 활용해 염색체 간 접촉을 예측합니다. 심장 조직의 하이-씨 데이터를 이용한 테스트에서 0.80의 높은 곡선 아래 면적(AUROC) 성능을 보였습니다.
팩트연구진은 지엠일이팔칠팔(GM12878) 세포주 데이터를 사용해 모델을 학습시켰습니다. 디엔에이 스프라이트 분석으로 모델의 예측 성능을 검증하는 과정에서 염색체 간 접촉 형성에 기여하는 주요 요인을 확인했습니다.
팩트모델이 학습한 주요 요인은 염색체 구획, 염색질 접근성, 전사 인자 결합 군집, 지-사중나선(G-quadruplex) 구조입니다. 이러한 요소는 유전자 조절 과정에서 발생하는 염색체 간 상호작용의 원리를 설명합니다.
교차검증TwinC는 염색체 간 복잡한 상호작용을 모델링한다는 점에서 기존 모델과 차별화됩니다. 다만, 모델의 예측 정확도는 학습에 사용한 데이터의 품질과 세포 유형에 따라 변동할 가능성이 있습니다.
팩트연구진은 학습 모델과 연구 데이터를 제노도(Zenodo) 저장소를 통해 공개했습니다. 데이터 투명성을 확보하고자 보충 자료에 상세 접근 번호를 명시했습니다.
팩트TwinC의 소스 코드는 아파치 2.0 라이선스에 따라 깃허브(GitHub)에서 제공합니다. 연구 재현성을 높이기 위해 관련 코드를 제노도 저장소에도 보관했습니다.
주장이번 연구는 이해도가 낮았던 염색체 간 게놈 구조를 해석함으로써 유전자 조절 기전에 관한 새로운 통찰을 제공합니다. 이는 앞으로 질병 연구와 유전체학 분야의 기초 자료로 활용됩니다.
교차검증염색체 간 상호작용은 동적이고 복잡한 과정이므로 정적인 디엔에이 서열 정보만으로 모든 생물학적 현상을 완벽히 예측하기에는 한계가 존재합니다. 향후 세포 상태 변화에 따른 동적 변화를 반영하는 모델로 발전이 필요합니다.
출처네이처 커뮤니케이션즈(Nature Communications) 논문(https://www.nature.com/articles/s41467-026-72031-5) 및 제노도 데이터 저장소(https://zenodo.org/records/15802811, https://zenodo.org/records/15839236)를 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.