유전체 조절 요소 분석 도구 CREsted 개발
연구진이 세포 유형별 인핸서를 설계하고 유전체 조절 기전을 분석하는 소프트웨어 패키지 CREsted를 개발했습니다. 이 도구는 단일 세포 염색질 접근성 데이터를 기반으로 복잡한 유전체 코드를 해석합니다.
주장CREsted는 유전체 조절 코드의 복잡한 규칙을 해석하고 세포 유형별로 특화된 인핸서를 설계하는 통합 소프트웨어 패키지입니다. 이 도구는 딥러닝으로 유전체 서열과 기능의 관계를 모델링하여 생물학적 조절 기전을 규명합니다.
주장인핸서는 세포 정체성을 결정하는 핵심 요소이며 전사 인자 결합 부위의 조합과 강도에 따라 그 기능이 결정됩니다. CREsted는 이러한 인핸서 코드를 체계적으로 분석하여 서로 다른 조직과 종 사이의 조절 논리를 비교합니다.
팩트CREsted는 데이터 전처리, 모델 학습, 세포 유형별 인핸서 코드 해석, 합성 인핸서 설계라는 네 가지 핵심 모듈로 구성됩니다. 이 소프트웨어는 파이썬 기반의 scverse 생태계와 호환하며 대규모 단일 세포 염색질 접근성 데이터인 scATAC-seq 처리에 최적화되어 있습니다.
팩트연구진은 마우스 운동 피질, 인간 말초 혈액 단핵 세포, 인간 암세포 상태, 제브라피시 발달 아틀라스 등 다양한 생물학적 시스템에서 CREsted의 성능을 검증했습니다. 제브라피시 모델에서는 설계한 인핸서를 생체 내에서 직접 검증하는 성과를 거두었습니다.
팩트모델 학습 과정에서는 이진 교차 엔트로피 손실 함수나 코사인 유사도와 평균 제곱 오차의 합을 사용하여 예측 정확도를 높입니다. 또한 인포머나 보르조이와 같은 대규모 사전 학습 파운데이션 모델을 전이 학습에 활용합니다.
교차검증기존의 셀린, 유진, 지렐루와 같은 프레임워크는 유전체 모델링의 일부 단계를 지원하지만 세포 유형별 인핸서 코드 분석에 특화되지 않았다는 한계가 있습니다. CREsted는 이러한 기존 도구의 부족한 점을 보완하여 복잡한 단일 세포 데이터셋을 심층적으로 분석합니다.
팩트CREsted는 경사 기반 방법과 인실리코 돌연변이 유발 기법을 사용하여 뉴클레오타이드 수준에서 인핸서의 중요도를 설명합니다. 또한 티에프모디스코 라이트와 연동하여 세포 유형별 전사 인자 결합 부위를 식별하고 단일 세포 RNA 시퀀싱 데이터와 매칭하여 후보 인자를 도출합니다.
팩트합성 인핸서 설계 모듈은 인실리코 진화 기법과 전사 인자 결합 부위 삽입 방식을 사용합니다. L2 거리를 활용한 새로운 비용 함수를 도입하여 특정 세포 유형에서는 활성도가 높고 다른 세포 유형에서는 낮게 유지되는 세포 특이적 서열을 설계합니다.
교차검증scATAC-seq 데이터의 정규화 과정에서 발생하는 편향을 해결하기 위해 CREsted는 변동성이 낮은 구성적 피크를 활용한 재스케일링 기법을 적용합니다. 이는 아치알의 리즈인티에스에스 방법과 유사한 방식으로 서로 다른 세포 유형 간의 기본 접근성 수준을 정렬합니다.
출처네이처 메소드에 게재된 논문 'CREsted: modeling genomic and synthetic cell-type-specific enhancers across tissues and species'를 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.