컴퓨터 지식 네트워크 - 컴퓨터 학습 - 3세대 서열분석 소개

3세대 서열분석 소개

github로 이동

***일부 기능:

10X Genomics는 기존 Illumina 2세대 시퀀싱의 업그레이드 버전입니다. 독창적인 바코드 라이브러리 구성 방식을 사용하면 Illumina와 같은 짧은 읽기 2세대 시퀀싱을 통해 30-100Kb에 달하는 링크된 읽기 정보를 얻을 수 있습니다. 2세대 시퀀싱 데이터와 결합된 Scaffold 어셈블리는 3세대 시퀀싱에 필적하는 조립 결과를 얻을 수 있습니다.

GC 선호도는 무엇입니까?

Illumina와 비교하면 10X Genomics 기술은 향상되었지만 여전히 아치형인 반면 PacBio는 편견이 없고 균일한 분포를 가지고 있습니다. 10X 기술의 적용 범위 역시 GC 함량에 따라 크게 영향을 받습니다. 실제로 10X 기술을 적용하려면 Target DNA의 GC 함량 분포를 30~70%로 조절하는 것이 바람직하다는 점에 유의해야 합니다.

True Single Molecule Sequencing (Helicos True Single Molecule Sequencing)

검사할 DNA를 무작위로 작은 조각으로 나누고 각 작은 조각 끝에 폴리를 붙입니다(200bp) ) -dA 및 여러 개의 폴리-dT 프라이머가 유리 칩에 무작위로 고정되어 있으며 끝 부분에 형광 라벨이 붙어 있어 정확한 위치 지정이 용이합니다.

먼저, 작은 단편 DNA 주형을 검출 칩의 폴리-dT 프라이머와 혼성화하여 정확하게 위치시킨 다음, 형광 표지된 말단 터미네이터를 하나씩 추가합니다. 이 터미네이터는 일루미나 터미네이터와 다릅니다. 4색이 아닌 단색이므로 모든 터미네이터가 동일한 염료로 라벨링되어 있습니다.

형광으로 표지된 단일 뉴클레오티드를 통합한 후 세척, 단일 색상 이미징, 형광 염료 및 억제 그룹을 절단하고 세척하고 캡핑하여 다음 뉴클레오티드를 통합합니다. 통합, 검출 및 절제의 반복적인 주기를 통해 실시간으로 많은 수의 서열을 읽을 수 있습니다. 마지막으로 소프트웨어 시스템의 도움으로 전체 핵산 서열을 분석할 수 있습니다.

단점: Heliscope는 또한 호모폴리머를 다룰 때 몇 가지 어려움에 직면하지만 2차 시퀀싱을 통해 정확도를 향상시킬 수 있습니다. 라벨이 없는 염기가 합성에 포함될 수 있기 때문에 가장 효과적입니다. 삭제.

PacBio SMRT(단일 분자 실시간 시퀀싱) 기술도 합성 중에 시퀀싱이라는 아이디어를 적용하고 SMRT 칩을 시퀀싱 캐리어로 사용합니다.

기본 원리는 DNA 중합효소가 주형과 결합하여 4개의 염기(즉, dNTP)를 4색 형광으로 표지하는 것입니다. 염기쌍 단계에서 서로 다른 염기를 추가하면 서로 다른 빛을 발산하게 됩니다. 빛의 파장과 피크 값에 따라 염기가 들어가는 유형이 결정될 수 있습니다.

DNA 중합효소는 매우 긴 판독을 달성하는 핵심 중 하나입니다. 판독 길이는 주로 레이저로 인한 손상에 영향을 받는 효소 활성 유지와 관련이 있습니다.

PacBio SMRT 기술의 핵심은 반응 신호를 주변 유리 염기의 강한 형광 배경과 구별하는 방법입니다.

장점과 단점:

장점 이 기술의 핵심 중 하나는 기공 내부에 결합된 분자 링커가 있는 특수한 나노기공을 설계했다는 것입니다. DNA 염기가 나노기공을 통과할 때 나노기공을 통해 흐르는 전류의 강도에 잠깐 영향을 미치는 전하 변화를 일으키고(각 염기는 서로 다른 양으로 전류 변화에 영향을 미칩니다) 따라서 민감한 전자 장치는 이러한 변화를 감지합니다. 식별됩니다.

시퀀싱 원리:

기능:

Nanopore 시퀀서 MinION의 일부 기능:

현재 ONT Company에서 출시한 여러 시퀀서:

p>

분석 폴더에는 다운로드된 데이터가 3개의 파일로 나누어 저장됩니다.

데이터 이름 지정:

Pacbio 데이터의 라이브러리 모델은 아령 모양의 구조로 되어 있습니다. 양쪽 끝에 추가된 커넥터는 시퀀싱 중에 계속해서 라이브러리를 둘러쌉니다. 즉, 커넥터가 포함된 시퀀싱 시퀀스를 폴리머라제 리드라고 합니다. 시퀀스의 길이는 반응 효소의 활성과 컴퓨터 시간에 따라 결정됩니다. . 결정하다. 현재 최신 P6-C4 효소를 사용하면 가장 긴 읽기 길이가 60kb 이상에 달할 수 있습니다.

중합효소 판독은 후속 분석을 위해 확보되기 전에 특정 처리가 필요합니다. 이 프로세스는 먼저 품질이 낮은 시퀀스와 어댑터 시퀀스를 제거합니다.

처리 후 얻은 시퀀스를 하위 읽기라고 합니다. 하위 읽기 유형은 다양한 라이브러리의 삽입 길이에 따라 다릅니다.

긴 삽입 라이브러리의 시퀀싱에는 기본적으로 2회 미만의 패스가 소요됩니다(패스는 랩어라운드 시퀀싱 횟수임). 결과 읽기를 CLR(연속 긴 읽기)이라고도 합니다. 원래의 시퀀싱 오류율을 기준으로 합니다.

전체 길이 전사체 또는 전체 길이 16s 시퀀싱의 경우 구성된 라이브러리의 삽입된 단편이 더 짧으며 시퀀싱은 여러 패스를 생성합니다. 이때 여러 읽기는 일관되게 수정되어 고유한 라이브러리를 얻습니다. CCS(Circular Consensus Sequencing) 읽기라고도 알려진 읽기를 사용하면 이러한 읽기의 시퀀싱 정확도가 크게 향상됩니다.

2세대 시퀀싱의 기본 품질 표준인 Q20/Q30과 달리 3세대 시퀀싱의 단일 염기 정확도는 무작위로 분포된 기본 오류율로 인해 데이터 품질을 측정하는 데 직접 사용할 수 없습니다. 그렇다면 3세대 염기서열분석 데이터가 좋은지 아닌지는 어떻게 판단할 수 있을까요?

주의해야 할 것은 두 가지 비율입니다:

현재 채택된 조립 전략:

이 네 가지 조립 전략은 조립 작업에서 완전히 분리되지 않습니다. 다양한 단계에서 다양한 방법이 사용됩니다.

다양한 조립 전략에 도구를 사용할 수 있습니다.

게놈 조립의 문제는 실제로 시퀀스에서 얻은 그래프에서 순회 경로를 검색하는 것입니다. , 그래프를 구성하는 방법에는 두 가지가 있습니다.

OLC 알고리즘 기반 어셈블리 도구로 어셈블리된 콘티그의 길이는 리드의 길이가 증가함에 따라 거의 선형적으로 증가하는 반면, 리드의 길이는 de Bruijn 그래프를 기반으로 하는 조립 도구로 조립된 콘티그는 읽기 길이가 증가함에 따라 거의 선형적으로 증가합니다.

3세대 단일 분자 시퀀싱은 더 높은 무작위 오류를 생성합니다. , 평균 정확도는 82.1%-84.6%입니다.

이렇게 높은 오류율은 후속 분석에 직접 사용할 수 없으므로 오류 수정이 필요합니다.

수정 프로세스 중에 짧은 읽기로 처리되지 않은 간격은 잘라내고 짧은 읽기는 PacBio에서 처리합니다. 상황:

이를 수행할 때 고려해야 할 사항 중 하나는 어댑터를 제거하는 것입니다.

그렇다면 적용 범위가 낮은 원인은 무엇입니까?

Base-calling이 하는 일은 시퀀서가 출력하는 현재 신호 파형에서 베이스를 디코딩하는 것입니다.

첫 번째 단계는 파형을 분할(분할)하는 것, 즉 검출하는 것입니다. 이 단계는 ONT에서 제공하는 MinKNOW를 통해 완료됩니다. 그러나 분할은 ssDNA 분자가 균일한 속도로 나노기공을 통과한다는 가정을 기반으로 합니다. 그러나 ssDNA는 나노기공을 매우 빠르게 통과하므로 쉽습니다. 하나 또는 두 개의 베이스의 속도 차이로 인해 디코딩 중에 쉽게 삽입 및 삭제가 발생할 수 있습니다.

그런 다음 ONT에서 제공하는 베이스 호출자는 Metrichor이며 기본 알고리즘은 다음과 같습니다. HMM을 기반으로 가능한 k-튜플(k 염기로 구성된 시퀀스)을 숨겨진 상태로, 현재 신호를 관찰된 상태로 고려합니다. ONT가 새로 개발한 Metrichor는 HMM을 RNN으로 대체하고 이를 자신이 개발한 새로운 생물정보학 데이터 분석 플랫폼 EPI2ME에 통합했습니다.

이후 과학 연구계에서는 오픈 소스 기반 호출 도구인 Nanocall 및 DeepNano를 개발했습니다.

ONT는 나중에 github - Nanonet에서 RNN 베이스 콜러를 오픈 소스화했습니다.

시퀀싱 중에 시퀀서 MinION이 호스트에 연결되고 호스트에 설치된 소프트웨어 MinKNOW가 시퀀서를 제어합니다. . 각 읽기에 대해 시퀀싱 프로세스 중 신호 분할 결과(세그먼트 평균, 분산 및 기간 포함)와 메타데이터가 FAST5 형식(HDF5 표준 기반 변형)으로 바이너리 파일에 저장됩니다.

FAST5 파일에 저장된 원본 데이터는 클라우드의 Metrichor에 의해 처리되며, 결과 디코딩된 시퀀스는 템플릿 읽기 및 보완 읽기를 포함하여 접미사가 .FAST5인 다른 HDF5 파일에 저장됩니다. 또는 단 하나의 2D 읽기만 가능합니다.

MAP(MinION Access Programme) 커뮤니티는 FAST5 파일을 처리하기 위해 개발한 도구입니다. 또한 FAST5 파일에서 FASTA/FASTQ 파일을 구문 분석할 수 있으며 고유한 품질 통계 기능도 있습니다.

참고 자료:

(1) 생물학적 기술 트리 포럼: pacBioToCA를 통한 PacBio 서열 오류 수정 및 조립

(2) 이라크 천진 의과 대학 Xianfu "시스템 생물학-2장 "

(3) Nanopore 4세대 시퀀싱 기술 소개

(4) Magi A, Semeraro R, Mingrino A, et al. Nanopore 시퀀싱 데이터 분석: 최첨단 기술 , 응용 분야 및 과제.[J]. 생물정보학 브리핑, 2017.

(5) 세부 정보 공개! Oxford Nanopore가 실제 기계로 복원되었습니다. 내부 의견을 들어보세요

(6) 3세대 시퀀싱-QC 기사

(7) PacBio 교육: PacBio를 사용한 대규모 게놈 조립 긴 읽기

(8) Koren S, Schatz MC, Walenz BP, et al. 단일 분자 시퀀싱 읽기의 하이브리드 오류 수정 및 de novo 어셈블리[J]. :693- 700.

(9) Cold Spring Harbor ppt: Eukaryo6c 게놈의 하이브리드 De Novo 조립

(10) Leggett RM, Darren H, Mario C, NanoOK : 나노기공 시퀀싱 데이터, 품질 및 오류 프로필의 다중 참조 정렬 분석[J], Bioinformatics, 2016, 32(1):142-144.

上篇: 상하이 미쓰비시와 미쓰비시 전기의 차이점 下篇: 상하이 남역에서 출발하여 성신묘, 와이탄, 동방명주탑, 난징루 보행자 거리를 지나 다음날 해피밸리로 갔습니다. 합리적으로 경로! !
관련 내용