컴퓨터 지식 네트워크 - 컴퓨터 프로그래밍 - 차세대 시퀀싱의 바코드 색인 소개

차세대 시퀀싱의 바코드 색인 소개

현재 가장 널리 사용되는 2세대 시퀀싱 장비는 Illumina의 시퀀서입니다. Hiseq-2000 시퀀서는 2개의 플로우 셀(flowcell)로 구성되며 각 플로우 셀에는 8개의 스트립 레인(채널)이 있습니다. 한 레인의 시퀀싱 데이터 볼륨만 44G에 도달할 수 있습니다.

그러나 현재 엑솜 시퀀싱의 경우 시퀀싱 영역은 약 64M, 시퀀싱 깊이는 200X, 전체 데이터 양은 13G에 불과합니다. Hiseq-2000의 한 레인은 3개의 엑솜을 측정하기에 충분합니다. . 전사체의 경우 하나의 샘플의 시퀀싱 볼륨은 4G를 초과하지 않으며 하나의 레인은 동시에 10개의 전사체 샘플을 측정할 수 있습니다. 일반적으로 엑솜 시퀀싱, 전사체 시퀀싱, miRNA 시퀀싱, lncRNA 시퀀싱, ChIP 시퀀싱 및 기타 데이터 세트의 경우 각 샘플에 필요한 데이터 양은 일반적으로 상대적으로 적습니다.

시퀀싱 데이터의 단위

핵산 서열 데이터는 "A, T, G, C"의 기본 순서로 표현되며, 그 양은 k, M, G 등을 단위로 표현하면 k는 10 3 , M은 10 6 , G는 10 9 를 의미합니다. 예를 들어 인간 전체 게놈의 크기는 3G(혹은 3Gb), 즉 3X10 9 b 입니다. 또한, 컴퓨터의 저장단위도 k, M, G 등의 단위를 사용하여 표현한다. 다만, 컴퓨터 저장단위의 변환은 1024로 진행되는데, 이는 1000의 기본순서와 다르다. 컴퓨터에 문자 하나가 1Byte로 저장된다는 점을 고려하면, 대략적으로 사용하면, 시퀀싱 데이터의 양은 대략적으로 차지하는 컴퓨터 크기와 맞먹을 수 있습니다.

시퀀싱 장비의 시퀀싱 용량은 테스트 샘플의 시퀀스 양보다 훨씬 크기 때문에 장비 낭비를 피하기 위해 하나의 레인에서 동시에 여러 샘플을 측정하는 것은 자연스러운 생각입니다. . 그러나 여러 샘플의 서열을 구별하려면 특정 "라벨"을 서로 다른 샘플에 추가해야 후속 데이터 분석 중에 서로 다른 샘플의 데이터를 분리할 수 있으며 이 "라벨"이 바코드입니다.

간단히 말해서 바코드는 서로 다른 샘플을 구별하는 데 사용되는 시퀀싱에서 혼합 샘플의 "ID 카드"입니다.

아래 그림은 문헌 "피코그램 양의 DNA로부터 다중화된 Illumina 시퀀싱 라이브러리"에서 가져온 것입니다.

Illumina의 Hiseq 플랫폼의 경우 시퀀싱 전에 다음을 수행해야 합니다. 라이브러리를 구축합니다.

바코드 선택에는 기본 균형과 레이저 균형이라는 두 가지 원칙이 있습니다.

염기 균형이란 바코드 서열의 균형과 복잡성을 고려해야 하는 필요성을 의미하며, 균형이란 염기의 비율이 균형을 이룬다는 의미(1:1이 가장 균형이 잘 잡혀 있음)를 의미합니다. 언급된 염기의 종류는 다양합니다(동시에 4개의 염기가 존재하는 것이 가장 다양합니다).

따라서 가장 좋은 바코드 시퀀스는 A, T, G, C 4개의 염기가 동시에 있어야 하며 각 염기의 비율은 약 25%입니다.

여기서 말하는 기본 잔액은 바코드 내 기본 잔액이 아닌 여러 바코드 간의 잔액을 의미합니다. 예를 들어, 측정할 전사체 샘플이 12개라면 12개의 바코드가 필요합니다(각 바코드의 길이가 6비트라고 가정). 기본 균형 원리에 따르면 첫 번째 바코드 베이스에는 A, T, 4개가 포함되어야 합니다. 즉, 이 12개의 바코드 시퀀스에 대한 최상의 상황은 각각 A, T, G 및 C로 시작해야 합니다. 나머지 5개 염기의 바코드도 같은 방법으로 추론한다.

일루미나 시퀀서에서 두 염기 A와 C는 660nm 파장의 적색 레이저로 여기되는 레이저를 사용하고, G와 T는 532nm의 파장으로 여기되는 레이저를 사용합니다. .nm 녹색 레이저 여기. 따라서 기본 균형을 만족할 수 없는 경우 차선책으로 레이저 균형을 만족시키도록 노력할 수 있습니다.

간단히 말해서 레이저 밸런싱은 A+C=G+T가 되도록 바코드 세트의 각 기본 위치를 만족시키려고 노력하는 것입니다.

기본 균형과 레이저 균형을 모두 충족하지 못하는 바코드는 데이터 분리 위험이 크거나 샘플을 분리하지 못하거나 특정 시퀀싱 조각을 식별하지 못할 수 있습니다.

Illumina에서 권장하는 12가지 바코드 시퀀스는 아래에 자세히 설명되어 있습니다.

첫 번째 위치(열)를 예로 들면 A:G:C:T=3:3:3:3=1:1:1:1입니다. 실제로 이 바코드 조합의 각 위치에서 염기 비율은 1:1에 가깝고(자세한 내용은 아래 표 참조) 염기 균형도 완벽에 가깝습니다.

위치 1차 2차 3차 4차 5차 6차

A 3 3 4 3 3 3

T 3 3 3 3 4 3

C 3 3 3 3 2 3

G 3 3 2 3 3 3

샘플 수가 4개 미만인 경우 기본 잔액을 충족할 수 없습니다.

샘플 개수가 4개 미만이면 바코드 각 위치에 염기 종류가 3개만 있어서 염기 균형을 이룰 수 없습니다. 어떻게 해야 하나요? 이때 레이저의 균형을 유지하도록 노력해야 하며, 동일한 형광 베이스, 심지어 동일한 베이스를 동일한 바코드 위치에 배치하지 마십시오.

물론 Illumina에서는 이러한 상황에 대한 솔루션도 제공하며 세 가지 하위 수준 풀링 바코드 조합을 권장하며 순서는 다음과 같습니다.

2단 조합

3겹 조합

6겹 조합

이 세 가지 바코드 조합에는 완전히 다른 핵심인 바코드 6번과 바코드 12가 포함되어 있습니다. 6번과 12번의 조합은 100% 레이저 밸런스이며 각 위치(열, 즉 GC, CT, CT, AG, AT 및 TA)는 서로 다른 레이저에 속합니다. 즉, 바코드 조합에 숫자 6과 12가 포함되어 있으면 가장 기본적인 역다중화 요구 사항을 충족하고 완전한 데이터 오류를 방지할 수 있습니다.

일루미나에서 권장하는 12개 바코드 외에 코넬대학교 ApekⅠ 효소 라이브러리 구축용 바코드 96개, 화중농업대학교 MseⅠ 효소 및 SacⅠ 효소 바코드 96개, 콜로라도대학교, 미국 볼더대학교(University of Boulder)의 다니엘(Daniel)도 바코드 디자인용 소프트웨어를 발표했습니다.

上篇: Meizu 휴대폰을 충전할 때 충전기가 뜨거워지는 이유는 무엇입니까? 下篇: 결혼식 전자 앨범을 만드는 데 어떤 소프트웨어가 더 좋습니까?
관련 내용