본문 바로가기

KIST Talk/사내직원기자

[취향저격 분자진단] NGS: sequencing이란 무엇인가?(바이오마이크로시스템연구단 김미연 기자)

NGS: sequencing이란 무엇인가?

 

최근 차세대 염기서열 분석법(Next Generation Sequencing: NGS) 기술의 발달과 분석 비용의 하락으로 인해 질병 원인 유전자 분석 연구 외의  다양한 연구 분야에서 NGS가 보편적으로 활용되고 있으며, 의료계 및 산업계에서도 활발하게 사용되어지고 있다. 차세대 염기서열 분석법 이전, 사람의 몸을 구성하고 있는 DNA 서열을 모두 알고자 했던 과학자들은 DNA sequencing 기술을 연구했다. DNA sequencing 기술은 생화학적 방법으로 생명체의 모든 세포의 DNA 사슬을 구성하는 염기 A, T, G, C가 결합된 서열 순서를 분석하는 기술이다. 가장 원초적인 방법으로 Maxam-Gilbert법과 효소적인 방법인 Sanger법이 있다.

 

Maxam-Gilbert
 

출처 : https://binf.snipcademy.com/lessons/dna-sequencing-techniques/maxam-gilbert

Sanger sequencing이 나오기 전 Maxam과 Gilbert가 DNA 염기서열을 분석해내는 기술을 만들어냈다. 이중나선으로 꼬여 있는 DNA를 준비 한 뒤, 온도를 높여 denaturation(변성) 과정을 통해 단일 가닥의 DNA 가닥을 생성하고 5번 말단을 감마-32P를 사용하여 방사성 동위원소의 labelling을 시킨다. 그리고 화학적 반응을 이용해서 DNA 가닥을 특정 염기에서 분해시킨다. 예를 들어 dimethyl sulphate(디메틸 황산)는 선택적으로 purine계열의 A,G 염기를 공격하고 hydrazine(하이드라진)은 선택적으로 pyrimidine계열의 C,T를 공격한다. 그럼 이러한 화학적 시행을 통해서 G, A+G, C 그리고 C+T의 말단을 갖는 DNA가닥이 나눠지게 된다.

 

여기서 잠깐, DNA sequence를 구성하고 있는 염기 A,G,C,T 4가지 중 A,G는 퓨린계 염기, C,T는 피리미딘염기이다.  A+G는 DNA 염기서열에서 A가 있는 염기에서 DNA를 자르는데, 가끔은 G point 에서도 잘리는 것을 말한다.

 

서로 다른 4개의 reaction tube(반응관)에 다른 사이즈의 DNA 가닥을 놓고 고해상도 acrylamide gel(아크릴아미드 겔)을 이용하여 전기영동으로 가닥을 크기별로 분리하고 X-ray 필름을 gel 위에 둬서 방사선을 쏘이면 특정 band들이 보이게 되는데 이곳이 감마-32P로 label되어진 DNA 분자의 위치이다. Sequence는 gel의 밑 부분부터 읽기 시작하며, 4개의 화학 반응의 band pattern을 읽을 때, 예를 들어 G-reaction과 G+A-reaction lane에서 모두 band가 나타났다면 이것은 G 로 읽어야 하고, 만약 G+A-reaction lane에서만 band가 나타났다면 A로 읽어야 한다.

 

Sanger sequencing

생어 염기서열 분석(Sanger sequencing)은 시험관 DNA 복제 중에 DNA 사슬을 마무리 하는 디디옥시뉴클레오티드가 DNA 중합효소에 의해 제한적으로 삽입된다는 원리에 기반한다. 최근에는 많은 양의 생어 염기서열 분석을 대규모로 자동 게놈 분석을 위해 NGS 방법이 진행되고 있으나, 더 작은 규모의 프로젝트와 NGS 결과의 검증, 길이가 긴 연속 DNA 염기서열 분석 (> 500 뉴클레오티드)을 위하여 아직까지 널리 쓰이고 있다.  Sanger sequencing은 고전적인 ‘사슬 종료 방법’을 이용하여 하나의 단일 나선 DNA 주형, DNA 시발체(primer), DNA 중합효소, 보통의 디옥시뉴클레오시드3인산염 (dNTP)와 DNA 나선연장을 종료하는 디-디옥시뉴클레오시드3인산염(ddNTP)를 쟤료로 sequencing을 진행한다.

출처 : https://www.youtube.com/watch?v=593zWZNwbJI

사슬 종료 뉴클레오티드(ddNTP)는 인산이에스테르 결합 형성에 필요한 3'-[OH]가 없어, 삽입되었을 때 DNA 중합효소가 DNA의 연장을 중단하도록 한다. 일반적인 d(A,C,G,T)TP만 넣어주면 DNA 중합효소는 이에 상보적인 DNA를 합성하게 되지만 소량의 dd(A,C,G,T)TP를 섞어주게 된다면, DNA polymerase가 중간에 ddNTP가 끼어 들어간 DNA 분자를 합성되게 된다. 그러면 이러한 분자는 더 이상 길어지지 않고 합성이 중단된다.

출처 : https://binf.snipcademy.com/lessons/dna-sequencing-techniques/sanger-dideoxynucleotide

DNA 샘플은 네 가지 경우로 나누어 dATP, dGTP, dCTP, dTTP는 각 시험관에 모두 첨가하고, 디디옥시뉴클레오티드 (ddATP, ddGTP, ddCTP 또는 ddTTP)는 시험관 4개중 각 1개의 종류만 첨가시켜 DNA 중합효소로 중합시킨다. 시발체에서의 주형 DNA 연장이 여러 차례 이루어지면 생기는 DNA 조각은 열 변성되고 겔 전기 영동 과정을 통해 크기별로 분리된다. 이들 ddNTP에는 각각을 구별할 수 있게 형광물질이 결합되어 있어 새로이 합성된 DNA들의 마지막 염기 종류에 따라 서로 다른 형광을 띄게 된다. 합성된 DNA 분자들은 4개 중의 어느 하나의 ddNTP가 끼어 들어갔으므로 정확히 한 염기씩 길이의 차이가 나게 된다. 이들은 전기 영동법에 의해 크기 순으로 나열할 수 있으며, DNA 띠들은 방사능 촬영이나 UV로 형광물질에 따라 특이적인 파장의 빛을 발하게 되어 순서대로 읽으면 원래 염기서열과 상보적인 서열로 보이게 된다.

 

 

출처 : https://binf.snipcademy.com/lessons/dna-sequencing-techniques/sanger-dideoxynucleotide

 

 

 

 

 

 

 

 

 

 

Whole genome shotgun sequencing

출처 : https://www.slideshare.net/suryasaha/icar-ca-bin-delhi-bioinformatics

shotgun sequencing 기술은 원래 바이러스나 세균과 같은 작은 유전체 sequence를 알기 위해 사용되어졌으나 whole genome shotgun sequencing 기술이 등장하면서 크기가 크고 포유류의 전체 유전체를 서열화 하는데 응용되고있다. 이 기술은 긴 DNA 가닥을 sequencing 하는 방법으로 DNA sequence를 랜덤으로 깨서 작은 조각들을 많이 만들고 오버랩 되는 구역을 찾아서 전체 sequence를 읽어내는 방식이다. shotgun sequencing 기술은 원래 바이러스나 세균과 같은 작은 유전체 sequence를 알기 위해 사용되어졌으나 whole genome shotgun sequencing 기술이 등장하면서 크기가 크고 포유류의 전체 유전체를 서열화 하는데 응용되고있다. 이 기술은 긴 DNA 가닥을 sequencing 하는 방법으로 DNA sequence를 랜덤으로 깨서 작은 조각들을 많이 만들고 오버랩 되는 구역을 찾아서 전체 sequence를 읽어내는 방식이다.

 

Next Generation Sequencing(NGS)
 차세대염기서열분석법 (Next-generation sequencing; Massive parallel sequencing)은 유전체를 무수히 많은 조각으로 나눈 뒤 각각의 염기서열을 조합하여 유전체를 해독하는 분석 방법으로, 2004년 최초로 상용화된 후 현재까지 그 성능이 발전해왔다. Next-generation sequencing (NGS) 또는 Second-generation sequencing로 잘 알려진 차세대 염기서열 분석법은 Massive parallel sequencing을 일컫는 말로, ‘대용량 염기서열 분석법’, ‘대규모 병렬형 염기서열 분석법’으로 번역된다. NGS 분석법은 하나의 유전체를 무수히 많은 조각으로 분해하여 각 조각을 동시에 읽어낸 뒤, 얻은 데이터를 생물 정보학적 기법을 이용해 조합함으로써 방대한 유전체 정보를 빠르게 해독하고자 한다.  차세대 염기서열 분석기법은 2007년 Roche가 처음으로 NGS 장비를 출시한 이후, lllumina Solexa(社), Applied Biosystems(社) 등이 연이어 NGS 장비를 소개하였다. 현재의 Sanger 염기서열 분석 장비는 기껏해야 동시에 수십 개의 전기영동이 가능한 반면,  NGS 염기서열 분석 장비에서는 수십만 내지 수십억 개의 서로 다른 염기서열분석 반응이 동시에 진행되고 판독되어 유전체 분석에 소요되는 비용이 감소하고 있다.  장비마다 차이는 있으나 NGS 염기서열분석 과정은 검체 준비, 클론성 증폭, 염기서열분석의 3단계로 구성된다.

 

NGS 염기서열분석 과정
1) 검체 준비(sample preparation step)
 검체는 분석 대상 (유전체 전체, 엑솜, 특정 염색체 부위, 특정 유전자 조합)에 따라 포획법, 분절법 또는 증폭법 등으로 준비된다. DNA 절편은 읽기 적절한 길이로 준비되고, 여기에 동시 증폭 및 염기서열반응을 위한 adaptor가 결합된다.
2) 클론성 증폭(clonal amplification step)
 준비된 절편을 플레이트 위 일부 공간 또는 droplet(작은 물방울) 안에서 클론으로 증폭시킨다.
3) 염기서열분석(sequencing reaction step)
 클론성 증폭이 이루어진 수십만 내지 수십억 개의 반응산물의 염기서열을 동시에 분석한다. 위 과정은 장비에 따라 1일~1주가 소요되며, 한 번의 분석과정에서 최대 600 Gb의 염기서열 정보를 얻을 수 있다. NGS는 대용량의 정보를 제공할 수 있으므로, 전체 유전체 외에도 특정 유전자 조합 또는 특정 염색체 부위의 염기서열정보를 얻는데 사용될 수 있다.  또한  minor allele을 동시에 분석할 수 있고, 상대적 정량도 가능하므로, 미생물이나 종양처럼 기원이 다른 핵산이 혼합된 경우의 정량적 분석에도 사용될 수 있다.

출처 : http://www.koreahealthlog.com/news/articleView.html?idxno=17862

 

NGS 데이터의 특징
 NGS 데이터가 Sanger 염기서열분석 데이터와 다른 몇 가지 특징이 있는데, 첫 번째는 단일 가닥 염기서열분석(single strand sequencing)이다. Sanger 염기서열분석 데이터는 모든 세포의 DNA 염기서열의 총합으로 표현되는 반면, NGS 데이터는 각 세포에서 유래한 단일가닥 DNA 염기서열이 각각 독립적으로 표현된다. 바꿔 말해, NGS 데이터는 Sanger 데이터보다 polymerase error에 훨씬 취약하다는 약점이 있다. 따라서 NGS 데이터에서 특정 위치의 염기를 최소 몇 번 읽었는지(coverage depth), 염기변이의 빈도가 충분히 높은지가 중요하다.

두 번째, NGS는 대용량 데이터이다. 따라서 Sanger 데이터와 비교가 어려울 정도로 대용량의 정보를 얻을 수 있으나 분석 복잡도가 커서  빠른 속도의 분석 알고리즘이 필요하다.
세 번째, NGS의 기본 데이터 유형은 텍스트파일이다. Sanger에서는 전기영동을 통한 형광 종류별 강도 변화가 기록된 electropherogram이 주어지므로 텍스트 파일 외 각 peak 높이, peak간 간격, peak의 상대적 비율과 변화 등 다양한 정보를 통해 sequencing quality 및 분석소프트웨어의 분석 오류에 대한 직관적 파악이 가능하다. NGS도 장비에서 기록된 신호 데이터가 있지만, 매 사이클마다 한 번씩 형광으로 기록되고 sequencing quality에 대한 직관적 파악이 쉽지 않아 분석 소프트웨어의 분석 오류 발생 시 이를 파악하기가 어렵다.

 

이번 기사에서는 Sequencing의 역사와 차세대염기서열분석법, NGS에 대한 전반적인 준비과정과 데이터 특징들에 대해 알아보았다. 다음 기사에서는 NGS를 응용한 sequencing 방법들을 좀 더 자세히 이야기 하도록 하겠다.