NGS를 응용한 sequencing 방법

 

 NGS(Next-generation sequencing)의 비약적인 발전으로 레퍼런스 염기서열이 없이 분석이 가능한 de novo sequencing, 유전자 발현 변화를 볼 수 있는 transcriptome profiling, 코딩 영역만 해독하는 엑솜시퀀싱 및 질병의 진행 여부 연구까지 NGS가 있어 가능해졌다. 이번 기사에서는 NGS를 응용한 sequencing 방법들에 대해 이야기해보고자 한다.

(1) Resequencing
 Resequencing은 이미 레퍼런스 유전체가 완성된 생물종의 다양한 유전체를 분석하고 그 서열을 레퍼런스와 비교함으로써 특정 유전체 내 SNP 등의 변이를 발굴하고자 할 때 주로 쓰인다. NGS가 가장 널리 활용되고 있는 분야이며 엑솜 시퀀싱, 유전자를 이용한 진단 검사 의학, Genome-wide association studies(전장유전체연관분석연구, GWAS) 등으로 응용된다.
☞ 여기서 잠깐, SNP란?
단일염기 다형성 [single nucleotide polymorphism, SNP]으로 불리며, 염색체의 단일부위에서 여러 가지 DNA 염기들 중의 하나에 나타나는 일반적인 돌연변이이다. 약 500 ~1,000염기 당 1개꼴로 나타나며 이에 의하여 개인의 유전적 다양성이 발생한다.

(2) Whole exome sequencing (WES)
 RNA 서열 상 단백질을 만들어내는 총 영역, 엑솜(Exome)은 전체 인간 유전체의 2% 정도 밖에 차지하지 않지만, 현재까지 알려진 질병 관련 유전자들의 85% 가량이 엑솜에 위치해 있다. 따라서 질병 관련 유전자 발굴 및 진단 검사에는 빠르고 효율적이면서 저비용의 분석이 가능한 엑솜 시퀀싱을 주로 활용한다. 전체 서열에서 엑솜만을 시퀀싱하기 위해서는 엑솜에만 해당하는 probe를 샘플에 섞어주는 solution-based capture나 probe를 칩에 붙여서 추출해내는 array-based capture법, PCR을 이용한 방법 등이 있다. 그러나 라이브러리 제작 단계에서 엑솜 내 G염기와 C염기의 함량의 차이 등으로 인하여 capture probe와 DNA 조각 간의 결합력의 차이가 발생하는 등 라이브러리의 편중화가 일어날 가능성이 많다는 한계점이 있다.

(3) 분자진단검사, 임상의학
 기존의 ‘생어 시퀀싱법’은 분석 시간 및 비용의 문제로 특정 질환에 특이적인 소수의 유전자 검사만이 수행되었고 정확도가 낮았다. 그러나 NGS의 발전으로 인하여 하나의 샘플에서 다양한 질병 관련 유전자들을 동시에 분석할 수 있게 되었다. 이러한 assay들이 다양하게 개발되고 진단 장비로 승인을 받게 되면서 맞춤 의학 (companion diagnostics)시장까지  큰 영향력을 펼치게 될 것으로 기대된다.
 NGS는 임상 의학에서도 다양하게 활용될 수 있다. 한 예로 장기 이식 환자의 혈액에서 장기 제공자의 유전체와 일치하는 cell-free DNA가 검출되는지의 여부를 NGS로 확인한 사례가 발표되었다. 이 뿐만 아니라 임산부의 혈액에서 태아의 cell-free DNA가 발견된 연구를 이용하여 태아의 비침투 산전 검사를 수행한 연구가 발표되었다. 질병을 일으키는 대장균 등 다양한 세균들과 자궁경부암을 일으키는 HPV 등 바이러스의 체내 존재 여부 및 종 식별을 NGS로 빠르게 분석할 수 있게 되었다.

(4) Mapping-by-sequencing 법을 이용한 Forward genetic screening
 전통적인 forward genetic screening은 표준 개체와 돌연변이를 지속적으로 교배하면서 유전자 마커를 기준으로 mapping해야 했으므로 오랜 시간이 소요되었다. 그러나 NGS 분석 비용이 감소한 현재는 NGS를 이용하여 돌연변이체의 유전체를 분석하고 표준 유전체와 직접 비교함으로써 분석 시간을 단축할 수 있게 되었다.

(5) GWAS (Genome-Wide Association Study)
 GWAS란 각 개체의 유전체를 해독하여 비교, 분석함으로써 특정 질병과 연관된 유전적 요인을 찾고자 하는 연구이다. 인간의 SNP는 1억 개 가량이 발견되었고, 이 정보를 바탕으로 특정 질환을 앓고 있는 환자와 정상인의 유전체를 해독함으로서 SNP의 차이를 분석해 환자 집단에서의 해당하는 유전자를 추려내어 질환과 연관된 유전자를 발굴해내는 것이 GWAS의 연구 방법이다.

(6) 미생물의 종 식별 및 메타지노믹스(metagenomics)
 동, 식물에 비해 미생물의 유전체는 상대적으로 크기가 작기 때문에 유전체 해독이 상당히 진행되었다. 현재 미생물학계에서는 단일 생물종의 유전체 해독 연구를 넘어서서, 특정 환경에서 수집한 샘플에 함유된 유전체를 분석함으로써 각 환경의 미생물 군집을 파악하고자 하는 meta-genomics 연구가 활발히 수행되고 있다.

(7) Single-cell genomics
 NGS 분석 기술이 발달함에 따라 미량의 DNA 시료로도 성공적으로 sequencing 분석이 가능해지면서 단일 세포의 유전체를 알고자하는 single-cell genomics 연구가 활기를 띄게 되었다. 세포 분열과정에서 DNA가 복제를 거듭하면서 돌연변이가 발생할 가능성이 항상 존재한다. 따라서 한 개체에 있는 세포라 하더라도 각각의 유전체에는 미묘한 변이가 발생한다. 또한 이러한 돌연변이는 질환의 원인으로 작용하기도 하는데 한 연구에 따르면 정상 조직과 질환을 앓고 있는 조직의 유전체를 비교했을 때 변이율이 이론상 계산 결과보다 상당히 높았다. Single cell genomics를 통해 각 단일 세포의 유전체 서열을 분석함으로써 발달 생물학이나 암 생물학 연구에 응용시킬 수 있다. Single-cell genomics 연구에서는 아직까지 단일 세포의 정확한 분리와 미량 유전체의 증폭이 정확하지 않다는 한계점을 갖고 있어 현재의 NGS 분석을 위해서는 유전체 증폭 등의 과정이 필수적이다.

(8) de novo assembly(신생조합)
 de novo assembly는 아직 전체 염기서열이 해독되지 않은 생명체의 염기서열을 NGS로 분석하여 genome 또는 transcriptome을 구축하는 작업을 말한다. NGS 기술의 발전과 이를 뒷받침하는 생물 정보학의 발달로 주요 모델 생물에 이어 다양한 생물자원의 유전체 해독이 가능하게 되었다. 이러한 연구는 수많은 동물들의 유전체 해독을 목표로 현재는 1만종 이상의 척추동물 유전체를 해독하자는 Genome 10K 프로젝트가 추진되고 있다. NGS를 이용한 de novo assembly가 본격적으로 시작되기 전 이미 BAC 클론을 이용한 생어 시퀀싱으로 해독되고 있던 유전체들도 이제까지 얻은 결과와 NGS를 이용한 분석 결과를 조합함으로써 유전체 해독에 가속도를 붙일 수 있었다. 하지만 아직까지 NGS만으로 해독된 유전체 정보는 생어 시퀀싱으로 제작된 유전체에 비해 전체적인 완성도가 낮다는 한계를 갖고 있어 NGS만을 이용하여 de novo assembly를 진행하고 있지는 않다.

(9) Transcriptome sequencing
 mRNA sequencing은 NGS 기술의 발달로 현재 대부분 RNA-Seq으로 대체되었다. 기존 Microarray 방법으로는 특정 mRNA의 증가 또는 감소량 정도만 파악할 수 있었지만, NGS는 mRNA의 염기 서열을 직접 해독하게 됨으로써 그 전까지 불가능했던 RNA editing이나 대립유전자의 특정적인 발현(allele-specific expression) 등의 관찰이 가능하게 되었다. 게다가 mRNA 뿐만 아니라 small RNA 등의 non-coding RNA의 분석도 가능하게 되었으며, 엑손/인트론 구별 및 서열 정보가 불충분한 생물의 trasncript들까지도 분석 가능한 수단으로 사용된다.
 ☞ 여기서 잠깐, RNA-Seq은 mRNA나 miRNA 등 원하는 RNA를 분리한 뒤, RNA를 DNA로 변환한 후 어답터를 붙여 라이브러리를 제작하는 것이다. RNA는 유전체와 달리 세포 내에 존재하는 양이 그 특징에 따라 매우 다양하기 때문에, 극소량의 mRNA까지 성공적으로 검출해내기 위해서는 최대한 많은 read를 읽음으로써 sequencing depth를 올리는 것이 무엇보다도 중요하다. 또한 transcriptome의 대다수를 차지하는 rRNA 등을 효과적으로 제거하는 것도 도움이 된다. 하지만 아직까지 miRNA 등 small RNA는 크기가 작기 때문에, 라이브러리 제작에 사용되는 아답터의 false positive 아답터-이합체(adapter-dimer) 와 구별하기 어렵다는 한계점이 있어 NGS를 이용한 transcriptome 분석법의 발전을 위해서는 고품질의 라이브러리 제작법에 대한 연구가 뒷받침되어야 할 것이다.

 산업계에서의 NGS 응용 가능성은 최근 다양한 측면으로 제시되고 있다.  특정 세포주를 세대를 반복하여 ‘계대 배양’(세포 증식을 위해 새로운 배양접시에 옮겨 세포의 대를 계속 이어서 배양하는 방법)하면 그 과정에서 유전체 또는 후성 유전학적 변이가 생기는 경우가 있는데, 각 세포주의 유전체를 NGS를 이용하여 빠르게 분석하며 각 단계에서의 돌연변이를 모니터링 함으로써 세포주의 품질을 유지할 수 있게 되었다. 또한 다양한 환경에서의 세포의 활성 변화 및 유전자 발현 패턴의 변화를 관찰하는 데에도 유용하게 사용되고 있어 각 유전자의 기능을 연구하던 연구자들은 이제 특정 생명 현상과 관련된 모든 유전자들 사이의 상관관계를 통합적으로 파악할 수 있게 되었다. NGS 분석에 소요되는 비용이 저렴해진 만큼, 향후 생어 시퀀싱 방법의 사용과 같이 빈번하게 사용될 것이다. 다만 한 번의 NGS 분석으로 상당히 많은 양의 데이터가 생성되기 때문에, 생성된 데이터를 어떻게 분석하여 그 중에서 유의미한 결과를 추출해낼 것인지에 대한 충분한 계획을 세워야 한다.  빠르게 변하는 기술 동향을 정확하게 파악하면서 NGS 기술을 아는 만큼 응용할 수 있었으면 한다.

Posted by KIST PR

댓글을 달아 주세요

  1. 표절봇 2018.01.15 15:30 신고  댓글주소  수정/삭제  댓글쓰기

    BRIC View 동향리포트인
    '최근 차세대염기서열분석(NGS) 기술 발전과 향후 연구방향'을
    그대로 베껴서 작성하셨는데
    출처표기 하나 없이 이렇게 해도 되는 건가요?

NGS: sequencing이란 무엇인가?

 

최근 차세대 염기서열 분석법(Next Generation Sequencing: NGS) 기술의 발달과 분석 비용의 하락으로 인해 질병 원인 유전자 분석 연구 외의  다양한 연구 분야에서 NGS가 보편적으로 활용되고 있으며, 의료계 및 산업계에서도 활발하게 사용되어지고 있다. 차세대 염기서열 분석법 이전, 사람의 몸을 구성하고 있는 DNA 서열을 모두 알고자 했던 과학자들은 DNA sequencing 기술을 연구했다. DNA sequencing 기술은 생화학적 방법으로 생명체의 모든 세포의 DNA 사슬을 구성하는 염기 A, T, G, C가 결합된 서열 순서를 분석하는 기술이다. 가장 원초적인 방법으로 Maxam-Gilbert법과 효소적인 방법인 Sanger법이 있다.

 

Maxam-Gilbert
 

출처 : https://binf.snipcademy.com/lessons/dna-sequencing-techniques/maxam-gilbert

Sanger sequencing이 나오기 전 Maxam과 Gilbert가 DNA 염기서열을 분석해내는 기술을 만들어냈다. 이중나선으로 꼬여 있는 DNA를 준비 한 뒤, 온도를 높여 denaturation(변성) 과정을 통해 단일 가닥의 DNA 가닥을 생성하고 5번 말단을 감마-32P를 사용하여 방사성 동위원소의 labelling을 시킨다. 그리고 화학적 반응을 이용해서 DNA 가닥을 특정 염기에서 분해시킨다. 예를 들어 dimethyl sulphate(디메틸 황산)는 선택적으로 purine계열의 A,G 염기를 공격하고 hydrazine(하이드라진)은 선택적으로 pyrimidine계열의 C,T를 공격한다. 그럼 이러한 화학적 시행을 통해서 G, A+G, C 그리고 C+T의 말단을 갖는 DNA가닥이 나눠지게 된다.

 

여기서 잠깐, DNA sequence를 구성하고 있는 염기 A,G,C,T 4가지 중 A,G는 퓨린계 염기, C,T는 피리미딘염기이다.  A+G는 DNA 염기서열에서 A가 있는 염기에서 DNA를 자르는데, 가끔은 G point 에서도 잘리는 것을 말한다.

 

서로 다른 4개의 reaction tube(반응관)에 다른 사이즈의 DNA 가닥을 놓고 고해상도 acrylamide gel(아크릴아미드 겔)을 이용하여 전기영동으로 가닥을 크기별로 분리하고 X-ray 필름을 gel 위에 둬서 방사선을 쏘이면 특정 band들이 보이게 되는데 이곳이 감마-32P로 label되어진 DNA 분자의 위치이다. Sequence는 gel의 밑 부분부터 읽기 시작하며, 4개의 화학 반응의 band pattern을 읽을 때, 예를 들어 G-reaction과 G+A-reaction lane에서 모두 band가 나타났다면 이것은 G 로 읽어야 하고, 만약 G+A-reaction lane에서만 band가 나타났다면 A로 읽어야 한다.

 

Sanger sequencing

생어 염기서열 분석(Sanger sequencing)은 시험관 DNA 복제 중에 DNA 사슬을 마무리 하는 디디옥시뉴클레오티드가 DNA 중합효소에 의해 제한적으로 삽입된다는 원리에 기반한다. 최근에는 많은 양의 생어 염기서열 분석을 대규모로 자동 게놈 분석을 위해 NGS 방법이 진행되고 있으나, 더 작은 규모의 프로젝트와 NGS 결과의 검증, 길이가 긴 연속 DNA 염기서열 분석 (> 500 뉴클레오티드)을 위하여 아직까지 널리 쓰이고 있다.  Sanger sequencing은 고전적인 ‘사슬 종료 방법’을 이용하여 하나의 단일 나선 DNA 주형, DNA 시발체(primer), DNA 중합효소, 보통의 디옥시뉴클레오시드3인산염 (dNTP)와 DNA 나선연장을 종료하는 디-디옥시뉴클레오시드3인산염(ddNTP)를 쟤료로 sequencing을 진행한다.

출처 : https://www.youtube.com/watch?v=593zWZNwbJI

사슬 종료 뉴클레오티드(ddNTP)는 인산이에스테르 결합 형성에 필요한 3'-[OH]가 없어, 삽입되었을 때 DNA 중합효소가 DNA의 연장을 중단하도록 한다. 일반적인 d(A,C,G,T)TP만 넣어주면 DNA 중합효소는 이에 상보적인 DNA를 합성하게 되지만 소량의 dd(A,C,G,T)TP를 섞어주게 된다면, DNA polymerase가 중간에 ddNTP가 끼어 들어간 DNA 분자를 합성되게 된다. 그러면 이러한 분자는 더 이상 길어지지 않고 합성이 중단된다.

출처 : https://binf.snipcademy.com/lessons/dna-sequencing-techniques/sanger-dideoxynucleotide

DNA 샘플은 네 가지 경우로 나누어 dATP, dGTP, dCTP, dTTP는 각 시험관에 모두 첨가하고, 디디옥시뉴클레오티드 (ddATP, ddGTP, ddCTP 또는 ddTTP)는 시험관 4개중 각 1개의 종류만 첨가시켜 DNA 중합효소로 중합시킨다. 시발체에서의 주형 DNA 연장이 여러 차례 이루어지면 생기는 DNA 조각은 열 변성되고 겔 전기 영동 과정을 통해 크기별로 분리된다. 이들 ddNTP에는 각각을 구별할 수 있게 형광물질이 결합되어 있어 새로이 합성된 DNA들의 마지막 염기 종류에 따라 서로 다른 형광을 띄게 된다. 합성된 DNA 분자들은 4개 중의 어느 하나의 ddNTP가 끼어 들어갔으므로 정확히 한 염기씩 길이의 차이가 나게 된다. 이들은 전기 영동법에 의해 크기 순으로 나열할 수 있으며, DNA 띠들은 방사능 촬영이나 UV로 형광물질에 따라 특이적인 파장의 빛을 발하게 되어 순서대로 읽으면 원래 염기서열과 상보적인 서열로 보이게 된다.

 

 

출처 : https://binf.snipcademy.com/lessons/dna-sequencing-techniques/sanger-dideoxynucleotide

 

 

 

 

 

 

 

 

 

 

Whole genome shotgun sequencing

출처 : https://www.slideshare.net/suryasaha/icar-ca-bin-delhi-bioinformatics

shotgun sequencing 기술은 원래 바이러스나 세균과 같은 작은 유전체 sequence를 알기 위해 사용되어졌으나 whole genome shotgun sequencing 기술이 등장하면서 크기가 크고 포유류의 전체 유전체를 서열화 하는데 응용되고있다. 이 기술은 긴 DNA 가닥을 sequencing 하는 방법으로 DNA sequence를 랜덤으로 깨서 작은 조각들을 많이 만들고 오버랩 되는 구역을 찾아서 전체 sequence를 읽어내는 방식이다. shotgun sequencing 기술은 원래 바이러스나 세균과 같은 작은 유전체 sequence를 알기 위해 사용되어졌으나 whole genome shotgun sequencing 기술이 등장하면서 크기가 크고 포유류의 전체 유전체를 서열화 하는데 응용되고있다. 이 기술은 긴 DNA 가닥을 sequencing 하는 방법으로 DNA sequence를 랜덤으로 깨서 작은 조각들을 많이 만들고 오버랩 되는 구역을 찾아서 전체 sequence를 읽어내는 방식이다.

 

Next Generation Sequencing(NGS)
 차세대염기서열분석법 (Next-generation sequencing; Massive parallel sequencing)은 유전체를 무수히 많은 조각으로 나눈 뒤 각각의 염기서열을 조합하여 유전체를 해독하는 분석 방법으로, 2004년 최초로 상용화된 후 현재까지 그 성능이 발전해왔다. Next-generation sequencing (NGS) 또는 Second-generation sequencing로 잘 알려진 차세대 염기서열 분석법은 Massive parallel sequencing을 일컫는 말로, ‘대용량 염기서열 분석법’, ‘대규모 병렬형 염기서열 분석법’으로 번역된다. NGS 분석법은 하나의 유전체를 무수히 많은 조각으로 분해하여 각 조각을 동시에 읽어낸 뒤, 얻은 데이터를 생물 정보학적 기법을 이용해 조합함으로써 방대한 유전체 정보를 빠르게 해독하고자 한다.  차세대 염기서열 분석기법은 2007년 Roche가 처음으로 NGS 장비를 출시한 이후, lllumina Solexa(社), Applied Biosystems(社) 등이 연이어 NGS 장비를 소개하였다. 현재의 Sanger 염기서열 분석 장비는 기껏해야 동시에 수십 개의 전기영동이 가능한 반면,  NGS 염기서열 분석 장비에서는 수십만 내지 수십억 개의 서로 다른 염기서열분석 반응이 동시에 진행되고 판독되어 유전체 분석에 소요되는 비용이 감소하고 있다.  장비마다 차이는 있으나 NGS 염기서열분석 과정은 검체 준비, 클론성 증폭, 염기서열분석의 3단계로 구성된다.

 

NGS 염기서열분석 과정
1) 검체 준비(sample preparation step)
 검체는 분석 대상 (유전체 전체, 엑솜, 특정 염색체 부위, 특정 유전자 조합)에 따라 포획법, 분절법 또는 증폭법 등으로 준비된다. DNA 절편은 읽기 적절한 길이로 준비되고, 여기에 동시 증폭 및 염기서열반응을 위한 adaptor가 결합된다.
2) 클론성 증폭(clonal amplification step)
 준비된 절편을 플레이트 위 일부 공간 또는 droplet(작은 물방울) 안에서 클론으로 증폭시킨다.
3) 염기서열분석(sequencing reaction step)
 클론성 증폭이 이루어진 수십만 내지 수십억 개의 반응산물의 염기서열을 동시에 분석한다. 위 과정은 장비에 따라 1일~1주가 소요되며, 한 번의 분석과정에서 최대 600 Gb의 염기서열 정보를 얻을 수 있다. NGS는 대용량의 정보를 제공할 수 있으므로, 전체 유전체 외에도 특정 유전자 조합 또는 특정 염색체 부위의 염기서열정보를 얻는데 사용될 수 있다.  또한  minor allele을 동시에 분석할 수 있고, 상대적 정량도 가능하므로, 미생물이나 종양처럼 기원이 다른 핵산이 혼합된 경우의 정량적 분석에도 사용될 수 있다.

출처 : http://www.koreahealthlog.com/news/articleView.html?idxno=17862

 

NGS 데이터의 특징
 NGS 데이터가 Sanger 염기서열분석 데이터와 다른 몇 가지 특징이 있는데, 첫 번째는 단일 가닥 염기서열분석(single strand sequencing)이다. Sanger 염기서열분석 데이터는 모든 세포의 DNA 염기서열의 총합으로 표현되는 반면, NGS 데이터는 각 세포에서 유래한 단일가닥 DNA 염기서열이 각각 독립적으로 표현된다. 바꿔 말해, NGS 데이터는 Sanger 데이터보다 polymerase error에 훨씬 취약하다는 약점이 있다. 따라서 NGS 데이터에서 특정 위치의 염기를 최소 몇 번 읽었는지(coverage depth), 염기변이의 빈도가 충분히 높은지가 중요하다.

두 번째, NGS는 대용량 데이터이다. 따라서 Sanger 데이터와 비교가 어려울 정도로 대용량의 정보를 얻을 수 있으나 분석 복잡도가 커서  빠른 속도의 분석 알고리즘이 필요하다.
세 번째, NGS의 기본 데이터 유형은 텍스트파일이다. Sanger에서는 전기영동을 통한 형광 종류별 강도 변화가 기록된 electropherogram이 주어지므로 텍스트 파일 외 각 peak 높이, peak간 간격, peak의 상대적 비율과 변화 등 다양한 정보를 통해 sequencing quality 및 분석소프트웨어의 분석 오류에 대한 직관적 파악이 가능하다. NGS도 장비에서 기록된 신호 데이터가 있지만, 매 사이클마다 한 번씩 형광으로 기록되고 sequencing quality에 대한 직관적 파악이 쉽지 않아 분석 소프트웨어의 분석 오류 발생 시 이를 파악하기가 어렵다.

 

이번 기사에서는 Sequencing의 역사와 차세대염기서열분석법, NGS에 대한 전반적인 준비과정과 데이터 특징들에 대해 알아보았다. 다음 기사에서는 NGS를 응용한 sequencing 방법들을 좀 더 자세히 이야기 하도록 하겠다.

Posted by KIST PR

댓글을 달아 주세요

  1. 표절봇 2018.01.10 15:57 신고  댓글주소  수정/삭제  댓글쓰기

    NGS 파트는
    http://www.koreahealthlog.com/news/articleView.html?idxno=17862
    이 기사의 텍스트를 그대로 베껴서 썼는데
    그림출처만 달아놓고 이렇게 내도 되는 건가요?