본문 바로가기

KIST Talk/사내직원기자

[취향저격 분자진단] NGS를 응용한 sequencing 방법(바이오마이크로시스템연구단 김미연)

NGS를 응용한 sequencing 방법

 

 NGS(Next-generation sequencing)의 비약적인 발전으로 레퍼런스 염기서열이 없이 분석이 가능한 de novo sequencing, 유전자 발현 변화를 볼 수 있는 transcriptome profiling, 코딩 영역만 해독하는 엑솜시퀀싱 및 질병의 진행 여부 연구까지 NGS가 있어 가능해졌다. 이번 기사에서는 NGS를 응용한 sequencing 방법들에 대해 이야기해보고자 한다.

(1) Resequencing
 Resequencing은 이미 레퍼런스 유전체가 완성된 생물종의 다양한 유전체를 분석하고 그 서열을 레퍼런스와 비교함으로써 특정 유전체 내 SNP 등의 변이를 발굴하고자 할 때 주로 쓰인다. NGS가 가장 널리 활용되고 있는 분야이며 엑솜 시퀀싱, 유전자를 이용한 진단 검사 의학, Genome-wide association studies(전장유전체연관분석연구, GWAS) 등으로 응용된다.
☞ 여기서 잠깐, SNP란?
단일염기 다형성 [single nucleotide polymorphism, SNP]으로 불리며, 염색체의 단일부위에서 여러 가지 DNA 염기들 중의 하나에 나타나는 일반적인 돌연변이이다. 약 500 ~1,000염기 당 1개꼴로 나타나며 이에 의하여 개인의 유전적 다양성이 발생한다.

(2) Whole exome sequencing (WES)
 RNA 서열 상 단백질을 만들어내는 총 영역, 엑솜(Exome)은 전체 인간 유전체의 2% 정도 밖에 차지하지 않지만, 현재까지 알려진 질병 관련 유전자들의 85% 가량이 엑솜에 위치해 있다. 따라서 질병 관련 유전자 발굴 및 진단 검사에는 빠르고 효율적이면서 저비용의 분석이 가능한 엑솜 시퀀싱을 주로 활용한다. 전체 서열에서 엑솜만을 시퀀싱하기 위해서는 엑솜에만 해당하는 probe를 샘플에 섞어주는 solution-based capture나 probe를 칩에 붙여서 추출해내는 array-based capture법, PCR을 이용한 방법 등이 있다. 그러나 라이브러리 제작 단계에서 엑솜 내 G염기와 C염기의 함량의 차이 등으로 인하여 capture probe와 DNA 조각 간의 결합력의 차이가 발생하는 등 라이브러리의 편중화가 일어날 가능성이 많다는 한계점이 있다.

(3) 분자진단검사, 임상의학
 기존의 ‘생어 시퀀싱법’은 분석 시간 및 비용의 문제로 특정 질환에 특이적인 소수의 유전자 검사만이 수행되었고 정확도가 낮았다. 그러나 NGS의 발전으로 인하여 하나의 샘플에서 다양한 질병 관련 유전자들을 동시에 분석할 수 있게 되었다. 이러한 assay들이 다양하게 개발되고 진단 장비로 승인을 받게 되면서 맞춤 의학 (companion diagnostics)시장까지  큰 영향력을 펼치게 될 것으로 기대된다.
 NGS는 임상 의학에서도 다양하게 활용될 수 있다. 한 예로 장기 이식 환자의 혈액에서 장기 제공자의 유전체와 일치하는 cell-free DNA가 검출되는지의 여부를 NGS로 확인한 사례가 발표되었다. 이 뿐만 아니라 임산부의 혈액에서 태아의 cell-free DNA가 발견된 연구를 이용하여 태아의 비침투 산전 검사를 수행한 연구가 발표되었다. 질병을 일으키는 대장균 등 다양한 세균들과 자궁경부암을 일으키는 HPV 등 바이러스의 체내 존재 여부 및 종 식별을 NGS로 빠르게 분석할 수 있게 되었다.

(4) Mapping-by-sequencing 법을 이용한 Forward genetic screening
 전통적인 forward genetic screening은 표준 개체와 돌연변이를 지속적으로 교배하면서 유전자 마커를 기준으로 mapping해야 했으므로 오랜 시간이 소요되었다. 그러나 NGS 분석 비용이 감소한 현재는 NGS를 이용하여 돌연변이체의 유전체를 분석하고 표준 유전체와 직접 비교함으로써 분석 시간을 단축할 수 있게 되었다.

(5) GWAS (Genome-Wide Association Study)
 GWAS란 각 개체의 유전체를 해독하여 비교, 분석함으로써 특정 질병과 연관된 유전적 요인을 찾고자 하는 연구이다. 인간의 SNP는 1억 개 가량이 발견되었고, 이 정보를 바탕으로 특정 질환을 앓고 있는 환자와 정상인의 유전체를 해독함으로서 SNP의 차이를 분석해 환자 집단에서의 해당하는 유전자를 추려내어 질환과 연관된 유전자를 발굴해내는 것이 GWAS의 연구 방법이다.

(6) 미생물의 종 식별 및 메타지노믹스(metagenomics)
 동, 식물에 비해 미생물의 유전체는 상대적으로 크기가 작기 때문에 유전체 해독이 상당히 진행되었다. 현재 미생물학계에서는 단일 생물종의 유전체 해독 연구를 넘어서서, 특정 환경에서 수집한 샘플에 함유된 유전체를 분석함으로써 각 환경의 미생물 군집을 파악하고자 하는 meta-genomics 연구가 활발히 수행되고 있다.

(7) Single-cell genomics
 NGS 분석 기술이 발달함에 따라 미량의 DNA 시료로도 성공적으로 sequencing 분석이 가능해지면서 단일 세포의 유전체를 알고자하는 single-cell genomics 연구가 활기를 띄게 되었다. 세포 분열과정에서 DNA가 복제를 거듭하면서 돌연변이가 발생할 가능성이 항상 존재한다. 따라서 한 개체에 있는 세포라 하더라도 각각의 유전체에는 미묘한 변이가 발생한다. 또한 이러한 돌연변이는 질환의 원인으로 작용하기도 하는데 한 연구에 따르면 정상 조직과 질환을 앓고 있는 조직의 유전체를 비교했을 때 변이율이 이론상 계산 결과보다 상당히 높았다. Single cell genomics를 통해 각 단일 세포의 유전체 서열을 분석함으로써 발달 생물학이나 암 생물학 연구에 응용시킬 수 있다. Single-cell genomics 연구에서는 아직까지 단일 세포의 정확한 분리와 미량 유전체의 증폭이 정확하지 않다는 한계점을 갖고 있어 현재의 NGS 분석을 위해서는 유전체 증폭 등의 과정이 필수적이다.

(8) de novo assembly(신생조합)
 de novo assembly는 아직 전체 염기서열이 해독되지 않은 생명체의 염기서열을 NGS로 분석하여 genome 또는 transcriptome을 구축하는 작업을 말한다. NGS 기술의 발전과 이를 뒷받침하는 생물 정보학의 발달로 주요 모델 생물에 이어 다양한 생물자원의 유전체 해독이 가능하게 되었다. 이러한 연구는 수많은 동물들의 유전체 해독을 목표로 현재는 1만종 이상의 척추동물 유전체를 해독하자는 Genome 10K 프로젝트가 추진되고 있다. NGS를 이용한 de novo assembly가 본격적으로 시작되기 전 이미 BAC 클론을 이용한 생어 시퀀싱으로 해독되고 있던 유전체들도 이제까지 얻은 결과와 NGS를 이용한 분석 결과를 조합함으로써 유전체 해독에 가속도를 붙일 수 있었다. 하지만 아직까지 NGS만으로 해독된 유전체 정보는 생어 시퀀싱으로 제작된 유전체에 비해 전체적인 완성도가 낮다는 한계를 갖고 있어 NGS만을 이용하여 de novo assembly를 진행하고 있지는 않다.

(9) Transcriptome sequencing
 mRNA sequencing은 NGS 기술의 발달로 현재 대부분 RNA-Seq으로 대체되었다. 기존 Microarray 방법으로는 특정 mRNA의 증가 또는 감소량 정도만 파악할 수 있었지만, NGS는 mRNA의 염기 서열을 직접 해독하게 됨으로써 그 전까지 불가능했던 RNA editing이나 대립유전자의 특정적인 발현(allele-specific expression) 등의 관찰이 가능하게 되었다. 게다가 mRNA 뿐만 아니라 small RNA 등의 non-coding RNA의 분석도 가능하게 되었으며, 엑손/인트론 구별 및 서열 정보가 불충분한 생물의 trasncript들까지도 분석 가능한 수단으로 사용된다.
 ☞ 여기서 잠깐, RNA-Seq은 mRNA나 miRNA 등 원하는 RNA를 분리한 뒤, RNA를 DNA로 변환한 후 어답터를 붙여 라이브러리를 제작하는 것이다. RNA는 유전체와 달리 세포 내에 존재하는 양이 그 특징에 따라 매우 다양하기 때문에, 극소량의 mRNA까지 성공적으로 검출해내기 위해서는 최대한 많은 read를 읽음으로써 sequencing depth를 올리는 것이 무엇보다도 중요하다. 또한 transcriptome의 대다수를 차지하는 rRNA 등을 효과적으로 제거하는 것도 도움이 된다. 하지만 아직까지 miRNA 등 small RNA는 크기가 작기 때문에, 라이브러리 제작에 사용되는 아답터의 false positive 아답터-이합체(adapter-dimer) 와 구별하기 어렵다는 한계점이 있어 NGS를 이용한 transcriptome 분석법의 발전을 위해서는 고품질의 라이브러리 제작법에 대한 연구가 뒷받침되어야 할 것이다.

 산업계에서의 NGS 응용 가능성은 최근 다양한 측면으로 제시되고 있다.  특정 세포주를 세대를 반복하여 ‘계대 배양’(세포 증식을 위해 새로운 배양접시에 옮겨 세포의 대를 계속 이어서 배양하는 방법)하면 그 과정에서 유전체 또는 후성 유전학적 변이가 생기는 경우가 있는데, 각 세포주의 유전체를 NGS를 이용하여 빠르게 분석하며 각 단계에서의 돌연변이를 모니터링 함으로써 세포주의 품질을 유지할 수 있게 되었다. 또한 다양한 환경에서의 세포의 활성 변화 및 유전자 발현 패턴의 변화를 관찰하는 데에도 유용하게 사용되고 있어 각 유전자의 기능을 연구하던 연구자들은 이제 특정 생명 현상과 관련된 모든 유전자들 사이의 상관관계를 통합적으로 파악할 수 있게 되었다. NGS 분석에 소요되는 비용이 저렴해진 만큼, 향후 생어 시퀀싱 방법의 사용과 같이 빈번하게 사용될 것이다. 다만 한 번의 NGS 분석으로 상당히 많은 양의 데이터가 생성되기 때문에, 생성된 데이터를 어떻게 분석하여 그 중에서 유의미한 결과를 추출해낼 것인지에 대한 충분한 계획을 세워야 한다.  빠르게 변하는 기술 동향을 정확하게 파악하면서 NGS 기술을 아는 만큼 응용할 수 있었으면 한다.