BRIEFINGS IN BIOINFORMATICS. VOL 2. NO 2. 181-197 |
- NGS 기술은 Sanger sequencing 기술을 밀어내고 genomics와 functional genomics에 거대한 영향을 줌
- NGS 기술이 발전할 수 있었던 배경
- 나노 테크놀로지 분야의 발전
- Small glass slide에 있는 수백만개의 소스들을 찾고 구분할 수 있는 광학 기계의 발달
- Sequencing 문제를 해결할 수 있는 전통적인 분자생물학 이론의 독창적인 적용
- NGS 기술은 SNP분석, genome resequencing 이외에도 많은 분석에 적용됨
- ex) cDNA의 NGS는 transcriptome의 포괄적인 요약, genome annotation, splicing의 다양성 확인 가능
NGS Platforms
- Roche 4454, Illumina Genome Analyzer, ABI SOLiD
- 기술이 발전하면서 sequencing 가격은 낮아지고, read length의 길이는 길어짐
- Roche 4454, Illumina Genome Analyzer, ABI SOLiD는 sequencing 전 amplification 과정을 거침
- Helicos sequencing 기술은 amplification 과정을 거치지 않고, sequencing data를 제공
- Illumina GA, ABI SOLiD의 데이터 분석을 위한 bioinformatics 연구는 Helicos 데이터에도 사용가능
- Nanopore 기술, tunneling electron microscopy에 기초한 다른 방법들도 제안됨
- Illumina GA, Roche 454가 template molecule을 증폭하고 시퀀싱하는 혁신적인 기술을 사용하지만 근본적으로는 Sanger 방법론에서 사용된 'Sequencing by extension'의 기초적인 이론을 사용. ABI SOLiD는 염기마다 다른 네 가지의 색깔로 구분하고 정확성이 높음
Mapping simulation
RNA-Seq transcriptome sequencing 연구하기 위해 세 가지 프로그램 선택(SOAP, BOWTIE, PASS) -> 각 프로그램은 reference sequence와 최대한 match되고 mismatch는 최대 2개까지 찾을 수 있도록 파라미터 설정
- SOAP : 속도가 빠름
- BOWTIE : 낮은 맵핑 속도로 99.99%의 정확도
- PASS : SOAP보다는 빠르지만 메모리가 많이 요구됨
Metagenomics and the de novo assembly of short sequence reads
- 지금까지 reference genome sequence에 이용 가능한 mapping NGS data에 의존한 적용을 고려해왔음
- Bacterial genome에서는 genome sequence를 assemble하는데 short reads가 효과적임
- Metagenomics, microbial community analysis는 NGS로 다뤄지지 않았음
- Aligner와 de novo assembler는 계속 발달(진보)중이며, 이용 가능한 de novo short read assembler는 근본적인 기술로 활용함
- Metagenomics 문맥에서 contig assembly 수행 후 high-throughput identification과 phylogenetics 전략은 microbial communities를 재구성하기 위해 필요함
- Atlas, ARACHNE, PCAP, Phusion은 whole-genome의 shotgun fragment를 assembly하는 툴이며, NGS platform이나 높은 에러율에 의해 생산된 reads는 다루기 어려움
NGS data의 de novo assembly가 가능한 application: QSRA, ALLPATHS, Velvet, EDENA, VCAKE, SHARCGS, EULER-SR, SSAKE, VCAKE, SSAKE, Velvet -> De Bruijn graphs 사용(overlapping reads의 분포를 요약하기위해)
- QSRA VS. EDENA, Velvet, SSAKE, VCAKE
- EDENA, Velvet : 낮은 genomic coverage에서 긴 contig를 산출
- QSRA, SSAKE, VCAKE : 짧은 contig 산출
- Short-read Assembler based on Robust Contig extension for Genome Sequencing(SHARCGS) 알고리즘은 매우 짧은 reads를 assembly 할 수 있고, sequencing 에러를 관리할 수 있음
Detection of SNPs and editing sites by NGS technologies
SNP는 인간에게서 나타나는 가장 혼한 genetic 형태로 DNA -> RNA -> Protein으로 변할 때 맵핑할 수 있는 genetic trait.
- SNP는 high-throughput sequencing project의 데이터를 사용하여 찾고, read는 해당하는 genomic reference에 align하고, sequencing error는 quality score를 사용하여 genetic variation을 알아봄
- SNP라고 할 수있는 가능성은 POLYBAYES같은 Bayesian inference statistics 툴을 사용할 수 있음
- NGS 플랫폼은 증가된 sequencing depth 덕분에 SNP를 정확하게 detection 가능
- 모든 NGS 기술은 mammalian genome에서 SNP라고 추론되어옴
- Hign-throughput strategy중에 SOLiD는 color-space 시스템이 진짜 variation으로부터 sequencing error를 구분할 수 있음
- Roche 454 reads는 낮은 coverage로 높은 퀄리티를 제공
- Homopolymeric strings가 존재할 때 pyrosequencing은 SNP detection에서 biases로 소개될 수 있음
Large-scale transcriptome analysis by RNA-Seq
- NGS 플랫폼은 transcriptome 분석에 적합
- Transcriptome의 포괄적인 이해를 얻기 위해서 전체 RNA의 랜덤 증폭이 시작됨
CHiP-Seq
Small RNAs
Epigenomics studies
- DNA Methylation과 Demethlylation은 동 식물에게 중요한 메커니즘










