BRIEFINGS IN BIOINFORMATICS. VOL 2. NO 2. 181-197
Advance Access published on 27 October 2009
Bioinformatics approaches for genomics and post genomics applications of next-generation sequencing
David Stephen Horner, Giulio Pavesi, Tiziana Castrignano, Paolo D'Onorio De Meo, Sabino Liuni, Michael Sammeth, Ernesto Picardi and Graziano Pesole

  • NGS 기술은 Sanger sequencing 기술을 밀어내고 genomics와 functional genomics에 거대한 영향을 줌
  • NGS 기술이 발전할 수 있었던 배경
    • 나노 테크놀로지 분야의 발전
    • Small glass slide에 있는 수백만개의 소스들을 찾고 구분할 수 있는 광학 기계의 발달
    • Sequencing 문제를 해결할 수 있는 전통적인 분자생물학 이론의 독창적인 적용
  • NGS 기술은 SNP분석, genome resequencing 이외에도 많은 분석에 적용됨
    • ex) cDNA의 NGS는 transcriptome의 포괄적인 요약, genome annotation, splicing의 다양성 확인 가능

NGS Platforms

  • Roche 4454, Illumina Genome Analyzer, ABI SOLiD
  • Table 1 attachment:table1.jpg

  • 기술이 발전하면서 sequencing 가격은 낮아지고, read length의 길이는 길어짐
  • Roche 4454, Illumina Genome Analyzer, ABI SOLiD는 sequencing 전 amplification 과정을 거침
  • Helicos sequencing 기술은 amplification 과정을 거치지 않고, sequencing data를 제공
  • Illumina GA, ABI SOLiD의 데이터 분석을 위한 bioinformatics 연구는 Helicos 데이터에도 사용가능
  • Nanopore 기술, tunneling electron microscopy에 기초한 다른 방법들도 제안됨
  • Illumina GA, Roche 454가 template molecule을 증폭하고 시퀀싱하는 혁신적인 기술을 사용하지만 근본적으로는 Sanger 방법론에서 사용된 'Sequencing by extension'의 기초적인 이론을 사용. ABI SOLiD는 염기마다 다른 네 가지의 색깔로 구분하고 정확성이 높음

Mapping simulation

  • RNA-Seq transcriptome sequencing 연구하기 위해 세 가지 프로그램 선택(SOAP, BOWTIE, PASS) -> 각 프로그램은 reference sequence와 최대한 match되고 mismatch는 최대 2개까지 찾을 수 있도록 파라미터 설정

  • SOAP : 속도가 빠름
  • BOWTIE : 낮은 맵핑 속도로 99.99%의 정확도
  • PASS : SOAP보다는 빠르지만 메모리가 많이 요구됨

Metagenomics and the de novo assembly of short sequence reads

  • 지금까지 reference genome sequence에 이용 가능한 mapping NGS data에 의존한 적용을 고려해왔음
  • Bacterial genome에서는 genome sequence를 assemble하는데 short reads가 효과적임
  • Metagenomics, microbial community analysis는 NGS로 다뤄지지 않았음
  • Aligner와 de novo assembler는 계속 발달(진보)중이며, 이용 가능한 de novo short read assembler는 근본적인 기술로 활용함
  • Metagenomics 문맥에서 contig assembly 수행 후 high-throughput identification과 phylogenetics 전략은 microbial communities를 재구성하기 위해 필요함
  • Atlas, ARACHNE, PCAP, Phusion은 whole-genome의 shotgun fragment를 assembly하는 툴이며, NGS platform이나 높은 에러율에 의해 생산된 reads는 다루기 어려움
  • NGS data의 de novo assembly가 가능한 application: QSRA, ALLPATHS, Velvet, EDENA, VCAKE, SHARCGS, EULER-SR, SSAKE, VCAKE, SSAKE, Velvet -> De Bruijn graphs 사용(overlapping reads의 분포를 요약하기위해)

  • QSRA VS. EDENA, Velvet, SSAKE, VCAKE
  • EDENA, Velvet : 낮은 genomic coverage에서 긴 contig를 산출
  • QSRA, SSAKE, VCAKE : 짧은 contig 산출
  • Short-read Assembler based on Robust Contig extension for Genome Sequencing(SHARCGS) 알고리즘은 매우 짧은 reads를 assembly 할 수 있고, sequencing 에러를 관리할 수 있음

Detection of SNPs and editing sites by NGS technologies

  • SNP는 인간에게서 나타나는 가장 혼한 genetic 형태로 DNA -> RNA -> Protein으로 변할 때 맵핑할 수 있는 genetic trait.

  • SNP는 high-throughput sequencing project의 데이터를 사용하여 찾고, read는 해당하는 genomic reference에 align하고, sequencing error는 quality score를 사용하여 genetic variation을 알아봄
  • SNP라고 할 수있는 가능성은 POLYBAYES같은 Bayesian inference statistics 툴을 사용할 수 있음
  • NGS 플랫폼은 증가된 sequencing depth 덕분에 SNP를 정확하게 detection 가능
  • 모든 NGS 기술은 mammalian genome에서 SNP라고 추론되어옴
  • Hign-throughput strategy중에 SOLiD는 color-space 시스템이 진짜 variation으로부터 sequencing error를 구분할 수 있음
  • Roche 454 reads는 낮은 coverage로 높은 퀄리티를 제공
  • Homopolymeric strings가 존재할 때 pyrosequencing은 SNP detection에서 biases로 소개될 수 있음

Large-scale transcriptome analysis by RNA-Seq

  • NGS 플랫폼은 transcriptome 분석에 적합
  • Transcriptome의 포괄적인 이해를 얻기 위해서 전체 RNA의 랜덤 증폭이 시작됨

CHiP-Seq

Small RNAs

Epigenomics studies

  • DNA Methylation과 Demethlylation은 동 식물에게 중요한 메커니즘

CodesDivision/Seminar/Brief_Bioinform_2009_Vol2_No2_181 (last edited 2012-03-17 18:02:02 by localhost)










  • Immutable Page
  • Info
  • Attachments