연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
  7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 Semantic Network for Integrated Biology Data에 대해 알아보겠습니다.



3-3. Semantic Network for Integrated Biology Data

 
 여있는 유전체 데이터와 각종 실험을 통해서 얻어진 수많은 데이터 사이에서 새롭게 응용할 수 있는 지식은 무엇일까? 인터넷이 발달된 최근에는 인터넷 쇼핑이 괄목할 만한 성장을 보이고 있으며, 고객들에게 좀 더 좋은 정보를 제공하고자 다양한 알고리즘 및 분석기법을 적용하고 있다. 예를 들어서 상품을 주문한 고객의 구매 목록에 대한 특징을 찾아서 비슷한 성향의 신제품이 있으면 자동으로 고객에게 이메일로 상품광고를 전달하는 것과 같은 맞춤형 광고기법이 한 예일 것이다.

이와 맞물려 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 방법을 찾고자 하는 연구들이 진행되고 있으며, 이와 관련한 의미론적 지식 정보 추출을 위한 시스템이 개발되고 있다. 또한 최근의 연구 동향은 단순히 데이터를 생성하고 쌓아두는 것 보다 각 생물학 데이터들의 연관관계를 도출하여 어떻게 각 데이터들을 연결하여 새로운 정보를 발굴할 것인가라는 ‘How to link between the data’에 초점이 맞추어져 있다.

축적된 생물학 데이터에서 새로운 의미를 발굴할 수 있도록 지원하는 시스템 가운데 Biomax Informatics AG사 BioXM 지식관리 시스템을 꼽을 수 있다. BioXM 은 연구실 및 센터의 다양한 생물, 생명, 의학 관련 데이터에서 의미론적 정보를 추출할 수 있도록 데이터의 시맨틱 네트워크를 구축하는 플랫폼이다(그림 2).

사용자 삽입 이미지
그림 2. 데이터의 시멘틱 네트워크 흐름도

이미 미국 국립암센터(NCI)와 연계하여 시스템을 운용, 활용하여 암에 관련된 실험정보 및 분석정보, 문헌정보를 통합한 시스템을 구축한 바 있다(그림 3).

사용자 삽입 이미지
그림 3. BioXM의 데이터 통합 개념

이와 같은 지식관리 시스템은 기존에 구축한 수많은 실험정보, 분석정보, 문헌정보들 사이의 연관관계를 도출하여 새로운 의미를 찾고자 하는 바램을 충족시켜준다. 대다수의 시스템들이 RDBMS 형식의 데이터베이스로 구축되어 있으므로, 모든 데이터의 통합에 의한 새로운 형태의 의미를 발굴하기 위해서는 기존 시스템보다 더 확장된 형태의 데이터베이스 구축 및 IT 시스템 구축이 선행되어진다. 하지만 이와 같이 단순히 시스템의 확장 구축을 통해서는 얻어질 수 있는 데이터의 유기적 연관관계는 한계를 보이게 된다. 또한 데이터베이스의 확장이 진행될수록 생물학자들의 지식이 더 많이 요구되지만 IT와 BT 전문가의 상호 생각의 차이로 인해 최종적으로는 생물학자들이 원하는 형태가 아닌 별개의 시스템으로 구축되는 경우가 다반사이다. 이에 반해 BioXM 지식관리 시스템은 기존 데이터들을 새로운 데이터베이스 스키마를 설계하여 통합 연계하는 것이 아니라 각 생물학 데이터의 기존 의미를 알고 있는 연구자가 퍼즐을 맞춰가는 방식과 같이 edge와 node의 꼬리에 꼬리를 무는 방식으로 데이터들을 선택하여 서로 연계된 데이터들을 통합하고 관리하는 지식관리시스템이다. 이와 같은 방식으로 BioXM은 Genomics, Transcriptomics, Proteomics 등 다양한 omics 데이터들과 문헌정보 등을 손쉽게 통합할 수 있을 뿐만 아니라 다양한 방법으로 데이터를 조합하여 연구자가 알고자 원하는 질문에 알맞은 답을 얻도록 지원한다.

사용자 삽입 이미지
그림 4. Object와 Relation에 대한 개략적인 데이터 모델


그림 5는 환자에 관한 질병과 질병에 관련된 유전자와 대상 약물 및 임상실험과 같은 다양한 정보를 이용하여 그래픽 사용자 인터페이스 형태로 모델링을 구현한 사례를 보이고 있다. 지금 그림에서 보이고 있는 데이터 이외에 다양한 정보가 있을 경우에도 동일한 방법으로 모델링을 구현하여 좀 더 폭넓은 데이터 연관 관계도를 생성할 수 있다.

사용자 삽입 이미지
그림 5. BioXM 데이터 모델링 구현


BioXM 지식관리 시스템의 특징 및 장단점은 표 1과 같다.

사용자 삽입 이미지
암을 연구하는 연구자들은 자신이 가지고 있는 데이터를 이용하여 다음과 같은 다양한 궁금증을 표현할 수 있으며, BioMax사의 BioXM과 같은 시스템을 이용하여 각 데이터들의 네트워크를 구축하면 궁금증에 대한 답변을 얻을 수 있을 것이다. 이와 같은 지식 발굴 시스템은 다음과 같은 문제점을 해결하는데 도움을 줄 수 있다(그림 6).

사용자 삽입 이미지
사용자 삽입 이미지
그림 6. BioXM 시스템을 이용한 지식 네비게이션


다음 연재에서는 현재까지 공개  데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 Gene Network Discovery by Text-mining에 대해 알아보겠습니다. 많은 관심 부탁드립니다.



Posted by 人Co

2010/04/01 15:00 2010/04/01 15:00

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 NGS Application의 마지막 내용으로 Next Generation Sequencing 데이터를 분석하고 처리하기 위해서 이에 적합한 새로운 형태의 생물정보학인 'Next Generation Bioinformatics'에 대해 알아보겠습니다.


3-1. Next Generation Bioinformatics

 
 Applied Biosystems, Illumina 그리고 Roche 등과 같은 분석장비 개발회사에서 출시한 Next Generation Sequencers의 출현으로 전통적인 유전체 데이터 분석법에 새로운 변화와 도전이 요구되고 있다. 이러한 Sequencer들은 전에는 생각할 수 없었던 많은 양의 시퀀스 데이터를 쏟아내고 있고 이것은 생물정보학과 전산 생물학에 다양한 변화와 혁신을 초래하였다.

 Next Generation Sequencing 데이터를 분석하고 처리하기 위해서 이에 적합한 새로운 형태의 생물정보학, 즉 ‘Next Generation Bioinformatics’에 대한 준비를 해야 할 것이다. NGS 데이터를 다룰 수 있는 충분한 저장장치, 관리 솔루션 그리고 생물정보학 분석 파이프라인 구축이 성공적인 NGS 연구에 필수적인 요소이다.

 현재 대다수의 생물정보학 전문가들은 생물학자들이 다루기 힘든 커맨드 라인 방식의 데이터 처리로 실험 연구자들과의 분석 결과 검토를 위한 자료를 따로 작성하고 있다. 이는 생물학 데이터가 NGS의 도입에 의해 폭발적으로 증가된 상황에서는 매우 소모적인 것으로 실험 연구자들이 쉽게 분석결과를 검토하고 판별할 수 있는 플랫폼 개발이 요구되며, 직관적이거나 그래픽 사용자 인터페이스에 대한 요구를 좀 더 다양하게 충족시켜야 함을 나타낸다. 뿐만 아니라 대부분의 초기 분석이 리눅스와 같은 유닉스 환경에서 이뤄지고 있고, 생물학적 의미론을 분석하는 단계에서는 대부분 실험 연구자들이 이용하는 윈도우 환경에서 이뤄지므로 이들 간의 유기적인 데이터 교류를 위한 포맷 변화도 필요한 실정이다. 따라서 운영체제에 상관없이 NGS 데이터를 분석할 수 있으며, 서로 다른 운영체제에서도 데이터를 자유롭게 입출력을 할 수 있는 시스템 마련이 필요하다. 또한 공동 연구 및 컨소시엄을 통한 분석 방법이 늘어나는 추세이므로, 분석 데이터를 공동으로 관리할 수 있는 데이터베이스의 구성, 분석 프로그램의 표준화 및 정규화 그리고 많은 프로그램들을 연계한 효율적인 데이터 분석 파이프라인 구축 또한 요구된다.

앞으로 NGS 데이터는 임상 진단과 개인 맞춤 의약 연구에 직접적으로 이용되어질 전망이다. 이에 앞서 언급된 차세대 생물정보학에 대한 다양한 요구들이 쏟아질 것이다. 이러한 문제들이 해결되지 않는다면 조만간 생물정보학이 생물학 관련 연구에 큰 걸림돌이 될 수 있을 것이다[1].
 

다음 연재에서는 웹 2.0 시대에 맞추어 다양한 분야에서 생산된 데이터를 효율적으로 관리하는 방법에 대해 알아보겠습니다.  많은 관심 부탁드립니다.



참고문헌

1. Kwok-Wing Stephen Tsui (2009) Next Generation DNA Sequencing and Bioinformatics: Bottlenecks and Opportunities. The Third International Symposium on Optimization and Systems Biology

Posted by 人Co

2010/03/29 17:30 2010/03/29 17:30
, , , , , , , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/64

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 서로 다른 종간의 상응하는 유전자 조합 및 구성을 분석하여 진화론적인 유연관계를 밝히는 비교유전체 분석에  대해 알아보겠습니다.


B. 비교유전체 분석


 로 다른 종간의 상응하는 유전자 조합 및 구성을 분석하여 진화론적인 유연관계를 밝히는 비교유전체 분석의 가장 기본적인 분석은 ortholog 분석이다. Ortholog란 한 개체가 진화되어 여러 종으로 분화되었을 때, 유전자의 기능이 그대로 보존되어 서로 유사한 기능을 수행하는 것을 의미한다. 미생물의 경우 단순 ortholog 분석에서 확장되어 오페론 단위의 유전자 그룹을 유전체 상의 위치 정보와 함께 분석하는 Positional linkage 방법이 매우 정확하게 분석되고 있다(그림 10).

사용자 삽입 이미지
그림 10. Positional linkage. 미생물의 경우 보통 operon상에서 유사한 기능을 수행하는 단백질들끼리 서로 이웃하여 존재하므로 이를 positional linkage를 통해 정보를 확인한다.

 화론적인 연관관계 분석 시 이웃하고 있는 유전자의 배열과 조성을 통해 종간 변이 단계를 분석하게 된다. 좀 더 나아가 특정 ortholog 그룹의 유전자들의 존재 유무를 다수의 종에서 분석하여 프로파일링을 수행하고 그 프로파일을 이용하여 유연관계를 밝히는 phylogenetic 프로파일링 기법도 최근 매우 정확히 유전자의 기능을 예측하는 알고리즘으로 알려지고 있다. 비슷한 단백질 프로파일을 갖는 것은 비슷한 기능을 갖는다는 의미를 보여주기 때문에 유전자 기능 분석 시 이용되고 있다(그림 11).
사용자 삽입 이미지
그림 11. Phylogenetic 프로파일링



다음 연재에서는 수학적 알고리즘에 의한 유전자 예측으로 생각할 수 없었던 예외적인 사항이 많이 발생한다.  이러한 부분을 실제 유전자의 구조를 하나씩 살펴가며 수정 작업을 거치는 Professional Curation에 대해 알아보겠습니다. 많은 관심 부탁드립니다.


참고문헌

 1. Lowe, T.M. and Eddy, S.R. (1997) tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Res. 25, 955-964.
 2. Lewis SE, et al. (2002). Apollo: a sequence annotation editor. Genome Biology. 12, research0082
 3. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 13, 229-243
 4. Stanke M, Schoffmann O, Morgenstern B, Waack S. (2006) Gene prediction in eukaryotes with a generalized hidden Markov model that uses hints from external  
 sources. BMC Bioinformatics. 7, 62. 
 5. Burge, C. and Karlin, S. (1997) Prediction of complete gene structures in human genomic DNA.  J. Mol. Biol.   268,  78-94.
 6. Salamov AA, Solovyev VV. (2000) Ab initio gene finding in Drosophila genomic DNA. Genome Res. 10, 516–522.
 7. Majoros, W.H., Pertea, M., and Salzberg, S.L. TigrScan and GlimmerHMM: two open-source ab initio eukaryotic gene-finders Bioinformatics 20, 2878-2879.
 8. G. Parra, E. Blanco, and R. Guigó, (2000) Geneid in Drosophila Genome Research 4, 511-515.
 9. Haas BJ, Salzberg SL, Zhu W, Pertea M, Allen JE, Orvis J, White O, Buell CR, Wortman JR. (2008) Automated eukaryotic gene structure annotation using  
 EVidenceModeler and the Program to Assemble Spliced Alignments. Genome Biology 9, R7
 10. Korf I. (2004) Gene finding in novel genomes. BMC Bioinformatics. 5, 59.
 11. Kan, Z., Rouchka, E.C., Gish, W., and States, D. 2001, Gene structure prediction and AS analysis using genomically aligned ESTs, Genome Res. 11, 889–900.
 12. Eyras, E., Caccamo, M., Curwen, V., and Clamp, M. 2004, ESTGenes: AS from ESTs in Ensembl, Genome Res. 14, 976–987.
 13. Kent, W.J. 2002, BLAT-The BLAST-Like Alignment Tool, Genome Res. 12, 565–664.
 14. Florea, L., Hartzell, G., Zhang, Z., Rubin, G.M., Miller, W. 1998, Computer program for aligning a cDNA sequence with a genomic DNA sequence, Genome Res. 8,
 967–974.
 15. Huang X, Adams MD, Zhou H, Kerlavage AR. (1997) A tool for analyzing and annotating genomic sequences. Genomics. 46, 37–45.
 16. Wu TD, Watanabe CK. (2005) GMAP: a genomic mapping and alignment program for mRNA and EST sequences. Bioinformatics. 21, 1859–1875.
 17. Birney E, Clamp M, Durbin R. (2004) GeneWise and Genomewise. Genome Res. 14, 988–995.

Posted by 人Co

2010/03/24 10:32 2010/03/24 10:32
, , , , , , , , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/62

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 유전자의 기능을 분석하는 Functional annotation 중에 먼저 상동성 기반의 Annotation에  대해 알아보겠습니다.

2-4-2. Functional annotation


 A. 상동성(homology) 기반의 Annotation


 전체 서열에서 유전자의 위치와 구조 정보를 파악하여 유전자의 서열을 분석한 뒤 그 서열 정보를 통해 유전자의 기능을 유추 한다. 가장 보편적으로 유전자의 기능을 분석하는 방법이 상동성 기반의 분석이다. 다만, 상동성 분석에 기반한 유전자 기능 유추 시 사용되는 데이터베이스에 따라 노이즈 발생률이 차이가 나므로 데이터베이스 구축에 많은 노력을 기우려야 한다. 분석하려고 하는 종과 동일한 종의 단백질 서열을 1차 데이터베이스로 구축하고 다음으로 유연  관계가 가까운 종을 대상으로 2차 데이터베이스를 만드는 피라미드 형태의 데이터베이스 구축이 필요하다. 또한 각 데이터베이스에 맞는 상동성 경계 값(cutoff) 조정이 필요하다. 단백질 수준에서의 상동성은 보통 높게는 1e-200에서 낮게는 1e-4 까지 적절한 수준으로 조정을 하게 된다. 그러나 DAN 수준에서의 상동성은 아무리 높은 e-value 경계 값이라도 신뢰할만한 정보가 되지 않는다고 말한다. 따라서 e-value 뿐만 아니라 identity, HSP coverage 등이 상동성 레벨을 정하는 기준이 되기도 한다.

 석에 이용되는 데이터베이스는 그 특성에 따라 약간의 차이가 있다(표 1). 단백질의 기능 규명을 위해 단백질의 1차 구조인 서열 정보부터 2차 구조정보인 도메인 정보, 3차 구조정보에 해당하는 PDB 정보 등 다양한 데이터베이스가 이용된다. 뿐만 아니라 세포내 위치 정보를 통해 기능을 유추하기도 하므로 세포내 위치 정보까지 가능한 모든 정보를 분석할 수 있는  흡사 유전자 기능 백화점과 같은 유전자 기능에 대한 정보 분석이 요구된다. 이러한 통합적인 유전자 기능 분석을 수행하기 위해서는 다양한 알고리즘과 데이터베이스, 분석 프로그램들의 유기적인 네트워크가 구축되어야 하며, 수많은 데이터의 입출력이 이루어지므로 데이터의 효율적인 관리를 위한 시스템도 연계되어야 되므로 상당히 복잡한 대규모 분석 시스템이 요구된다. BioMax사에서는 초기 인간 유전체 기능 분석부터 수백 종의 미생물, 다양한 척추동물, 식물 등의 기능 분석을 수행한 Pedant-Pro(http://www.biomax.com/products/pedantpro.php)라는 유전체 구조, 기능 분석 자동화 시스템을 서비스하고 있다.

사용자 삽입 이미지

Pedant-Pro에서는 크게 세 가지 카테고리로 구성된 데이터베이스를 통해 단백질의 기능을 규명하고 있다. 첫 번째, 단백질의 1차 구조인 서열정보를 이용한 분석으로 GO, MetaCat, FunCat, EC, COGs 데이터베이스를 활용한다(표 2).

사용자 삽입 이미지
단백질의 기능 분석은 DAG 구조를 이용한 계층화 방법으로 다중 기능을 수행하는 단백질의 특성에 맞게 GO와 FunCat을 이용하고 있으며, 그 중 MetaCat은 metabolization 분석에 이용되며 EC는 단백질의 enzymatic function에 각각 초점을 두어 이차적인 세포내 대사회로 분석의 기초자료를 제공하고 있다. COGs는 종간의 ortholog 그룹 정보를 데이터베이스로 구축한 것으로 유사 기능을 갖는 단백질들을 그룹화하여 기능을 유추하는데 도움을 주고 있다. 두 번째로는 단백질의 이차구조정보를 이용한 분석이다. 단백질의 hydrophobicity에 기반을 둔 transmembrane helice 및 site prediction을 수행하는 HMMTOP, TMHMM 그리고 단백질의 signal peptides 및 cleavage site를 예측하는 SignalP 분석이 이에 해당된다.

사용자 삽입 이미지
그림 8. Pedant-Pro 유전자 기능 분석 결과 리포트.
Pedant-Pro의 유전자 구조, 기능 분석 리포트는 웹으로 확인할 수 있으며, 윈도우 방식의 디렉토리/폴더 구조로 각 분석 결과들이 구성되어 있으므로, 연구자가 쉽게 다양한 정보를 습득할 수 있다. 분석 결과 리포트는 다양한 공개 데이터베이스와의 연계 정보와 단백질의 도메인 정보, FunCat과 같은 기능 분류 정보등과 같은 다양한 특징적인 정보들을 볼 수 있다. 또한 단백질의 1차, 2차, 3차 구조에 대한 정보와 단백질의 Paralog 클러스터 정보 등을 확인할 수 있다.

 단백질의 서열 정보에 기반하여 얻어진 단백질 내의 도메인 정보는 프로파일 과정을 통해 서로 비슷한 도메인 프로파일을 갖는 단백질들 간의 클러스터 분석에 이용된다. 단순 서열 상동성에서 벗어나 좀 더 구체화된 기능을 중심으로 유전자의 기능을 유추하는 방법을 Pedant-Pro에서 제시하고 있다(그림 9). 유사한 방법으로 synteny 구조를 이용한 ortholog 분석이 있다.  유연관계가 가까운 종과의 synteny 분석을 이용해 유전자의 기능 뿐 아니라 염색체 내의 물리적 위치정보까지 이용하여 유전자의 기능을 규명하게 된다. 이들 방법들은 종간 ortholog 분석에 기초한 비교유전체 분야에 주로 이용되며 그 자세한 내용은 다음에서 다루도록 한다.
사용자 삽입 이미지
그림 9. 도메인 profile을 이용한 protein cluster 분석

다음 연재에서는 서로 다른 종간의 상응하는 유전자 조합 및 구성을 분석하여 진화론적인 유연관계를 밝히는 비교유전체 분석에  대해 알아보겠습니다. 많은 관심 부탁드립니다.



참고문헌

 1. Lowe, T.M. and Eddy, S.R. (1997) tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Res. 25, 955-964.
 2. Lewis SE, et al. (2002). Apollo: a sequence annotation editor. Genome Biology. 12, research0082
 3. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 13, 229-243
 4. Stanke M, Schoffmann O, Morgenstern B, Waack S. (2006) Gene prediction in eukaryotes with a generalized hidden Markov model that uses hints from external  
 sources. BMC Bioinformatics. 7, 62. 
 5. Burge, C. and Karlin, S. (1997) Prediction of complete gene structures in human genomic DNA.  J. Mol. Biol.   268,  78-94.
 6. Salamov AA, Solovyev VV. (2000) Ab initio gene finding in Drosophila genomic DNA. Genome Res. 10, 516–522.
 7. Majoros, W.H., Pertea, M., and Salzberg, S.L. TigrScan and GlimmerHMM: two open-source ab initio eukaryotic gene-finders Bioinformatics 20, 2878-2879.
 8. G. Parra, E. Blanco, and R. Guigó, (2000) Geneid in Drosophila Genome Research 4, 511-515.
 9. Haas BJ, Salzberg SL, Zhu W, Pertea M, Allen JE, Orvis J, White O, Buell CR, Wortman JR. (2008) Automated eukaryotic gene structure annotation using  
 EVidenceModeler and the Program to Assemble Spliced Alignments. Genome Biology 9, R7
 10. Korf I. (2004) Gene finding in novel genomes. BMC Bioinformatics. 5, 59.
 11. Kan, Z., Rouchka, E.C., Gish, W., and States, D. 2001, Gene structure prediction and AS analysis using genomically aligned ESTs, Genome Res. 11, 889–900.
 12. Eyras, E., Caccamo, M., Curwen, V., and Clamp, M. 2004, ESTGenes: AS from ESTs in Ensembl, Genome Res. 14, 976–987.
 13. Kent, W.J. 2002, BLAT-The BLAST-Like Alignment Tool, Genome Res. 12, 565–664.
 14. Florea, L., Hartzell, G., Zhang, Z., Rubin, G.M., Miller, W. 1998, Computer program for aligning a cDNA sequence with a genomic DNA sequence, Genome Res. 8,
 967–974.
 15. Huang X, Adams MD, Zhou H, Kerlavage AR. (1997) A tool for analyzing and annotating genomic sequences. Genomics. 46, 37–45.
 16. Wu TD, Watanabe CK. (2005) GMAP: a genomic mapping and alignment program for mRNA and EST sequences. Bioinformatics. 21, 1859–1875.
 17. Birney E, Clamp M, Durbin R. (2004) GeneWise and Genomewise. Genome Res. 14, 988–995.

Posted by 人Co

2010/03/22 11:19 2010/03/22 11:19


연재 순서

   1. Assembly
   2. Variation study
  3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 유전자 예측 프로그램과 단백질 서열을 유전체에 매핑하여 얻어진 Gene Model을 결합하는 유전체 모델의 결합(Gene model merging)에 대해 알아보겠습니다.

B-3. 유전체 모델의 결합(Gene model merging)


 서 설명한 유전자 예측 프로그램을 통해서 얻어진 Predicted Gene Model(PGM)과 mRNA, EST, 단백질 서열을 유전체에 매핑하여 얻어진 Evidenced Gene Model(EGM)을 합쳐 Consensus Gene Model(CGM)을 만든다. 각 유전자 모델마다 가중치를 다르게 설정하여 동일한 위치에서 중복적으로 지지를 받아 높은 score 합계를 갖는 유전자 모델이 CGM으로 채택이 된다[3].

 일반적으로 EGM이 PGM 보다 높은 가중치를 가지며 EGM 가운데에서도 full-length mRNA > protein> mRNA > EST 순으로 우선 순위를 배정한다. PGM도 evaluation을 통해 프로그램별 우선순위를 정해주기도 한다. CGM을 만드는 과정은 full-length mRNA를 가장 우선 순위로 채택하되, full-length mRNA가 없을 경우 단백질과 EST, PGM이 제공하는 정보를 통해 complete CGM을 형성한다(그림 5).

그림 5. Consensus Gene Model making


 몇 가지 예시를 통해 대표 되는 유전자 모델 형성 과정을 알아보도록 하자.
첫 번째 full-length mRNA를 통해 얻어진 EGM이 partial 단백질과 ESTs에 의해 공통적으로 exon/intron 정보를 제공 받아 complete CGM을 형성하였다(그림 6의 case1). 다음은 mRNA EGM이 없고 단백질 EGM이 가장 높은 가중치를 갖는 유전자 모델이 되어 EST 가 제공하는 3’ 정보를 통해 complete CGM을 형성한 경우 이다. 이때 EST EGM은 단백질 EGM의 partial 형태로 동일한 exon/intron 구조를 보이고 있다. 세 번째는 mRNA, 단백질 모두 존재하지 않고 partial ESTs EGM 만 존재할 때 EST EGM 하나 하나는 모두 낮은 가중치이나 동일한 위치에서 동일한 exon/intron 구조로 여러 ESTs EGM이 지지하고 있으므로 CGM을 형성할 수 있다. 또한 일정부분 동일한 유전자 구조를 갖는 PGM으로부터 3’ 정보를 제공 받아 complete CGM을 형성하였다. 마지막 네 번째 경우 세 번째 경우와 동일하게 PGM과 EST EGM이 존재하는 가운데 두 gene model이 서로 상이한 exon/intron구조를 보이고 있어 어떠한 CGM도 만들 수 없는 상황을 보여주고 있다. 만약 PGM 만이 존재할 경우라도 여러 프로그램을 통해 얻어진 PGM이 모두 동일한 exon/intron 구조를 갖는다면 CGM을 형성 할 수 있다. 대부분의 genome annotation에서 evidence 데이터를 충분히 갖추고 진행되기란 쉽지 않다. 따라서 종종 Evidenced Gene Model(EGM) 없이 Predicted Gene Model(PGM) 만으로 Consensus Gene Model(CGM)을 만드는 경우가 존재한다.

그림 6. Consensus gene model 만들기

이러한 유전자 모델을 형성하는 프로그램으로는 Tigr에서 공개 소스로 제공하는 EVModeler[9]가 있다. Perl 스크립트로 구성된 프로그램은 GFF3 포맷의 gene model 정보를 입력받아 정해진 gene model별 가중치를 토대로 Consensus Gene Model을 제시한다.
 

C. Alternative splicing analysis


다양한 유전자 모델을 통해 Consensus Gene Model을 형성하고 나면 이후 alternative splicing 분석을 위해 transcripts를 분석한다[12]. mRNA, ESTs, 단백질, NGS reads 서열이 제공하는 다양한 transcripts를 consensus gene model (CGM)에 비교하여 alternative transcript model을 제시 한다. 이후 조직 특이적인 alternative transcripts나 cancer specific alternative transcripts 분석으로 biological meaning에 초점을 두고 분석을 진행하게 된다[3].

그림 7. Alternative splicing 분석



다음 연재에서는 유전자의 기능을 분석하는 방법 중에 먼저 상동성 기반의 Annotation에  대해 알아보겠습니다. 많은 관심 부탁드립니다.


참고문헌

 1. Lowe, T.M. and Eddy, S.R. (1997) tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Res. 25, 955-964.
 2. Lewis SE, et al. (2002). Apollo: a sequence annotation editor. Genome Biology. 12, research0082
 3. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 13, 229-243
 4. Stanke M, Schoffmann O, Morgenstern B, Waack S. (2006) Gene prediction in eukaryotes with a generalized hidden Markov model that uses hints from external  
 sources. BMC Bioinformatics. 7, 62. 
 5. Burge, C. and Karlin, S. (1997) Prediction of complete gene structures in human genomic DNA.  J. Mol. Biol.   268,  78-94.
 6. Salamov AA, Solovyev VV. (2000) Ab initio gene finding in Drosophila genomic DNA. Genome Res. 10, 516–522.
 7. Majoros, W.H., Pertea, M., and Salzberg, S.L. TigrScan and GlimmerHMM: two open-source ab initio eukaryotic gene-finders Bioinformatics 20, 2878-2879.
 8. G. Parra, E. Blanco, and R. Guigó, (2000) Geneid in Drosophila Genome Research 4, 511-515.
 9. Haas BJ, Salzberg SL, Zhu W, Pertea M, Allen JE, Orvis J, White O, Buell CR, Wortman JR. (2008) Automated eukaryotic gene structure annotation using  
 EVidenceModeler and the Program to Assemble Spliced Alignments. Genome Biology 9, R7
 10. Korf I. (2004) Gene finding in novel genomes. BMC Bioinformatics. 5, 59.
 11. Kan, Z., Rouchka, E.C., Gish, W., and States, D. 2001, Gene structure prediction and AS analysis using genomically aligned ESTs, Genome Res. 11, 889–900.
 12. Eyras, E., Caccamo, M., Curwen, V., and Clamp, M. 2004, ESTGenes: AS from ESTs in Ensembl, Genome Res. 14, 976–987.
 13. Kent, W.J. 2002, BLAT-The BLAST-Like Alignment Tool, Genome Res. 12, 565–664.
 14. Florea, L., Hartzell, G., Zhang, Z., Rubin, G.M., Miller, W. 1998, Computer program for aligning a cDNA sequence with a genomic DNA sequence, Genome Res. 8,
 967–974.
 15. Huang X, Adams MD, Zhou H, Kerlavage AR. (1997) A tool for analyzing and annotating genomic sequences. Genomics. 46, 37–45.
 16. Wu TD, Watanabe CK. (2005) GMAP: a genomic mapping and alignment program for mRNA and EST sequences. Bioinformatics. 21, 1859–1875.
 17. Birney E, Clamp M, Durbin R. (2004) GeneWise and Genomewise. Genome Res. 14, 988–995.

Posted by 人Co

2010/03/19 10:24 2010/03/19 10:24

연재 순서

   1. Assembly
   2. Variation study
  3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 유전자 모델을 얻는 과정으로 서열 정보를 이용하여 유전체를 정렬(Genome alignment)하는 방법에 대해 알아보겠습니다.


B-2. 유전체 정렬(Genome alignment)


 전체 상에서 유전자의 위치 및 구조 정보를 파악하는데 가장 중요한 정보를 제공하는 것이 mRNA를 비롯한 실제 서열정보이다. 유전체 프로젝트를 수행하면서 Full-length mRNA 시퀀싱을 함께 진행하는 이유라고 할 수 있다. 그 외 단백질과 ESTs 서열도 유전자 구조 정보를 제공하는 좋은 재료이다[11]. 최대한 많은 양의 실제 데이터(evidence data)를 확보하여 유전체 서열과의 유사성(similarity)을 조사하고 그 위치를 파악한다. DNA 서열의 경우 BLAT[13], Sim4[14], GMAP[16], AAT[15]가 주로 이용되고, 단백질 서열의 경우 BLAST와 wise2 package에 존재하는 Genewise[17]를 이용한다. 유전체 서열이 매우 크므로 일차적으로 빠르게 매핑할 수 있는 BLAT이나 BLAST 등으로 대략의 위치를 설정하고 그 외 다른 프로그램을 이용하여 좀 더 정교한 2차 매핑을 수행하는 경우도 있다.

 이때, 서열상의 유사성에 의해 유전자 모델(Evidenced Gene Model)이 결정되므로 HSP length, coverage, identity와 같은 파라미터 조건을 엄격하게 설정하여 정확한 Evidenced Gene Model(EGM)을 만드는 것이 일반적이다. 또한 언급한 대부분의 프로그램은 모두 exon/intron 신호를 인지하며 local alignment을 수행하고 있어 intron이 존재하는 유전체 서열에 매핑 하기에 모두 적절한 프로그램이다.

 특히 genewise의 경우 매핑과 동시에 가능한 유전자 모델을 제시한다. 따라서 유전체 서열과 유연  관계가 가까운 이종의 단백질 서열을 매핑 하여도 좋은 결과를 얻을 수 있다. 다만, 이후 진행되는 consensus gene model을 만들 때 score를 적절히 조절 해야만 한다. 다양한 프로그램을 통해 얻어진 유전자 모델 정보는 모두 동일한 형태의 파일 포맷을 유지하는 것이 좋다. 대부분의 프로그램이 공통적으로 지원하는 파일 형태는 GFF3 포맷이다(그림 4).

사용자 삽입 이미지
그림. 4 GFF3 파일 포맷.
seqld/source(tool name)/type/start/end/score/strand/phase/attributes



다음 연재에서는 앞서 설명한 유전자 예측 프로그램과 단백질 서열을 유전체에 매핑하여 얻어진 Gene Model을 결합하는 유전체 모델의 결합(Gene model merging)에 대해 알아보겠습니다. 많은 관심 부탁드립니다.




참고문헌

 1. Lowe, T.M. and Eddy, S.R. (1997) tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Res. 25, 955-964.
 2. Lewis SE, et al. (2002). Apollo: a sequence annotation editor. Genome Biology. 12, research0082
 3. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 13, 229-243
 4. Stanke M, Schoffmann O, Morgenstern B, Waack S. (2006) Gene prediction in eukaryotes with a generalized hidden Markov model that uses hints from external  
 sources. BMC Bioinformatics. 7, 62. 
 5. Burge, C. and Karlin, S. (1997) Prediction of complete gene structures in human genomic DNA.  J. Mol. Biol.   268,  78-94.
 6. Salamov AA, Solovyev VV. (2000) Ab initio gene finding in Drosophila genomic DNA. Genome Res. 10, 516–522.
 7. Majoros, W.H., Pertea, M., and Salzberg, S.L. TigrScan and GlimmerHMM: two open-source ab initio eukaryotic gene-finders Bioinformatics 20, 2878-2879.
 8. G. Parra, E. Blanco, and R. Guigó, (2000) Geneid in Drosophila Genome Research 4, 511-515.
 9. Haas BJ, Salzberg SL, Zhu W, Pertea M, Allen JE, Orvis J, White O, Buell CR, Wortman JR. (2008) Automated eukaryotic gene structure annotation using  
 EVidenceModeler and the Program to Assemble Spliced Alignments. Genome Biology 9, R7
 10. Korf I. (2004) Gene finding in novel genomes. BMC Bioinformatics. 5, 59.
 11. Kan, Z., Rouchka, E.C., Gish, W., and States, D. 2001, Gene structure prediction and AS analysis using genomically aligned ESTs, Genome Res. 11, 889–900.
 12. Eyras, E., Caccamo, M., Curwen, V., and Clamp, M. 2004, ESTGenes: AS from ESTs in Ensembl, Genome Res. 14, 976–987.
 13. Kent, W.J. 2002, BLAT-The BLAST-Like Alignment Tool, Genome Res. 12, 565–664.
 14. Florea, L., Hartzell, G., Zhang, Z., Rubin, G.M., Miller, W. 1998, Computer program for aligning a cDNA sequence with a genomic DNA sequence, Genome Res. 8,
 967–974.
 15. Huang X, Adams MD, Zhou H, Kerlavage AR. (1997) A tool for analyzing and annotating genomic sequences. Genomics. 46, 37–45.
 16. Wu TD, Watanabe CK. (2005) GMAP: a genomic mapping and alignment program for mRNA and EST sequences. Bioinformatics. 21, 1859–1875.
 17. Birney E, Clamp M, Durbin R. (2004) GeneWise and Genomewise. Genome Res. 14, 988–995.


Posted by 人Co

2010/03/17 09:31 2010/03/17 09:31

연재 순서

   1. Assembly
   2. Variation study
  3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

A. 반복서열 분석


 핵생물의 유전체 서열 중 반복 서열이 가장 많은 영역을 차지하고 있다. Transposon elements를 포함하여 simple repeat region, low complexity 영역이 전체 유전체의 약 70~ 80% 가량 해당된다. 따라서 반복서열 영역을 우선적으로 선별한 뒤 마스킹 작업을 통해 반복서열 영역에서의 유전자 예측은 예외로 처리한다. 물론, 반복서열 영역 내에도 단백질로 코딩 되는 부분이 존재 하지만, 극히 일부에 해당하기 때문에 추후에 따로 수행한다. 반복서열의 마스킹 작업은 주로 RepeatMasker (http://www.repeatmasker.org/) 분석 프로그램을 이용하여 진행한다. RepeatMasker는 유사성 기반의 검색을 통해 반복서열 데이터베이스에 존재하는 서열과 비교하여 유전체 내에 존재하는 transposon element와 retrotransposon element, rolling circles를 추출하고, TRF(tandem repeat finder)라는 서브 프로그램에 의해 단순반복 서열을 규명한다. 이때 종별로 특이적인 패턴을 가지는 반복서열이 (http://www.girinst.org/) 존재하므로 주기적으로 최신의 반복서열 데이터베이스를 업데이트하여 분석하는 것이 좋다. 2009년 11월 현재 Human을 포함하여 모두 26종에 대한 반복서열 데이터베이스를 제공하고 있으며, 연구자가 원하는 형태의 데이터베이스를 따로 구성하여 사용할 수도 있다. 

B. 유전자 모델링


 단백질로 코딩되는 유전자의 위치를 결정하는 일차적인 단계로 일반적으로 Ab initio 방식과 매핑 방식을 결합하여 사용한다. 이는 수학적 알고리즘을 통해 유전자의 위치를 예측하는 유전자 예측 과정과 실제 시퀀싱하여 밝혀진 mRNA, ESTs, 단백질 서열을 유전체 서열에 매핑하여 유전자 모델을 얻는 과정으로 구성된다.

 B-1. 유전자 예측


 유전자 예측 과정은 대부분 HMM 모델을 이용하여 서열상의 exon과 intron을 예측한다. exon과 intron사이의 ‘GT-AG’라는 splice signal을 인식하고 프로모터 영역과 3’ signal을 인지하는 방식으로 예측을 수행한다. 각 종마다 유전자 모델이 다르므로 정확한 유전자 모델을 설정하고 트레이닝 과정을 통해 종 특이적인 매트릭스를 형성하여 유전자 예측을 수행한다. 이때 예측 프로그램에 따라 연구자가 직접 매트릭스를 생성할 수 있도록 트레이닝을 수행할 수 있는 프로그램을 지원하는 공개용 예측 프로그램(Augustus[4], SNAP[10], GlimmerHMM[7])과 유료로 매트릭스를 구축, 제공하는 유전자 예측 프로그램(Fgenesh[6]), 그리고 주기적으로 업데이트된 매트릭스를 제공하는 프로그램(GeneId[8])으로 구분할 수 있다.  이들 중에서 가장 많이 사용되는 Softberry사의 Fgenesh는 다른 예측 프로그램에 비해서 정확성 및 신뢰성이 높아 국제적인 유전체 프로젝트에서도 이용되고 있다. Fgenesh는 유전자 예측 프로그램에서 가장 핵심이 되는 매트릭스를 제작하여 유료로 서비스하고 있으며, 일반적으로 매트릭스를 제작하는데 약 한 달 정도 분석을 수행한다. 고객은 mRNA, EST, 단백질 서열을 유전체 서열에 매핑 작업을 통해 정확한 유전자 모델을 제공하게 되고, Softberry사에서는 고객이 제공한 데이터와 공개되어 있는 서열을 대상으로 해당 유전체의 대표적인 유전자 모델 집단을 만든 후 매트릭스를 제작하게 된다. 이때, 제작된 매트릭스의 evaluation 자료도 함께 제공한다. 이후 유전자 예측 과정은 리눅스 환경에서 매우 간단하고 빠르게 진행된다. 분석 결과 또한 그림 3에서 보여 지는 것과 같이 유전자별로 TSS(transcription start site), CDS, polyA 등으로 유전체상의 위치 정보와 방향 정보를 알기 쉬운 구조로 제공하고 있다.

사용자 삽입 이미지
그림 3. Fgenesh 분석 결과


공개용 예측 프로그램으로 EBI에서 개발한 GeneId와 고전적인 예측 프로그램인 GenScan, GlimmerHMM과 Augustus 등이 주로 이용된다. 이들 모두 유전자 예측 프로그램의 사용 시에는 간단한 명령어로 유전자 예측을 수행한다. Augustus의 경우 분석 속도가 다른 프로그램들에 비해 느린 단점이 있다. 유전자 예측은 일반적으로 하나의 프로그램만을 사용하지 않고 여러 개의 프로그램을 동시에 사용하여 여러 개의 유전자 예측 모델을 생성한다. 이 후 유전자의 엑손, 인트론 단위로 규정화 되어있는 scoring 방식을 통해 여러 프로그램에서 중복적으로 예측된 유전자 모델을 우선적으로 채택하게 된다. 이러한 scoring 방식은 뒷부분에서 자세히 다루도록 한다.


다음 연재에서는 서열 정보를 이용하여 유전체를 정렬(Genome alignment)하는 방법에 대해 알아보겠습니다. 많은 관심 부탁드립니다.


참고문헌


 1. Lowe, T.M. and Eddy, S.R. (1997) tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Res. 25, 955-964.
 2. Lewis SE, et al. (2002). Apollo: a sequence annotation editor. Genome Biology. 12, research0082
 3. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 13, 229-243
 4. Stanke M, Schoffmann O, Morgenstern B, Waack S. (2006) Gene prediction in eukaryotes with a generalized hidden Markov model that uses hints from external  
 sources. BMC Bioinformatics. 7, 62. 
 5. Burge, C. and Karlin, S. (1997) Prediction of complete gene structures in human genomic DNA.  J. Mol. Biol.   268,  78-94.
 6. Salamov AA, Solovyev VV. (2000) Ab initio gene finding in Drosophila genomic DNA. Genome Res. 10, 516–522.
 7. Majoros, W.H., Pertea, M., and Salzberg, S.L. TigrScan and GlimmerHMM: two open-source ab initio eukaryotic gene-finders Bioinformatics 20, 2878-2879.
 8. G. Parra, E. Blanco, and R. Guigó, (2000) Geneid in Drosophila Genome Research 4, 511-515.
 9. Haas BJ, Salzberg SL, Zhu W, Pertea M, Allen JE, Orvis J, White O, Buell CR, Wortman JR. (2008) Automated eukaryotic gene structure annotation using  
 EVidenceModeler and the Program to Assemble Spliced Alignments. Genome Biology 9, R7
 10. Korf I. (2004) Gene finding in novel genomes. BMC Bioinformatics. 5, 59.
 11. Kan, Z., Rouchka, E.C., Gish, W., and States, D. 2001, Gene structure prediction and AS analysis using genomically aligned ESTs, Genome Res. 11, 889–900.
 12. Eyras, E., Caccamo, M., Curwen, V., and Clamp, M. 2004, ESTGenes: AS from ESTs in Ensembl, Genome Res. 14, 976–987.
 13. Kent, W.J. 2002, BLAT-The BLAST-Like Alignment Tool, Genome Res. 12, 565–664.
 14. Florea, L., Hartzell, G., Zhang, Z., Rubin, G.M., Miller, W. 1998, Computer program for aligning a cDNA sequence with a genomic DNA sequence, Genome Res. 8,
 967–974.
 15. Huang X, Adams MD, Zhou H, Kerlavage AR. (1997) A tool for analyzing and annotating genomic sequences. Genomics. 46, 37–45.
 16. Wu TD, Watanabe CK. (2005) GMAP: a genomic mapping and alignment program for mRNA and EST sequences. Bioinformatics. 21, 1859–1875.
 17. Birney E, Clamp M, Durbin R. (2004) GeneWise and Genomewise. Genome Res. 14, 988–995.

Posted by 人Co

2010/03/16 10:56 2010/03/16 10:56

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis


이번 연재에서는 약 2주에 걸쳐 유전체 내의 유전자 위치와 기능을 해독하는 과정인 Genome Annotation에 대해 연재가 될 예정입니다. 오늘은 Genome Annotation 중에서도 첫번째 단계인 유전체 서열 내에서 유전자의 위치와 구조 정보를 밝혀내는 Structural annotation에 대해 알아보겠습니다.

2-4. Genome Annotation


 2009년 현재 human을 비롯한 mammalian에서 microbial까지 많은 유전체 프로젝트가 완료되었거나 진행되고 있으며, NCBI의 사이트에서 그 내용을 확인할 수 있다. 이렇게 다양한 종에서 완료되었거나 진행 중인 유전체 프로젝트는 NGS 시대를 맞이하여 더욱 가속화 되었다. 유전체 프로젝트는 유전체 서열을 시퀀싱을 통해 추출하는 단계와 유전체 내의 유전자 위치와 기능을 해독하는 단계로 구성된다. 여기서 유전체 내의 유전자 위치와 기능을 해독하는 과정을 genome annotation이라고 정의하며, genome annotation은 세 가지 과정으로 구분할 수 있다. 유전체 내의 유전자에 대한 구조적 정보를 분석하는 structural annotation, 유전자의 기능을 규명하는 functional annotation, 그리고 마지막으로 수학적 알고리즘으로 밝혀지지 않는 부분을 생물학 전문가가 면밀히 분석하는 manual curation 과정으로 구성되어 있다. 이번 장에서는 genome annotation에 대한 세 가지 과정에 대하여 구체적으로 알아보고자 한다.

 2-4-1. Structural annotation

 
 Genome annotation의 첫 번째 단계인 structural annotation은 유전체 서열 내에서 유전자의 위치와 구조 정보를 밝혀내는 것을 목적으로 하여 유전체 서열 전체의 유전자 지도를 완성한다. 유전체 서열에는 실제 단백질을 코딩하는 유전자 영역과 그 외 나머지 영역으로 크게 나눠진다. 그중 유전자는 exon과 intron으로 나눠지고 유전자의 발현을 조절하는 프로모터 영역이 일반적으로 유전자의 앞단에 위치하고 있다(그림 1).

사용자 삽입 이미지
그림 1. Structural annotation.
유전체 내의 유전자의 위치 정보와 상세 구조정보를 규명한다.

 또한 유전체 서열의 상당 부분을 차지하고 있는 반복 서열과 transposon elements 들도 유전체의 다양한 영역에 존재하고 있다. 인간 유전체의 경우 약 30억 쌍의 염기서열 중 실제 단백질로 코딩되는 영역인 엑손 영역은 전체 염기 중 단 1%에 불과하다. 99%의 나머지 서열은 non-cording RNA, intron, repeat, regulation 영역이 대부분 차지하고 있다. 따라서 유전체에서 여러 가지 형태의 서열들에 대한 위치 정보를 다양한 데이터베이스와 알고리즘을 이용하여 분석하고 있으며, 과정은 다음과 같다(그림 2).

사용자 삽입 이미지
그림 2. Structural annotation 워크플로우.
Ab initio 와 유전체 매핑을 결합한 방식.




다음 연재에서는 진핵생물의 유전체 서열 중 가장 많은 영역을 차지하는 반복서열 분석법과 유전자 모델링 중에서 유전자의 위치를 예측하는 유전자 예측에 대해 알아보겠습니다.
많은 관심 부탁드립니다.


참고문헌

 1. Lowe, T.M. and Eddy, S.R. (1997) tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Res. 25, 955-964.
 2. Lewis SE, et al. (2002). Apollo: a sequence annotation editor. Genome Biology. 12, research0082
 3. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 13, 229-243
 4. Stanke M, Schoffmann O, Morgenstern B, Waack S. (2006) Gene prediction in eukaryotes with a generalized hidden Markov model that uses hints from external  
 sources. BMC Bioinformatics. 7, 62. 
 5. Burge, C. and Karlin, S. (1997) Prediction of complete gene structures in human genomic DNA.  J. Mol. Biol.   268,  78-94.
 6. Salamov AA, Solovyev VV. (2000) Ab initio gene finding in Drosophila genomic DNA. Genome Res. 10, 516–522.
 7. Majoros, W.H., Pertea, M., and Salzberg, S.L. TigrScan and GlimmerHMM: two open-source ab initio eukaryotic gene-finders Bioinformatics 20, 2878-2879.
 8. G. Parra, E. Blanco, and R. Guigó, (2000) Geneid in Drosophila Genome Research 4, 511-515.
 9. Haas BJ, Salzberg SL, Zhu W, Pertea M, Allen JE, Orvis J, White O, Buell CR, Wortman JR. (2008) Automated eukaryotic gene structure annotation using  
 EVidenceModeler and the Program to Assemble Spliced Alignments. Genome Biology 9, R7
 10. Korf I. (2004) Gene finding in novel genomes. BMC Bioinformatics. 5, 59.
 11. Kan, Z., Rouchka, E.C., Gish, W., and States, D. 2001, Gene structure prediction and AS analysis using genomically aligned ESTs, Genome Res. 11, 889–900.
 12. Eyras, E., Caccamo, M., Curwen, V., and Clamp, M. 2004, ESTGenes: AS from ESTs in Ensembl, Genome Res. 14, 976–987.
 13. Kent, W.J. 2002, BLAT-The BLAST-Like Alignment Tool, Genome Res. 12, 565–664.
 14. Florea, L., Hartzell, G., Zhang, Z., Rubin, G.M., Miller, W. 1998, Computer program for aligning a cDNA sequence with a genomic DNA sequence, Genome Res. 8,
 967–974.
 15. Huang X, Adams MD, Zhou H, Kerlavage AR. (1997) A tool for analyzing and annotating genomic sequences. Genomics. 46, 37–45.
 16. Wu TD, Watanabe CK. (2005) GMAP: a genomic mapping and alignment program for mRNA and EST sequences. Bioinformatics. 21, 1859–1875.
 17. Birney E, Clamp M, Durbin R. (2004) GeneWise and Genomewise. Genome Res. 14, 988–995.

Posted by 人Co

2010/03/15 13:34 2010/03/15 13:34

[Quipu Issue Paper] Epigenomics Ⅱ - ChIP-seq

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번주 연재에서는 Next Generation Sequencing의 세 번째 Application인 Epigenomics 중에 단백질에 binding된 DNA 서열을 분리하여 NGS 방식의 시퀀싱을 통해 binding site를 동정하는 방법인 CHIP-Seq 분석 방법에 대해 알아보겠습니다.

2-3-2. ChIP-seq


 CHIP(chromatin-immunoprecipitation)은 특정 유전체 영역에 binding 하는 히스톤이나 전사 인자(Transcription Factors, TFs)와 같이 특정 DNA서열에 binding 하는 단백질과 genomic fragments를 분리하기 위해 많이 응용 되어 왔다. 이 기술은 빠르게 발전하여 large-scale의 TF-DNA interactions 혹은 chromatin packaging (histone modification을 통한 genomic DNA와의 packaging) 연구에 중심 기술로 자리 잡았다. CHIP-Seq은 기존의 CHIP-chip에서 보여 지던 해상도의 한계와 chip에 올려 진 프로브에 대한 한계를 극복하는 방법으로 단백질에 binding된 DNA 서열을 분리하여 NGS 방식의 시퀀싱 통해 binding site를 동정하는 방법으로 발전하였다(그림 3). 그 결과 genome wide epigenetic study가 가능하게 되었다.

사용자 삽입 이미지
그림 3. CHIP-Seq을 이용한 단백질 binding site 규명.
Genomic DNA와 특정 단백질의 binding 후 단백질 specific antibody를 이용하여 
분리한다. 이후 단백질을 제거하고 NGS 기술을 이용하여 시퀀싱 한다[5].

 CHIP-seq은 실험적으로 짧은 DNA 절편에 binding하는 특성 때문에 non-specific binding complex의 background 처리가 반드시 필요하다. 이를 해결하기 위해 실험적으로는 antibody 만을 사용한 대조군을 설정하여 비교하는 방법과, 통계학적으로는 주어진 단백질이 주어진 위치에 정확하게 binding 할 확률을 계산하도록 하는 것이다. 이때 genome 전체 서열(g)에 주어진 서열(t)이 정확하게 mapping될 확률은 t/g로 포아송 분포 (poisson distribution) 혹은 negative binomial distribution을 이용하여 추정하게 된다[3].
 이후 consensus binding sequence를 도출하게 되면 이를 데이터베이스로 하여 다른 종의 분석에 이용할 수 있게 된다. 이렇게 TF와 그에 관련된 정보로 전문화 하여 구축된 데이터베이스 중 거의 유일한 곳이 BIOBASETRANSFAC이다(그림4)[6].

사용자 삽입 이미지
그림 4. TRANSFAC.
Transcription factor와 binding site 및 관련
pathway정보를 담고 있는 유일한 TF database.

 TRANSFAC은 genome내의 유전자 upstream 분석에 기초 자료를 제공하여 유전자 조절 메카니즘 분석에 필수적으로 이용되고 있다. 실험적으로 검증된 TF의 정보를 manual curation을 통해 고품질의 데이터를 쌓아가고 있으며, 그간 CHIP-chip 방식의 데이터로 밝혀지던 정보들이 CHIP-seq 방식의 데이터로 전환 되면서 더욱 빠르게 진행되고 있어 이를 이용한 BIOBASE의 데이터베이스 또한 더욱 빠르게 쌓여갈 것으로 예상된다. 뿐만 아니라 이미 human의 경우 모든 유전자의 upstream을 분석하여 binding 가능한 TF를 제공하고 있으며, 이를 이용한 pathway 분석에도 많은 데이터와 분석 프로그램을 제공하고 있다. 그중 TRANSPATH는 affymatrix data를 이용한 발현 분석 시 DEGs의 pathway를 분석하는데 해당 유전자의 upstream에 존재하는 TFs와 관련 pathway를 분석하여 세포내 전체적인 유전자의 기능을 살펴볼 수 있도록 하였다[6].

 이러한 CHIP-Seq은 다양한 플랫폼에서 분석이 가능한 가운데, CLC NGS Cell을 이용하여 assembly를 진행하게 되면 genbank 형식의 ‘.gbk' 파일을 reference로 사용하여 GUI 형태로 유전체 전체의 분포를 확인할 수 있어 데이터 해석의 용이함을 얻을 수 있다(1-2. Assemble 참조). 또한 비슷하게 Illumina의 Genome Analyzer의 경우 ChIP-seq 분석을 통해 얻어진 작은 서열들을 ELAND를 이용하여 유전체에 정렬하게 되고 그 결과는 UCSC genome browser를 통해 유전체 내의 위치와 분포를 확인할 수 있다(그림 5).

사용자 삽입 이미지
그림 5. UCSC genome browser를 통한 TF binding site의 유전체 내 위치 확인.
붉은색으로 정렬된 바는 NGS로 시퀀싱 되어진 reads로
유전체와의 reference assemble를 통해 위치를 확인한다.[4]





다음 연재에서는 약 2주에 걸쳐 유전체 내의 유전자 위치와 기능을 해독하는 과정인 genome annotation에 대해 알아보겠습니다.
많은 관심 부탁드립니다.


참고문헌

 1. Horner DS, Pavesi G, Castrignanò T, De Meo PD, Liuni S, Sammeth M, Picardi E, Pesole G. (2009) Bioinformatics approaches for genomics and post genomics applications of next-generation sequencing. Brief Bioinform. [Epub ahead of print]
 2. Weber M, Schubeler D. (2007) Genomic patterns of DNA methylation: targets and function of an epigenetic mark. Curr Opin Cell Biol. 19, 273-80
 3. Roch 454 : Applications - Epigenetics
 (http://www.454.com/applications/ChIP-seq-methylation-epigenetics.asp)
 4. Illumina : Applications - Gene Regulation and Epigenetic Analysis
 (http://www.illumina.com/applications.ilmn#dna_protein_interaction_analysis_chip_seq)
 5. Appied Biosystems : Applications & Technologies - The SOLiD System
 (http://www3.appliedbiosystems.com/AB_Home/applicationstechnologies/SOLiD-System-Sequencing-A/index.htm)
 6. Kel, A., Voss, N., Jauregui, R., Kel-Margoulis, O. and Wingender, E. (2006) Beyond microarrays: Find key transcription factors controlling signal transduction pathways BMC Bioinformatics. 7, S13



Posted by 人Co

2010/03/12 08:18 2010/03/12 08:18

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번주 연재에서는 Next Generation Sequencing의 세 번째 Application으로 유전자의 염기서열에는 변화를 주지 않으면서 유전자의 발현 등에 영향을 주어 개체의 차이를 나타내게 하는 현상에 대해 연구하는 Epigenomics의 분석 방법에 대해 알아보겠습니다.

2-3. Epigenomics


 2003년 인간 유전체에 대한 서열해독 이후로, 유전체에 대한 기능적 분석에 연구가 증가하면서, 이른바 post genomics시대가 도래하고 유전체 연구와 함께 이들의 발현과 작용에 대한 연구들이 활발해 지고 있다.  Epigenetics라는 분야는 이러한 흐름을 주도하는 분야로서, 유전되는 DNA서열로만 설명이 불가능한 부분의 해석을 돕고, 보다 발전적인 유전체 연구를 목적으로 진행되고 있다. Epigenetics에서 가장 주요하게 여겨지는 부분은 유전자의 발현으로서, 유전자가 유전체에 존재하지만, 발현여부에 따라 세포내 역할이 달리지고, 달라진 발현양상은 유전물질처럼 후대에게도 영향을 주는 것이다. 이는 기존의 유전체가 답하지 못했던 물음에 실마리를 제공하면서, 유전체를 좀 더 잘 이해하기 위한 수단으로 이용되고 있다[1].

사용자 삽입 이미지
그림 1. DNA methylation에 의한 유전자 발현 및 억제

 Epigenomic study의 연구대상으로 가장 대표되는 것이 DNA-methylation이다. DNA strand에서 CpG island가 있고 이중 cytosine이 5-methyl cytosine으로 modification 되는 현상이다. 이러한 methylation 현상은 유전체 전반에 걸쳐 일어나는 것으로 유전자의 단백질 코딩 영역이나 전사 조절 부위에서 관찰이 되며 이는 곧 유전자의 발현에 관여하게 된다[2]. 대표적인 예로 X-염색체 inactivation을 통한 유전자 dosage 조절이나 발달과정에서 필요한 유전자들의 발현을 성장 시기에 맞춰 선택적으로  조절 하는 것이 이에 해당 한다. 뿐만 아니라 외부의 retro virus나 transposon의 발현 억제와 cancer에 의한 repressor 유전자의 inactivation 기작 역시 DNA methylation을 통해서 이루어지고 있어 질병과 관련하여 유전체 연구에서 중요하게 다뤄지고 있다. 

2-3-1. Methylation Analysis


 Genome methylation을 알아보기 위한 기존의 방법은 Methylation Sensitive Restriction Enzyme (MSRE)을 이용하거나,  살펴보고자 하는 특정 영역에 해당하는 프라이머를 작성하여 PCR을 수행 하는 방법 등이 이용되었다. 그러나 NGS 기술의 발달로 epigenetics 분야의 연구 또한 대량의 functional gene study가 일반화 되어가고 있다. 가장 대중적인 방법은 genomic DNA를 추출하여 bisulfate를 처리한 후에 NGS를 통한 대량 sequencing을 수행하는 것이다(그림 2).

사용자 삽입 이미지
그림 2. Genomic DNA의 bisulfate처리로 methylation 여부를 확인.
Methylation 되어 있지 않은 cytosines은 bisulfite 처리로 uracil로 바뀌게 되고 반면,
methylation 되어 있는 cytosines에는 변화가 없어 genome상의 서열변화로 methylation 여부를 확인한다[3].

시퀀싱 된 NGS reads는 reference assembly를 통해 유전체 내의 전체적인 5-methyl cytosine의 분포를 확인 하는데 이용하게 된다. 이러한 분석은 ABI-SOLiD, Illumina의 Solexa 그리고 Roche 454 모두 가능한 플랫폼이긴 하나 long reads 시퀀싱을 수행하는 Roche 454가 조금 더 유용하게 이용되고 있다[3].

다음 연재에서는  단백질에 binding된 DNA 서열을 분리하여 NGS 방식의 시퀀싱 통해 binding site를 동정하는 방법인 CHIP-Seq 분석 방법에 대해 알아보겠습니다.
많은 관심 부탁드립니다.



참고문헌


 1. Horner DS, Pavesi G, Castrignanò T, De Meo PD, Liuni S, Sammeth M, Picardi E, Pesole G. (2009) Bioinformatics approaches for genomics and post genomics applications of next-generation sequencing. Brief Bioinform. [Epub ahead of print]
 2. Weber M, Schubeler D. (2007) Genomic patterns of DNA methylation: targets and function of an epigenetic mark. Curr Opin Cell Biol. 19, 273-80
 3. Roch 454 : Applications - Epigenetics
 (http://www.454.com/applications/ChIP-seq-methylation-epigenetics.asp)
 4. Illumina : Applications - Gene Regulation and Epigenetic Analysis
 (http://www.illumina.com/applications.ilmn#dna_protein_interaction_analysis_chip_seq)
 5. Appied Biosystems : Applications & Technologies - The SOLiD System
 (http://www3.appliedbiosystems.com/AB_Home/applicationstechnologies/SOLiD-System-Sequencing-A/index.htm)
 6. Kel, A., Voss, N., Jauregui, R., Kel-Margoulis, O. and Wingender, E. (2006) Beyond microarrays: Find key transcription factors controlling signal transduction pathways BMC Bioinformatics. 7, S13


Posted by 人Co

2010/03/08 11:26 2010/03/08 11:26



« Previous : 1 : 2 : 3 : 4 : 5 : Next »