연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 유전자의 기능을 분석하는 Functional annotation 중에 먼저 상동성 기반의 Annotation에  대해 알아보겠습니다.

2-4-2. Functional annotation


 A. 상동성(homology) 기반의 Annotation


 전체 서열에서 유전자의 위치와 구조 정보를 파악하여 유전자의 서열을 분석한 뒤 그 서열 정보를 통해 유전자의 기능을 유추 한다. 가장 보편적으로 유전자의 기능을 분석하는 방법이 상동성 기반의 분석이다. 다만, 상동성 분석에 기반한 유전자 기능 유추 시 사용되는 데이터베이스에 따라 노이즈 발생률이 차이가 나므로 데이터베이스 구축에 많은 노력을 기우려야 한다. 분석하려고 하는 종과 동일한 종의 단백질 서열을 1차 데이터베이스로 구축하고 다음으로 유연  관계가 가까운 종을 대상으로 2차 데이터베이스를 만드는 피라미드 형태의 데이터베이스 구축이 필요하다. 또한 각 데이터베이스에 맞는 상동성 경계 값(cutoff) 조정이 필요하다. 단백질 수준에서의 상동성은 보통 높게는 1e-200에서 낮게는 1e-4 까지 적절한 수준으로 조정을 하게 된다. 그러나 DAN 수준에서의 상동성은 아무리 높은 e-value 경계 값이라도 신뢰할만한 정보가 되지 않는다고 말한다. 따라서 e-value 뿐만 아니라 identity, HSP coverage 등이 상동성 레벨을 정하는 기준이 되기도 한다.

 석에 이용되는 데이터베이스는 그 특성에 따라 약간의 차이가 있다(표 1). 단백질의 기능 규명을 위해 단백질의 1차 구조인 서열 정보부터 2차 구조정보인 도메인 정보, 3차 구조정보에 해당하는 PDB 정보 등 다양한 데이터베이스가 이용된다. 뿐만 아니라 세포내 위치 정보를 통해 기능을 유추하기도 하므로 세포내 위치 정보까지 가능한 모든 정보를 분석할 수 있는  흡사 유전자 기능 백화점과 같은 유전자 기능에 대한 정보 분석이 요구된다. 이러한 통합적인 유전자 기능 분석을 수행하기 위해서는 다양한 알고리즘과 데이터베이스, 분석 프로그램들의 유기적인 네트워크가 구축되어야 하며, 수많은 데이터의 입출력이 이루어지므로 데이터의 효율적인 관리를 위한 시스템도 연계되어야 되므로 상당히 복잡한 대규모 분석 시스템이 요구된다. BioMax사에서는 초기 인간 유전체 기능 분석부터 수백 종의 미생물, 다양한 척추동물, 식물 등의 기능 분석을 수행한 Pedant-Pro(http://www.biomax.com/products/pedantpro.php)라는 유전체 구조, 기능 분석 자동화 시스템을 서비스하고 있다.

사용자 삽입 이미지

Pedant-Pro에서는 크게 세 가지 카테고리로 구성된 데이터베이스를 통해 단백질의 기능을 규명하고 있다. 첫 번째, 단백질의 1차 구조인 서열정보를 이용한 분석으로 GO, MetaCat, FunCat, EC, COGs 데이터베이스를 활용한다(표 2).

사용자 삽입 이미지
단백질의 기능 분석은 DAG 구조를 이용한 계층화 방법으로 다중 기능을 수행하는 단백질의 특성에 맞게 GO와 FunCat을 이용하고 있으며, 그 중 MetaCat은 metabolization 분석에 이용되며 EC는 단백질의 enzymatic function에 각각 초점을 두어 이차적인 세포내 대사회로 분석의 기초자료를 제공하고 있다. COGs는 종간의 ortholog 그룹 정보를 데이터베이스로 구축한 것으로 유사 기능을 갖는 단백질들을 그룹화하여 기능을 유추하는데 도움을 주고 있다. 두 번째로는 단백질의 이차구조정보를 이용한 분석이다. 단백질의 hydrophobicity에 기반을 둔 transmembrane helice 및 site prediction을 수행하는 HMMTOP, TMHMM 그리고 단백질의 signal peptides 및 cleavage site를 예측하는 SignalP 분석이 이에 해당된다.

사용자 삽입 이미지
그림 8. Pedant-Pro 유전자 기능 분석 결과 리포트.
Pedant-Pro의 유전자 구조, 기능 분석 리포트는 웹으로 확인할 수 있으며, 윈도우 방식의 디렉토리/폴더 구조로 각 분석 결과들이 구성되어 있으므로, 연구자가 쉽게 다양한 정보를 습득할 수 있다. 분석 결과 리포트는 다양한 공개 데이터베이스와의 연계 정보와 단백질의 도메인 정보, FunCat과 같은 기능 분류 정보등과 같은 다양한 특징적인 정보들을 볼 수 있다. 또한 단백질의 1차, 2차, 3차 구조에 대한 정보와 단백질의 Paralog 클러스터 정보 등을 확인할 수 있다.

 단백질의 서열 정보에 기반하여 얻어진 단백질 내의 도메인 정보는 프로파일 과정을 통해 서로 비슷한 도메인 프로파일을 갖는 단백질들 간의 클러스터 분석에 이용된다. 단순 서열 상동성에서 벗어나 좀 더 구체화된 기능을 중심으로 유전자의 기능을 유추하는 방법을 Pedant-Pro에서 제시하고 있다(그림 9). 유사한 방법으로 synteny 구조를 이용한 ortholog 분석이 있다.  유연관계가 가까운 종과의 synteny 분석을 이용해 유전자의 기능 뿐 아니라 염색체 내의 물리적 위치정보까지 이용하여 유전자의 기능을 규명하게 된다. 이들 방법들은 종간 ortholog 분석에 기초한 비교유전체 분야에 주로 이용되며 그 자세한 내용은 다음에서 다루도록 한다.
사용자 삽입 이미지
그림 9. 도메인 profile을 이용한 protein cluster 분석

다음 연재에서는 서로 다른 종간의 상응하는 유전자 조합 및 구성을 분석하여 진화론적인 유연관계를 밝히는 비교유전체 분석에  대해 알아보겠습니다. 많은 관심 부탁드립니다.



참고문헌

 1. Lowe, T.M. and Eddy, S.R. (1997) tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Res. 25, 955-964.
 2. Lewis SE, et al. (2002). Apollo: a sequence annotation editor. Genome Biology. 12, research0082
 3. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 13, 229-243
 4. Stanke M, Schoffmann O, Morgenstern B, Waack S. (2006) Gene prediction in eukaryotes with a generalized hidden Markov model that uses hints from external  
 sources. BMC Bioinformatics. 7, 62. 
 5. Burge, C. and Karlin, S. (1997) Prediction of complete gene structures in human genomic DNA.  J. Mol. Biol.   268,  78-94.
 6. Salamov AA, Solovyev VV. (2000) Ab initio gene finding in Drosophila genomic DNA. Genome Res. 10, 516–522.
 7. Majoros, W.H., Pertea, M., and Salzberg, S.L. TigrScan and GlimmerHMM: two open-source ab initio eukaryotic gene-finders Bioinformatics 20, 2878-2879.
 8. G. Parra, E. Blanco, and R. Guigó, (2000) Geneid in Drosophila Genome Research 4, 511-515.
 9. Haas BJ, Salzberg SL, Zhu W, Pertea M, Allen JE, Orvis J, White O, Buell CR, Wortman JR. (2008) Automated eukaryotic gene structure annotation using  
 EVidenceModeler and the Program to Assemble Spliced Alignments. Genome Biology 9, R7
 10. Korf I. (2004) Gene finding in novel genomes. BMC Bioinformatics. 5, 59.
 11. Kan, Z., Rouchka, E.C., Gish, W., and States, D. 2001, Gene structure prediction and AS analysis using genomically aligned ESTs, Genome Res. 11, 889–900.
 12. Eyras, E., Caccamo, M., Curwen, V., and Clamp, M. 2004, ESTGenes: AS from ESTs in Ensembl, Genome Res. 14, 976–987.
 13. Kent, W.J. 2002, BLAT-The BLAST-Like Alignment Tool, Genome Res. 12, 565–664.
 14. Florea, L., Hartzell, G., Zhang, Z., Rubin, G.M., Miller, W. 1998, Computer program for aligning a cDNA sequence with a genomic DNA sequence, Genome Res. 8,
 967–974.
 15. Huang X, Adams MD, Zhou H, Kerlavage AR. (1997) A tool for analyzing and annotating genomic sequences. Genomics. 46, 37–45.
 16. Wu TD, Watanabe CK. (2005) GMAP: a genomic mapping and alignment program for mRNA and EST sequences. Bioinformatics. 21, 1859–1875.
 17. Birney E, Clamp M, Durbin R. (2004) GeneWise and Genomewise. Genome Res. 14, 988–995.

Posted by 人Co

2010/03/22 11:19 2010/03/22 11:19
, , , , , , , , , , , , , , , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/61

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis


이 번주 연재에서도 지난주에 이어 Next Generation Sequencing의 두 번째 Application인 Expression study에 대한 내용으로 연재가 진행될 예정입니다. 오늘은 서로 다른 종에서 동일한 기능을 수행하는 ortholog 유전자를 분석하는 방법과 Differentially Expressed Genes(DEGs) Functional annotation 중에 Gene Categorization을 이용한 Hypergeometric test에 대해 알아보겠습니다.

2-2-4. Ortholog Analysis



 서로 다른 종에서 동일한 기능을 수행하는 유전자들의 관계를 ortholog 유전자라고 한다. 일반적인 분석법으로는 서열 유사성을 근간으로 분석이 진행된다. COG 알고리즘에 의하면 최소 세 종 이상의 유전자가 서로 top match로 연결이 될 때 비로소 하나의 ortholog 그룹을 형성하는 것으로 분석하고 있다[18]. 그러나 이러한 분석법에는 어느 정도의 노이즈가 존재 하므로 이를 해결하려는 시도로 여러 가지 분석법이 소개 되었다. 그중 서열 유사성에 synteny를 접목한 분석법과 발현 패턴을 이용한 분석법이 있다. 여기서는 발현 패턴을 이용한 분석법에 대해 알아보자.

동일한 기능을 수행한다면 동일한 발현 패턴으로 조절될 것이라는 가정 하에 일정 수준 이상의 서열 유사성을 갖는 유전자들끼리 DEP를 활용한 Pearson’s correlation coefficient를 분석하여 ortholog 유전자를 찾는 방법이다. 다음은 Pearson's correlation coefficient 인 ‘r’을 구하는 수식이다.

사용자 삽입 이미지
두 단계로 진행되는 분석으로 일차 분석은 서열 유사성 검사이다. 단백질 수준으로 BLAST를 수행하여 일정 수준 이상의 homology를 갖는 유전자는 모두 분석 대상으로 한다.
그림 3의 unigene 1과 가장 서열상 유사한 유전자를 human을 대상으로 분석하고자 할 때 보통 e-value를 파라미터로 하여 일정 수준(‘1e-10’)을 통과하는 유전자를 2차 분석 대상자로  분류한다. 2차 분석에서는 DEP를 활용한 Pearson’s correlation coefficient를 분석한다.

사용자 삽입 이미지
그림 6. DEP를 활용한 ortholog 유전자 분석.
Tomato와 arabidopsis 유전자 간의 DEP를 5개의 조직에 대해 작성하여 서열 유사성과 발현 패턴을 비교하여 ortholog 유전자를 분석하였다. (a) 서열유사성으로는 tomato의 TC-116371 (peroxidase)과 arabidopsis의 TC- 183341 이 가장 유사하지만 발현패턴과 함께 비교하면 TC183911이 ortholog 유전자가 됨을 확인수 있었다. (b), (c) 모두 동일한 결과를 보이고 있다[2].

 단, DEP의 라이브러리 구성이 두 종간에 서로 일치하여야 한다. Cluster 1(Unigene 1)의 DEP와 human의 후보 유전자 DEP를 1:1로 correlation 분석을 진행하여 coefficient value ‘r’이 ‘1’에 가까울수록 서로 유사한 상관관계를 가지며, ‘-1’에 가까울수록 반대되는 상관관계를 가지고, ‘0’에 가까울수록 상관관계가 없는 것으로 해석한다[10, 19] 이러한 결과는 그림 6의 예제에서 보다 정확한 ortholog 분석 결과를 보여 주고 있다.

2-2-5. Differentially Expressed Genes (DEGs) Functional annotation


 앞서 소개한 DEP를 활용하여 유전자 발현 패턴을 분석하면 특정 컨디션에서 높은 발현을 보이는 Differentially Expressed Genes(DEGs)을 얻을 수 있다. 같은 맥락의 조직특이 유전자들도 이에 해당 하는 것으로 이들은 특정 조건으로 묶인 만큼 공통된 생물학적 기능을 갖을 것이라 기대 하고 있다. 이를 분석 하기 위해 gene categorization을 이용한 통계학적 분석과 텍스트 마이닝을 통한 대사회로 분석 및 발현 조절 부위 분석을 진행하게 된다.


A. Gene Categorization을 이용한 Hypergeometric test


Gene Ontology(GO)와 같이 organism 내의 모든 유전자를 카테고리화하여 유전자 구성이 어떻게 되는지를 분석하는 것은 유전자의 기능 분석에서 일반적인 분석법 중 하나이다. 이러한 카테고리 구성 방식은 GO와 함께 MIPS의 FunCat도 많이 이용되고 있는데, 이들을 이용하여 DEG와 같은 특정 요건으로 묶인 유전자들의 기능이 어떤 카테고리에 집중되어 있는지를 hypergeometric test를 이용하여 분석한다[12, 13]. Hypergeometric test의 확률 값을 구하는 수식은 다음과 같다.

사용자 삽입 이미지
여기서 ‘N’은 organism 전체의 유전자 개수를 의미하며 ‘n’은 DEGs의 개수를 의미 한다. 그리고 ‘K’는 전체 유전자 중 특정 카테고리 X(예:GO:00000345)에 해당하는 유전자 개수 이며, ‘i’는 DEGs 그룹 중 특정 카테고리 X에 해당하는 유전자 수를 의미한다. P-value cutoff와 enrichment를 이용하여 통계학적으로 유의한 유전자의 기능을 규명한다. 이러한 분석은 다중 검정을 통해 발생할 수 있는 오류를 보정 하게 된다(2-2-3. 조직특이 유전자 분석 참조).


다음 연재에서는  Differentially Expressed Genes(DEGs) Functional annotation 중에 Text-mining을 통한 회사대로 분석, Promoter 영역 분석을 통한 발현 조절 메카니즘 분석RNA-Seq 분석 방법에 대해 알아보도록 하겠습니다. 많은 관심 부탁드립니다.

참고문헌

1. Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B. (2008) Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods. 7, 621-628.
2. Fei Z, Tang X, Alba RM, White JA, Ronning CM, Martin GB, Tanksley SD, Giovannoni JJ. (2004) Comprehensive EST analysis of tomato and comparative genomics of fruit ripening. Plant J. 40, 47–59
3. Rensink WA, Lee Y, Liu J, Iobst S, Ouyang S, Buell CR. (2005) Comparative analyses of six solanaceous transcriptomes reveal a high degree of sequence conservation and species-specific transcripts. BMC Genomics. 6, 124
4. Ronning,C.M. et al. (2003) Comparative analyses of potato expressed sequence tag libraries. Plant Physiol. 131, 419–429
5. Guo J, Zhu P, Wu C, Yu L, Zhao S, Gu X. (2003) In silico analysis indicates a similar gene expression pattern between human brain and testis. Cytogenet Genome Res. 103, 58-62
6. Benjamini, Y., Daniel Yekutieli. (2001) The control of the false discovery rate in multiple hypotheses testing under dependency. Annal. Stat. 4(29), 1165–1188
7. Tsai CA, Hsueh HM, Chen JJ. (2003) Estimation of false discovery rates in multiple testing: application to gene microarray data. Biometrics. 59, 1071-81
8. Audic S, Claverie JM. (1997) The significance of digital gene expression profiles. Genome Res. 7, 986–995
9. Roche 454 : Products & Solutions - Multiplexing
(http://www.454.com/products-solutions/experimental-design-options/multiplexing.asp)
10. Tatusov RL, Koonin EV, Lipman DJ. (1997) A genomic perspective on protein families. Science. 278, 631-637
11. Kato T, Murata Y, Miura K, Asai K, Horton PB, Koji T, Fujibuchi W. (2006) Network-based de-noising improves prediction from microarray data, BMC Bioinformatics. 7, S4
12. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 5, 229-243
13. Zeeberg BR, Feng W, Wang G, Wang MD, Fojo AT, Sunshine M, Narasimhan S, Kane DW, Reinhold WC, Lababidi S, Bussey KJ, Riss J, Barrett JC, Weinstein JN. (2003) GoMiner: a resource for biological interpretation of genomic and proteomic data, Genome Biol. 4, R28
14. GeneSpring GX : Products & Services - GeneSpring GX Software
(http://www.chem.agilent.com/en-US/products/software/lifesciencesinformatics/genespringgx/pages/default.aspx)
15. Wingender E, Chen X, Hehl R, Karas H, Liebich I, Matys V, Meinhardt T, Prüss M, Reuter I, Schacherer F. (2000) TRANSFAC: an integrated system for gene expression regulation. Nucleic Acids Research. 28, 316-319
16. PathwayStudio : Products-pathway Studio
(http://www.ariadnegenomics.com/products/pathwaystudio/)
17. Eveland AL, McCarty DR, Koch KE. (2007) Transcript profiling by 3'-untranslated region sequencing resolves expression of gene families. Plant Physiol. 146, 32-44.
18. Torres TT, Metta M, Ottenwälder B, Schlötterer C. (2008) Gene expression profiling by massively parallel sequencing. Genome Res. 1, 172-7.
19. Vega-Arreguín JC, Ibarra-Laclette E, Jiménez-Moraila B, Martínez O, Vielle-Calzada JP, Herrera-Estrella L, Herrera-Estrella A. (2009) Deep sampling of the Palomero maize transcriptome by a high throughput strategy of pyrosequencing. BMC Genomics. 10, 299.
20. Wang ET, Sandberg R, Luo S, Khrebtukova I, Zhang L, Mayr C, Kingsmore SF, Schroth GP, Burge CB. (2008) Alternative isoform regulation in human tissue transcriptomes. Nature. 2456, 70-76.
21. Johnson JM, Castle J, Garrett-Engele P, Kan Z, Loerch PM, Armour CD, Santos R, Schadt EE, Stoughton R, Shoemaker DD. (2003) Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science. 302, 2141-2144.
22. Ledford H. (2008) Human genes are multitaskers. Nature. 456, 9.
23. CLC Genomics Workbench: RNA-Seq analysis
(http://www.clcbio.com/index.php?id=1330&manual=RNA_Seq_analysis.html)

Posted by 人Co

2010/03/02 09:44 2010/03/02 09:44