HGMD professional

Next generation sequencing의 발달로 인한 personal genomics가 가능해지면서 더욱 관심을 보이고 있는 데이터베이스가 있다. Biobase HGMD 데 이터베이스가 바로 그것으로 Human의 유전적 돌연변이에 의한 질병정보를 약 100,000만개 정도 담고 있다.

사용자 삽입 이미지

Figure 1. Biobase HGMD. Human의 유전적 변이에 의한 질병 정보 데이터베이스

HGMD는 현재 유전체 서열상의 변이로 인한 질병의 병변 및 유전자의 이름 그리고 유전체상의 위치 정보를 문헌정보에 근거하여 서비스하고 있다. 이러한 정보는 OMIM, Entrez Gene 그리고 Human Gene Nomenclature Committee를 포함한 대표 web-base 데이터들과 링크를 통해 변이에 의한 표현형, 구조적 정보들이 함께 제공되고 있다. 그 자세한 내용은 아래와 같다.


Feature


  • Up-to-date Mutation Data

  • Full Coverage of PubMed journals
  • Gene Centric Search
  • Mutation Centric Search
  • Reference Centric Search
  • Boolean Full Text Searching
  • View Mutation Data by Type
  • View Mutation Data by Disease/Phenotype
  • cDNA Sequences
  • Extended cDNA Sequences
  • Expanded Gene-specific Information
  • Expanded Mutation-specific Information
  • Advanced Search Tools
  • Mutation Viewer/Maps
  • Genomic Coordinates for Missense/Nonsense Mutations
  • Search for Functional Polymorphisms
  • HGVS Nomenclature for Missense/Nonsense Mutations
  • Links to Entrez dbSNP (using rs numbers)
  • Provision of Additional Literature References
  • Search/Display of Gene Ontology Terms
  • Downloadable Version

 HGMD Professional은 위와 같이 변이 정보에 대한 서열 정보, SNP정보, HGVS nomenclature 정보를 링크를 통해 서비스하고 있으며 이들의 조절 메카니즘과 관련된 transcription factor 정보도 함께 지원하고 있다. 더욱이 이러한 모든 정보의 근간이 되는 문헌정보를 함께 제공하고 있어 그 신뢰성이 매우 높다 하겠다.


HGMD tutorial


Expanded Search Engine : 최신의 데이터를 사용자 편의에 의한 주제 중심의 인터페이스로 제공하고 있다. 키워드 방식을 이용한 특정 유전자, 질병의 상태, 변이정보, 문헌정보를 통한 검색이 가능하며 알파벳 인덱싱을 통한 검색도 가능하다.


 

사용자 삽입 이미지

 Figure 2. HGMD advance search. 유전자명, 질병, 변이정보 등을 이용한 keyword 검색이 가능하다. 또한 특정 chromosome내에 존재하는 변이정보를 한 번에 검색 할 수도 있다.


또한 특정 chromosome 내에 존재 하는 모든 변이정보를 한 번에 확인 할 수 도 있으며 이들 정보는 모두 다운 로드 기능을 통해 local PC에 저장이 가능하여 필요할 때 언제든지 활용이 가능 하다(Figure 2).


키워드 검색을 통한 유전자 검색의 경우 Figure 3에서 보여 지는 것과 같이 관련 유전자에서 동반 되는 모든 변이 정보를 확인할 수 있다. Splicing에 의한 변이정보, small deletion, small insertion 그리고 SNP에 의한 정보도 함께 검색 할 수 있다. 또한 transcription factor 정보도 링크되어 다양한 원인에 의해 유발되는 유전적 질환의 생화학적 정보를 통합적으로 확인 할 수 있다.


사용자 삽입 이미지

Figure 3. 유전자 검색. 유전자 검색을 통한 다양한 변이 정보 및 질병의 병변, 유전체상의 위치정보, 유전자 발현 조절 정보를 확인 할 수 있다.


Biochemical information : Human의 변이 정보는 구분된 카테고리 정보에서 keyword로 검색이 가능하며 이들의 정보는 이후 모두 다운로드가 가능하다. 질병의 phenotype을 비롯한 유전체 상의 위치 정보, dbSNP와 같은 기존 참조 데이터베이스의 정보, motif, regulation, 참조 문헌 정보까지 한 번에 확인할 수 있다.


사용자 삽입 이미지

Figure 4. 변이 정보 검색 결과. 유전적 변이에 의한 DNA서열의 변화, 단백질 서열 변이, 참조 데이터베이스, phenotype, gene ontology, 참조 문헌 정보를 모두 다운 받을 수 있다.


Personal genomics 시대에 가장 필수적인 데이터베이스중 하나인 Biobase HGMD는 개인의 잠재적인 유전적 질환의 탐색부터 현재 발병중인 질환에 대한 치료 연구를 위해 많은 기초 데이터를 제공할 것으로 여겨진다. 많은 논문과 데이터베이스를 집대성하여 유전적 질환의 통합적 정보를 제공하고 있는 HGMD는 앞으로 더 많은 연구자들에게 도움이 될 것이다.






Posted by 人Co

2010/05/13 19:17 2010/05/13 19:17

BIOBASE 소개

인 맞춤 의학시대를 가능케 한 NGS(Next Generation Sequencing) 기술로 인해 이제는 더 이상 유전자 서열정보만을 밝히는 것이 큰 의미를 내포하지 않는다. 생명과학 분야의 궁극적인 목표인 생명현상의 이해를 위해서는 쏟아지는 서열정보를 잘 꿰어 그들의 매우 정교한 세포내 역할을 규명해야 한다. (주)인실리코젠에서는 이러한 연구를 위해 필수적으로 요구되는 몇 가지 데이터베이스를 소개하고자 한다.

 최근 nature에 발표된 Ancient human genome project에 이용된 전사 조절인자 데이터베이스로 유명한 TRANSFAC을 서비스하고 있는 Biobase는 전문가 리뷰에 의한 생물학적 데이터베이스와 소프트웨어 및 생명과학분야의 분석 서비스에 뛰어난 세계적 선두 기업이다.

사용자 삽입 이미지
1986년 시작되어 1997년 German Research Center for Biotechnology에서 파생되어 설립된 이후로 전사조절인자를 비롯한 유전자 조절 메카니즘 데이터베이스 분야에서 독보적인 위치를 차지해 오고 있다. 의학을 비롯한 제약회사 및 연구기관을 포함한 전세계 수많은  고객에게 서비스를 제공하고 있으며, 생명과학 분야의 다양한 논문에서 현재의 데이터가 인용되고 있다.

 Biobase 제품군의 가장 큰 특징은 생물학 전문가들에 의한 데이터의 검토와 수정을 통해 지속적으로 업데이트된다는 것이다. 날마다 논문을 통해 쏟아지는 생명과학 분야의 다양한 데이터를 전문가의 리뷰를 통해 BIOBASE Knowledge Libray(BKL)로 재탄생 시켜 제공하고 있고 이들 데이터의 이해를 극대화 시킬수 있는 ExPlainTM을 서비스 함으로써 drug 혹은 biomarker 개발에 많은 연구자들이 효율적으로 활용 할 수 있도록 하고 있다. 그 서비스 목록은 크게 세 가지로 분류 된다.

1) BKL TRANSFAC

2) BKL PROTEOME

3) HGMD professional


 첫 번째,  TRANSFAC은 유전자 조절분야에서 세계 유일의 데이터베이스이며 표준이 될 정도의 고품질 데이터를 보장하고 있다. 이러한 평가는 The U.S. Bioinformatics Market의 보고에서도 TRANSFAC®을  주요 생물정보 툴 중 하나로 꼽는 등 세계적으로 높은 평가를 받고 있다. TRANSFAC suite에는 전사 조절인자와 관련된 모든 정보를 담고 있다.
Transcription factor, transcription factor binding site, 그리고 composite elements의 총체적인 정보로 구성되어 있으며, 유전자 돌연변이와 유전자 돌연변이에 관련된 질병에 관한 데이터베이스인 PathoDBTM 그리고 regulatory chromatin domain 정보를 담고 있는 S/MARtDBTM도 포함하고 있다.

사용자 삽입 이미지

 두 번째, PROTEOME은 단백질 수준의 조절, 즉 pathway정보를 제공하고 있다. 6개의 데이터베이스로 YPD(s.cerevisiae), HumanPSD, GPCR-PD, WormPD, MycoPath PD 그리고 PombePD(s.pombe)로 구성되어 기능이 밝혀진 최대한의 단백질을 활용하여 세포내에서의 pathway 조절 메카니즘을 총체적으로 이해 할 수 있도록 정보를 제공하고 있다. 이들 데이터는 관련 질병정보를 비롯한 참조논문과 데이터의 품질 정보를 모두 제공함으로써 다양한 생명과학 분야에서 인용되고 있다.

 마지막 HGMD는 human의 유전자 돌연변이 데이터베이스로 유전에 의한 질병관련 정보를 서비스하고 있다. Germ-line 돌연변이 데이터를 중심으로 주어진 유전자와 관련된 돌연변이 정보를 제공하고 있다. 2006년 이후 꾸준한 데이터베이스의 축척으로 2009년 3월 95,000건에 달하는 돌연변이 정보를 보유하고 있으며, 병변을 비롯한 서열정보, 유전체에서의 위치정보, 본래 특성 정보등 상세한 관련 정보를 제공 하고 있다.

 앞서 밝힌 내용과 같이 Biobase 제품군은 세포내 발현 조절과 관련된 총체적인 데이터베이스를 제공한다. 전사 수준의 발현조절인 promoter 분석(TRANSFAC), 단백질 수준의 pathway 분석(PROTEOM), 이후 phenotype과 관련된 유전적 질병 정보(HGMD) 등을
제공하며 다양한 생명과학 분야에 고품질의 데이터를 제공하고 있다.

다음 주부터 앞으로 3주 동안, 오늘 간략하게 말씀드린 Biobase 제품군의 세 가지 데이터베이스에 대하여 한 주에 하나씩 좀 더 자세한 내용으로 소개해드릴 예정입니다.  

여러분들의 많은 관심 부탁드립니다.
감사합니다.






Posted by 人Co

2010/04/19 15:07 2010/04/19 15:07

[Quipu Issue Paper] Epigenomics Ⅱ - ChIP-seq

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번주 연재에서는 Next Generation Sequencing의 세 번째 Application인 Epigenomics 중에 단백질에 binding된 DNA 서열을 분리하여 NGS 방식의 시퀀싱을 통해 binding site를 동정하는 방법인 CHIP-Seq 분석 방법에 대해 알아보겠습니다.

2-3-2. ChIP-seq


 CHIP(chromatin-immunoprecipitation)은 특정 유전체 영역에 binding 하는 히스톤이나 전사 인자(Transcription Factors, TFs)와 같이 특정 DNA서열에 binding 하는 단백질과 genomic fragments를 분리하기 위해 많이 응용 되어 왔다. 이 기술은 빠르게 발전하여 large-scale의 TF-DNA interactions 혹은 chromatin packaging (histone modification을 통한 genomic DNA와의 packaging) 연구에 중심 기술로 자리 잡았다. CHIP-Seq은 기존의 CHIP-chip에서 보여 지던 해상도의 한계와 chip에 올려 진 프로브에 대한 한계를 극복하는 방법으로 단백질에 binding된 DNA 서열을 분리하여 NGS 방식의 시퀀싱 통해 binding site를 동정하는 방법으로 발전하였다(그림 3). 그 결과 genome wide epigenetic study가 가능하게 되었다.

사용자 삽입 이미지
그림 3. CHIP-Seq을 이용한 단백질 binding site 규명.
Genomic DNA와 특정 단백질의 binding 후 단백질 specific antibody를 이용하여 
분리한다. 이후 단백질을 제거하고 NGS 기술을 이용하여 시퀀싱 한다[5].

 CHIP-seq은 실험적으로 짧은 DNA 절편에 binding하는 특성 때문에 non-specific binding complex의 background 처리가 반드시 필요하다. 이를 해결하기 위해 실험적으로는 antibody 만을 사용한 대조군을 설정하여 비교하는 방법과, 통계학적으로는 주어진 단백질이 주어진 위치에 정확하게 binding 할 확률을 계산하도록 하는 것이다. 이때 genome 전체 서열(g)에 주어진 서열(t)이 정확하게 mapping될 확률은 t/g로 포아송 분포 (poisson distribution) 혹은 negative binomial distribution을 이용하여 추정하게 된다[3].
 이후 consensus binding sequence를 도출하게 되면 이를 데이터베이스로 하여 다른 종의 분석에 이용할 수 있게 된다. 이렇게 TF와 그에 관련된 정보로 전문화 하여 구축된 데이터베이스 중 거의 유일한 곳이 BIOBASETRANSFAC이다(그림4)[6].

사용자 삽입 이미지
그림 4. TRANSFAC.
Transcription factor와 binding site 및 관련
pathway정보를 담고 있는 유일한 TF database.

 TRANSFAC은 genome내의 유전자 upstream 분석에 기초 자료를 제공하여 유전자 조절 메카니즘 분석에 필수적으로 이용되고 있다. 실험적으로 검증된 TF의 정보를 manual curation을 통해 고품질의 데이터를 쌓아가고 있으며, 그간 CHIP-chip 방식의 데이터로 밝혀지던 정보들이 CHIP-seq 방식의 데이터로 전환 되면서 더욱 빠르게 진행되고 있어 이를 이용한 BIOBASE의 데이터베이스 또한 더욱 빠르게 쌓여갈 것으로 예상된다. 뿐만 아니라 이미 human의 경우 모든 유전자의 upstream을 분석하여 binding 가능한 TF를 제공하고 있으며, 이를 이용한 pathway 분석에도 많은 데이터와 분석 프로그램을 제공하고 있다. 그중 TRANSPATH는 affymatrix data를 이용한 발현 분석 시 DEGs의 pathway를 분석하는데 해당 유전자의 upstream에 존재하는 TFs와 관련 pathway를 분석하여 세포내 전체적인 유전자의 기능을 살펴볼 수 있도록 하였다[6].

 이러한 CHIP-Seq은 다양한 플랫폼에서 분석이 가능한 가운데, CLC NGS Cell을 이용하여 assembly를 진행하게 되면 genbank 형식의 ‘.gbk' 파일을 reference로 사용하여 GUI 형태로 유전체 전체의 분포를 확인할 수 있어 데이터 해석의 용이함을 얻을 수 있다(1-2. Assemble 참조). 또한 비슷하게 Illumina의 Genome Analyzer의 경우 ChIP-seq 분석을 통해 얻어진 작은 서열들을 ELAND를 이용하여 유전체에 정렬하게 되고 그 결과는 UCSC genome browser를 통해 유전체 내의 위치와 분포를 확인할 수 있다(그림 5).

사용자 삽입 이미지
그림 5. UCSC genome browser를 통한 TF binding site의 유전체 내 위치 확인.
붉은색으로 정렬된 바는 NGS로 시퀀싱 되어진 reads로
유전체와의 reference assemble를 통해 위치를 확인한다.[4]





다음 연재에서는 약 2주에 걸쳐 유전체 내의 유전자 위치와 기능을 해독하는 과정인 genome annotation에 대해 알아보겠습니다.
많은 관심 부탁드립니다.


참고문헌

 1. Horner DS, Pavesi G, Castrignanò T, De Meo PD, Liuni S, Sammeth M, Picardi E, Pesole G. (2009) Bioinformatics approaches for genomics and post genomics applications of next-generation sequencing. Brief Bioinform. [Epub ahead of print]
 2. Weber M, Schubeler D. (2007) Genomic patterns of DNA methylation: targets and function of an epigenetic mark. Curr Opin Cell Biol. 19, 273-80
 3. Roch 454 : Applications - Epigenetics
 (http://www.454.com/applications/ChIP-seq-methylation-epigenetics.asp)
 4. Illumina : Applications - Gene Regulation and Epigenetic Analysis
 (http://www.illumina.com/applications.ilmn#dna_protein_interaction_analysis_chip_seq)
 5. Appied Biosystems : Applications & Technologies - The SOLiD System
 (http://www3.appliedbiosystems.com/AB_Home/applicationstechnologies/SOLiD-System-Sequencing-A/index.htm)
 6. Kel, A., Voss, N., Jauregui, R., Kel-Margoulis, O. and Wingender, E. (2006) Beyond microarrays: Find key transcription factors controlling signal transduction pathways BMC Bioinformatics. 7, S13



Posted by 人Co

2010/03/12 08:18 2010/03/12 08:18

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 어제에 이어 Next Generation Sequencing의 두 번째 Application인 Expression study에 대한 내용으로 Differentially Expressed Genes(DEGs) Functional annotation 중에 Text-mining을 통한 대사회로 분석Promoter 영역 분석을 통한 발현 조절 메카니즘 분석에 대해 알아보겠습니다.

B. Text-mining을 통한 대사회로 분석


 대사회로 분석은 세포내 유전자들이 생물학적으로 기능이 유사하거나 동일한 조절 기작을 통해 동일 시간상에서 유사한 발현 양상을 보일 것이라는 가정 하에 이루어진다. 선별된 유전자들(DEGs) 사이에서의 대사회로 분석을 통하여 대사회로 내에서 유전자들의 발현양상에 따라 up-regulation 혹은 down-regulation 되는지 분석할 수 있다. 또한 이들 간의 signal 관계가 upstream에 존재하는지 down- stream에 존재하는지 여부를 분석할 수 있다. 이러한 분석이 가능한 프로그램으로는 Ariadne사의 Pathway Studio가 있다[16].

사용자 삽입 이미지
그림 7. DEG 유전자의 pathway 분석

DEGs를 이용한 pathway 분석으로 유전자간의 조절 관계와 upsteam, downstream 단백질을 GUI를 통한 그래픽으로 확인이 가능하다[16].

Pathway Studio는 차등발현유전자들을 조절하는 상위 조절인자를 분석하거나 차등발현유전자들이 공통적으로 작용하고 있는 질병, 세포내 프로세스 등을 분석할 수 있는 유용한 프로그램이다. 


C. Promoter 영역 분석을 통한 발현 조절 메카니즘 분석


 선별된 유전자에 대해서 유전자의 발현 양을 조절하고 세포내의 항상성 유지를 위해 여러 유전자들 간의 긴밀한 네트워크를 통해 이뤄지는 유전자 조절 메카니즘을 분석한다. 유전자의 구조 중에서 특히 유전자의 기능에 중요한 영향을 미치는 부분은 유전자의 발현을 조절하는 프로모터 영역이다. 프로모터를 포함한 유전자의 upstream에 존재하는 전사인자  binding site의 예측을 통해 유전자의 발현 조절이 어떠한 메카니즘을 통해 이뤄지는지를 분석한다.

사용자 삽입 이미지
그림 8. Upstream regulation 분석.
TransFac을 활용한 DEGs의 upstream에 존재하는 공통된 transcription factor를 탐색

가장 대표적인 프로그램으로 BIOBASE사의 TRNASFAC을 꼽을 수 있다[15]. 실험적으로 검증된 전사인자들로 생물 전문가의 꼼꼼한 검증을 통해 구축된 데이터베이스는 현재 인간을 중심으로 식물, 효모R에 이르기까지 계속해서 확대 되고 있다. TRANSFAC의 서브 프로그램인 Patch와 Match를 활용하면 미지의 유전자 upstream 서열의 binding 가능한 전사인자를 검색할 수 있고, 이는 유전자 네트워크에서의 생물학적인 의미를 찾을 수 있는 기초 데이터가 된다.

다음 연재에서는 유전자와 엑손의 발현 및 발현된 유전자의 각종 변이 등을 한 번에 연구할 수 있는 RNA-Seq기술에 대해 알아보겠습니다.

많은 관심 부탁드립니다.

참고문헌

1. Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B. (2008) Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods. 7, 621-628.
2. Fei Z, Tang X, Alba RM, White JA, Ronning CM, Martin GB, Tanksley SD, Giovannoni JJ. (2004) Comprehensive EST analysis of tomato and comparative genomics of fruit ripening. Plant J. 40, 47–59
3. Rensink WA, Lee Y, Liu J, Iobst S, Ouyang S, Buell CR. (2005) Comparative analyses of six solanaceous transcriptomes reveal a high degree of sequence conservation and species-specific transcripts. BMC Genomics. 6, 124
4. Ronning,C.M. et al. (2003) Comparative analyses of potato expressed sequence tag libraries. Plant Physiol. 131, 419–429
5. Guo J, Zhu P, Wu C, Yu L, Zhao S, Gu X. (2003) In silico analysis indicates a similar gene expression pattern between human brain and testis. Cytogenet Genome Res. 103, 58-62
6. Benjamini, Y., Daniel Yekutieli. (2001) The control of the false discovery rate in multiple hypotheses testing under dependency. Annal. Stat. 4(29), 1165–1188
7. Tsai CA, Hsueh HM, Chen JJ. (2003) Estimation of false discovery rates in multiple testing: application to gene microarray data. Biometrics. 59, 1071-81
8. Audic S, Claverie JM. (1997) The significance of digital gene expression profiles. Genome Res. 7, 986–995
9. Roche 454 : Products & Solutions - Multiplexing
(http://www.454.com/products-solutions/experimental-design-options/multiplexing.asp)
10. Tatusov RL, Koonin EV, Lipman DJ. (1997) A genomic perspective on protein families. Science. 278, 631-637
11. Kato T, Murata Y, Miura K, Asai K, Horton PB, Koji T, Fujibuchi W. (2006) Network-based de-noising improves prediction from microarray data, BMC Bioinformatics. 7, S4
12. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 5, 229-243
13. Zeeberg BR, Feng W, Wang G, Wang MD, Fojo AT, Sunshine M, Narasimhan S, Kane DW, Reinhold WC, Lababidi S, Bussey KJ, Riss J, Barrett JC, Weinstein JN. (2003) GoMiner: a resource for biological interpretation of genomic and proteomic data, Genome Biol. 4, R28
14. GeneSpring GX : Products & Services - GeneSpring GX Software
(http://www.chem.agilent.com/en-US/products/software/lifesciencesinformatics/genespringgx/pages/default.aspx)
15. Wingender E, Chen X, Hehl R, Karas H, Liebich I, Matys V, Meinhardt T, Prüss M, Reuter I, Schacherer F. (2000) TRANSFAC: an integrated system for gene expression regulation. Nucleic Acids Research. 28, 316-319
16. PathwayStudio : Products-pathway Studio
(http://www.ariadnegenomics.com/products/pathwaystudio/)
17. Eveland AL, McCarty DR, Koch KE. (2007) Transcript profiling by 3'-untranslated region sequencing resolves expression of gene families. Plant Physiol. 146, 32-44.
18. Torres TT, Metta M, Ottenwälder B, Schlötterer C. (2008) Gene expression profiling by massively parallel sequencing. Genome Res. 1, 172-7.
19. Vega-Arreguín JC, Ibarra-Laclette E, Jiménez-Moraila B, Martínez O, Vielle-Calzada JP, Herrera-Estrella L, Herrera-Estrella A. (2009) Deep sampling of the Palomero maize transcriptome by a high throughput strategy of pyrosequencing. BMC Genomics. 10, 299.
20. Wang ET, Sandberg R, Luo S, Khrebtukova I, Zhang L, Mayr C, Kingsmore SF, Schroth GP, Burge CB. (2008) Alternative isoform regulation in human tissue transcriptomes. Nature. 2456, 70-76.
21. Johnson JM, Castle J, Garrett-Engele P, Kan Z, Loerch PM, Armour CD, Santos R, Schadt EE, Stoughton R, Shoemaker DD. (2003) Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science. 302, 2141-2144.
22. Ledford H. (2008) Human genes are multitaskers. Nature. 456, 9.
23. CLC Genomics Workbench: RNA-Seq analysis
(http://www.clcbio.com/index.php?id=1330&manual=RNA_Seq_analysis.html)

Posted by 人Co

2010/03/03 10:03 2010/03/03 10:03