연재 순서

 1. PathwayStudio 소개
 2. 문헌정보를 활용한 유전자 네트워크 분석
 3. Chip 실험 데이터에서의 유전자 네트워크 분석
 4. Drug 발굴을 위한 지식 데이터베이스 ChemEffect


MedScan의 필요성


 과학 문헌의 대표적인 데이터베이스인 NCBI의 PubMed는 시간이 지날수록 등록되는 문헌의 수가 급속도로 증가하고 있으며, 최근에는 약 1,900만건 이상의 문헌들을 서비스하고 있다. 즉, 증가의 추세로 볼 때 하루에 약 4,100여건의 문헌이 업데이트되고 있다. 문헌이 기하급수적으로 증가함에 따라 관련 연구에 대한 정보를 찾기 위해서 연구자들은 점점 더 많은 시간과 노력을 기울여야 한다. 이에 따라 문헌 속에서 생물학적인 정보를 자동으로 추출하는 시스템의 필요성이 증가하고 있다.

사용자 삽입 이미지
그림 1. NCBI PubMed 문헌의 증가 속도.


MedScan의 특징


 이번 블로그에서는 PathwayStudio와 연계된 프로그램으로 PubMed, Google, 그리고 PDF, DOC 형식으로 된 문헌에서 텍스트 마이닝 기법으로 생물학적인 의미가 있는 데이터를 자동으로 추출하는 MedScan에 대해 소개하고자 한다. 데이터를 추출할 때 사용되는 텍스트 마이닝 기법은 복합 문서와 인터넷 페이지 등과 같은 비정형 데이터로부터 자연언어처리 기술과 문서처리 기술을 적용하여 유용한 정보를 추출하고 가공하는 기술을 말한다.

사용자 삽입 이미지
그림 2. MedScan 시스템.

텍스트 마이닝 기법을 이용한 MedScan은 아래와 같은 특징들을 가지고 있다.

  • 생물학적인 문헌에서 정확하게 데이터를 추출할 수 있도록 과학적 언어에 Focusing
  • 생물학 전문가에 의한 정보의 수정 및 Dictionary라고 정의된 Mammalian, Plant에 특화된 텍스트 마이닝
  • 2분안에 918개의 abstract 다운로드, 7,700개 문장 리뷰, 7,300개 entity와 577개의 relation 관계 확인을 동시에 할 수 있을 정도의 빠른 속도
  • 동일한 주제의 연구 정보에 대한 중복성 제거
  • 생물학 전문가의 수정 및 지속적인 검증을 통한 10% 이하의 낮은 False positive 데이터
  • Dictionary 및 검색 패턴을 연구자 의도에 따른 customization 가능

Tutorial


 MedScan은 Pathway Sutido를 통해 실행시킬 수 있다. 실행된 화면은 그림 3에서 보는 것과 같이 사용자가 친숙하게 사용할 수 있도록 인터페이스가 구성되어 있다. MedScan에 서 문헌을 검색하기에 앞서 먼저 Catridge를 선택한다. Human, Mouse, Rat과 같은 mammal에 대한 검색을 할 때에는 Standard catridge를 선택하고, Plant와 관련된 검색을 할 때에는 Plant catridge를 선택한다. 간단하게 설정을 마치고 나면 검색을 수행할 수 있다.

사용자 삽입 이미지
그림 3. MedScan 인터페이스.



문헌 검색

 
 검색은 Popular Destinations과 Quick Import 두 가지 검색 방법을 이용한다. Popular Destinations에서는 Search PubMed, Search BioMed Central, Search HighWire Press, Search Google Scholar, Search Google 다섯 가지의 검색 할 수 있는 destination(그림 4)이 제공된다. 각각을 클릭하면 MedScan에서 바로 웹 사이트로 연결이 되어 인터넷 창을 따로 띄우지 않고도 검색을 수행 할 수 있도록 되어 있다. Quick Import 검색은 웹 사이트로 직접 연결하여 데이터를 검색하는 것보다 조금 더 빠르고 편리한 방법이다. 웹사이트에 연결하지 않고 바로 쿼리를 입력할 수 있도록 되어 있어서 Import PubMed Dataset에 쿼리를 입력하고 Query and Import 버튼을 클릭하면 기본적으로 PubMed abstract에서 1000개까지의 abstract을 추출해 준다.

사용자 삽입 이미지
그림 4. MedScan 검색 방법. 1) Popular Destinations 2) Quick Import

 Popular Destination 검색 가운데 “Search PubMed”를 선택하면, NCBI의 PubMed와 동일한 화면을 볼 수 있다. NCBI의 PubMed에서 문헌을 검색할 때와 동일한 방법으로 알고자하는 쿼리를 입력하고 검색을 수행한다. PubMed에서 문헌을 검색할 때 Display Setting을 Abstract로 변환하고, 페이지당 보여지는 문헌의 개수를 200개로 변환하면 더욱 더 많은 정보를 추출할 수 있다는 것을 염두해두자. 검색된 Abstract에서 검색하고자 했던 쿼리와 관련이 있는 정보들이 있는 문장은 노란색 배경처리되어 표시되고 생물학적인 의미를 지니고 있는 단어는 초록색으로 표시가 된다. 표시가 된 부분은 자동으로 Entity와 Relation으로 추출되어 우측 상단의 테이블 형태로 정리가 된다.

검색 결과


 검색 결과가 정리된 우측의 테이블은 Relation tab과 Entities tab 두 가지 tab으로 결과가 정리되어 있다. Relation tab을 보면 첫 번째 컬럼은 Reference 문헌의 개수를 의미하고 두 번째 컬럼은 Entity 1, 세 번째 컬럼은 Relation 관계 정보를 마지막 네 번째 컬럼은 Entity 2를 나타낸다. 상단 도구모음의 View를 클릭하면 데이터를 컬럼별로 정렬하여 볼 수 있도록 되어 있다. 각각의 컬럼을 정렬해가면서 원하는 데이터만 키보드의 Shift 또는 Ctrl을 사용하여 선택한다. 그런 다음 선택된 데이터만 아래의 Known Relation 테이블로 이동시킨다. Known Relation 테이블에서도 다시 한 번 view를 통해 정렬을 하여 컬럼을 선택 할 수 있다.

 그렇게 해서 최종적으로 선택된 데이터들만 가지고 Pathway Studio로 이동시킨다. 선택된 데이터에서 마우스 오른쪽을 누른 뒤 send to pathway studio 클릭한다. Pathway Studio를 다시 실행 시켜 보면 MedScan에서 보낸 데이터를 Import 할 수 있는 창이 떠있고 여기에서 pathway를 저장 할 디렉토리를 선택해주고 Next를 클릭한다. Import가 완료되고 해당 디렉토리로 가면 MedScan에 서 보낸 데이터 정보를 이용하여 그려진 pathway 파일이 생성되어 있는 것을 확인 할 수 있다.


사용자 삽입 이미지
그림 5. MedScan 검색 결과.

  이밖에도 MedScan에서는 직접 사용자가 가지고 있는 텍스트, 워드, pdf, XML 또는 HTML 포맷의 문서를 Import 하여 데이터를 추출 할 수도 있다. Import 할 문서가 한 개 이상일 때에는 문서를 하나의 폴더 안에 저장해 놓고 폴더 자체를 Import 할 수도 있다. 우리가 어떤 연구를 하기 전에는 보통 문헌에서 내가 하고자 하는 연구가 어느 정도 선행 연구가 이루어 졌는지 알아보는데 그 때마다 많은 문헌들을 하나 하나 살펴 보기에는 어려움이 있다. 그 때 MedScan을 사용하면 그런 점에서 많은 도움을 줄 뿐만 아니라 그 문헌들 사이에서 의미 있는 결과까지 도출해 줄 수 있으리라 생각된다.



Posted by 人Co

2010/06/07 17:38 2010/06/07 17:38

PathwayStudio 소개

연재 순서

 1. PathwayStudio 소개
 2. 문헌정보를 활용한 유전자 네트워크 분석
 3. Chip 실험 데이터에서의 유전자 네트워크 분석
 4. Drug 발굴을 위한 지식 데이터베이스 ChemEffect


카레 성분의 커큐민(cucumin)이 전립선암을 억제한다고?


 미국에는 해마다 전립선암 환자가 증가하고 있는데 반해 인도인들은 전립선암 환자가 거의 발생하지 않고 있다. 유전적인 요인도 있겠지만, 식습관의 차이가 전립선 암환자의 발생을 유도하거나 억제하지 않을까라는 단순한 궁금증을 가지고 카레와 전립선암과의 연관관계에 대한 연구를 시작하고자 한다. 이때 우리는 “인도인들이 즐겨먹는 카레의 주성분에서 전립선암을 억제하는 상호기작이 있을 것이다”라고 가정할 수 있다. 그럼 카레의 주성분은 무엇일까? 카레의 색깔이 노란색인 것은 커큐민이라는 성분때문인데, 이 커큐민이 카레의 주성분이다. 전립선암과 우리가 즐겨 먹는 카레의 주성분인 커큐민은 상호 어떤 관계가 있을까? 실험을 통해서 일일이 검증을 해야 확인할 수 있겠지만, PubMed와 같이 과학 문헌 데이터베이스에서 커큐민 성분에 영향을 미치는 유전자에 관련된 논문과 전립선암에 관여하는 유전자에 대한 논문을 찾은 후 ‘커큐민-유전자-전립선암’과의 관계를 유추할 수 있다.

이와 같이 신약을 발굴하기 위해서 바이오마커를 찾거나, 특정 질병에 관여하는 유전자들이 무엇인지 알고자 할 경우, 또는 DNA Chip 분석을 통해서 얻어지는 차등 발현 유전자들이 공통적으로 관여하는 질병을 찾거나, 유전자들의 상호 연관관계를 알고자 할 경우에 사용되는 유용한 프로그램 가운데 PathwayStudio라 는 프로그램을 소개하고자 한다.

Pathway Studio 시스템 구성


Pathway Studio는 세 가지 시스템으로 구성되어 있다.

  • MedScan: 자연어처리기술(NaturalLanguageProcessing) 을 이용한 과학 문헌의 전문화된 텍스트 마이닝프로그램, 단백질 중심의 생물학적 연관관계 추출
  • ResNet Database: MedScan을 이용하여 PubMed와 Interaction 관련 저널에서 추출한 Mammalian, Plant의 생물학적 네트워크 정보를 생물학 전문가에 의해 재검증한 데이터베이스
  • PathwayStudio: MedScan과ResNet Database를 통해 추출된 데이터를 이용하여 Pathway를 편집 할 수 있도록 제공되는 사용자-친숙한 인터페이스
사용자 삽입 이미지
그림 1. 시스템의 구성. 1) 자연어 처리 기술을 응용하여 문헌에서 생물학적인 데이터를 추출하는 MedScan Reader 2) 추출된 데이터를 데이터베이스화 한 ResNetResNet Database는 Mammalian과 Plant 두 가지로 구분되어진다. 3) 데이터베이스의 정보를 그래픽 형태로 pathway를 생성하고 편집할 수 있는 인터페이스를 제공하는 PathwayStudio Database.


Pathway Studio 응용분야


Pathway Studio는

  • 유전자 발현 데이터 또는 high throughput 데이터를 해석할 때,
  • pathway를 설계, 확장하고 분석 할 때,
  • 유전자, 단백질, cell processes, 질병 사이의 관계를 찾을 때,
  • publication-quality pathway 다이어그램을 그릴 때,
  • 문헌 정보에서 바이오마커와 drug 후보군을 찾을 때,
와 같은 다양한 연구 분야에서 사용되고 있으며, 수많은 연구자들이 Pathway Studio를 이용하여 분석한 결과 및 방법들을 논문으로 투고하고 있다. ARIADNE사의 홈페이지((http://www.ariadnegenomics.com/technology-research/publications/)) 에는 아래와 같은 카테고리 별로 PathwayStudio를 이용하여 투고된 논문 정보를 바로 확인할 수 있다.

  • Epigenetic studies
  • Pathway Analysis
  • Analysis of gene expression microarray data
  • Anayisis of proteomics data
  • Drug discovery
  • Human genetics
  • Toxicogenomics
  • Biomarkers
  • Neuroscience
  • Text mining
  • Model organisms
  • Plants

Pathway Build 방법


 과연, 그렇다면 Pathway Studio에서는 어떤 방법으로 pathway를 그릴 수 있을까? pathway를 그릴 수 있는 방법은 아래 그림과 같이 크게 3가지 정도로 나누어 볼 수 있다. 첫 번째로 내가 알고 있는 유전자 하나 혹은 여러 개의 유전자 목록을 검색하여 엔티티들 사이에 어떤 관계가 있는지 pathway를 직접 그려가면서 확인하는 검색을 통한 방법이 다. 두 번째로는 어떠한 주제로 연구를 할 때 기존에 밝혀져 있는 문헌에 대해 리뷰하는 과정을 거치게 되는데 이 때 관련 문헌을 모두 검색하고 거기에서 보고자 하는 정보들을 추출 할 수 있다. 이렇게 추출된 정보들은 문헌을 통한 검색으 로 추출되었기 때문에 신뢰도가 높은 정보를 제공할 뿐만 아니라 Pathway Studio를 통해서 그들 간의 pathway도 그려 볼 수 있고, 그것을 더 확장해 나가면서 새로운 의미를 도출 할 수도 있다. 마지막으로 실제 실험을 통해 나온 데이터를 입력하고 통계 분석을 한 뒤 통계적으로 유의한 유전자들 사이의 관계를 pathway로 그려보고 발현양상을 살펴보는 방법이 있다.

사용자 삽입 이미지
그림 2. pathway build 방법 1) 유전자 검색을 통한 방법 2) MedScan 문헌 검색을 통한 방법 3) Import한 실험 데이터를 이용하는 방법

Pathway 편집


 위의 세 가지 방법을 통해 pathway를 그릴 때에는 pathway를 보기 쉽게 편집하는 것 또한 중요하다. Pathway Studio에서는 pathway를 그릴 때 편집하기 쉬운 인터페이스를 제공하고 있을 뿐 아니라 서로 다른 Entity와 Relation을 한 눈에 구별 할 수 있도록 그것을 다양한 모양과 색으로 표현하고 있다. 완성된 pathway를 이미지로 저장할 때에는 아래 그림과 같이 Entity와 Relation 정보를 범례로 포함하여 저장 할 수 있어 pathway를 처음 보는 사람이더라도 쉽게 그 관계를 이해 할 수 있다. 또한 그려진 pathway에서 Relation을 나타내는 화살표에 마우스를 가져가면 Entity들 간에 어떤 관계에 있는지 그리고 그 관계를 뒷받침 할 수 있는 관련 문장이 어떤 문헌에서 추출 되었는지와 같은 정보를 제공해 준다.

사용자 삽입 이미지
그림 3. Entity, Relation, component group의 종류

Pathway layout


 완성된 pathway는 layout을 바꾸어 가면서 볼 수 있다. Pathway Studio에서는 DirectForce layout, Symmetric layout, Cell Localization layout, Hierachical layout과 같이 다양한 layout을 제공하고 있다. layout을 변경을 통해서 보다 새로운 의미를 찾을 수 있을 것이다.

  • DirectForce layout : Entity를 중심으로 관련 정보를 축 방향으로 나타내주는 layout
  • Symmetric layout : Entity를 중심으로 관련 정보를 대칭 형태로 나타내주는 layout
  • Cell Localization layout : pathway의 Entity들이 Cell 안에서 어떤 곳에 위치하는지 보여주는 layout
  • Hierachical layout : Entity를 중심으로 유전자를 조절하는 up-regulation 또는 공통적으로 작용하는 down-regulation 정보를 계층적인 구조로 보여주는 layout
layout을 통해 그랙픽 형식으로 검토하는 방법 이외에도 Entity table, Relation table 보기 기능도 지원하고 있다. Table 보기에서는 Entity와 Relation 정보 이외에도 다양한 annotation 정보도 함께 제공하고, 테이블의 컬럼도 사용자의 편의에 맞게 선택적으로 customizing 하여 볼 수 있도록 되어 있다.

사용자 삽입 이미지
그림 4. pathway view 방식 1) pathway 그래프 보기의 다양한 layout 형태 2) Entity, Relation 테이블 형태의 보기 방식

Pathway data export


 pathway는 다양한 형태로도 저장이 가능하다. 그래프 형태의 pathway는 .gif, .jpg, .png, .tif, .bmp 5가지 확장자의 이미지 파일로 저장 할 수 있다. 이미지로 저장을 할 때에는 범례를 포함하여 저장 할 수 있는데 pathway를 문헌에 효율적으로 이용할 수 있도록 이미지의 넓이, 높이의 크기와 DPI 해상도까지 지정할 수 있다. Entity와 Relation 정보의 table 보기는 엑셀의 형태로 저장 할 수 있어 차후에 2차 분석을 할 때 유용하게 사용할 수 있다. 이 밖에도 웹 문서인 HTML 형태로 저장을 하면 Pathway Studio가 설치되어 있지 않은 곳에서도 웹을 통해 데이터들을 모두 볼 수 있으며 Pathway Studio의 고유 파일 형식인 .gpp 파일 포맷으로 저장을 할 경우에는 Pathway Studio가 설치되어 있는 사용자 간의 혹은 pathway 데이터를 백업 할 때 사용할 수 있다.

사용자 삽입 이미지
그림 5. Pathway 데이터 export 방식.


 2010년 5월 24일 현재 Pathway Studio는 7.1 버전까지 업데이트 되었으며 꾸준한 기능 향상과 데이터베이스 업데이트를 통해 항상 최신의 데이터를 제공하고 있다. Pathway Studio는 다양한 연구 분야를 비롯하여 제약회사를 포함한 전세계의 고객에 의해 사용되고 있다. Ariadne사에서는 고객들이 Pathway Studio를 효과적으로 사용할 수 있도록 case study를 다양한 형태로 제공하기도 하며 국내에도 매 년 몇차례 방문하여 세미나를 개최한 바 있다. 앞으로도 지속적인 기능 향상과 최신의 데이터베이스를 유지함으로써 국내의 많은 연구자들에게 도움이 될 것으로 생각된다.



Posted by 人Co

2010/05/31 08:40 2010/05/31 08:40

HGMD professional

Next generation sequencing의 발달로 인한 personal genomics가 가능해지면서 더욱 관심을 보이고 있는 데이터베이스가 있다. Biobase HGMD 데 이터베이스가 바로 그것으로 Human의 유전적 돌연변이에 의한 질병정보를 약 100,000만개 정도 담고 있다.

사용자 삽입 이미지

Figure 1. Biobase HGMD. Human의 유전적 변이에 의한 질병 정보 데이터베이스

HGMD는 현재 유전체 서열상의 변이로 인한 질병의 병변 및 유전자의 이름 그리고 유전체상의 위치 정보를 문헌정보에 근거하여 서비스하고 있다. 이러한 정보는 OMIM, Entrez Gene 그리고 Human Gene Nomenclature Committee를 포함한 대표 web-base 데이터들과 링크를 통해 변이에 의한 표현형, 구조적 정보들이 함께 제공되고 있다. 그 자세한 내용은 아래와 같다.


Feature


  • Up-to-date Mutation Data

  • Full Coverage of PubMed journals
  • Gene Centric Search
  • Mutation Centric Search
  • Reference Centric Search
  • Boolean Full Text Searching
  • View Mutation Data by Type
  • View Mutation Data by Disease/Phenotype
  • cDNA Sequences
  • Extended cDNA Sequences
  • Expanded Gene-specific Information
  • Expanded Mutation-specific Information
  • Advanced Search Tools
  • Mutation Viewer/Maps
  • Genomic Coordinates for Missense/Nonsense Mutations
  • Search for Functional Polymorphisms
  • HGVS Nomenclature for Missense/Nonsense Mutations
  • Links to Entrez dbSNP (using rs numbers)
  • Provision of Additional Literature References
  • Search/Display of Gene Ontology Terms
  • Downloadable Version

 HGMD Professional은 위와 같이 변이 정보에 대한 서열 정보, SNP정보, HGVS nomenclature 정보를 링크를 통해 서비스하고 있으며 이들의 조절 메카니즘과 관련된 transcription factor 정보도 함께 지원하고 있다. 더욱이 이러한 모든 정보의 근간이 되는 문헌정보를 함께 제공하고 있어 그 신뢰성이 매우 높다 하겠다.


HGMD tutorial


Expanded Search Engine : 최신의 데이터를 사용자 편의에 의한 주제 중심의 인터페이스로 제공하고 있다. 키워드 방식을 이용한 특정 유전자, 질병의 상태, 변이정보, 문헌정보를 통한 검색이 가능하며 알파벳 인덱싱을 통한 검색도 가능하다.


 

사용자 삽입 이미지

 Figure 2. HGMD advance search. 유전자명, 질병, 변이정보 등을 이용한 keyword 검색이 가능하다. 또한 특정 chromosome내에 존재하는 변이정보를 한 번에 검색 할 수도 있다.


또한 특정 chromosome 내에 존재 하는 모든 변이정보를 한 번에 확인 할 수 도 있으며 이들 정보는 모두 다운 로드 기능을 통해 local PC에 저장이 가능하여 필요할 때 언제든지 활용이 가능 하다(Figure 2).


키워드 검색을 통한 유전자 검색의 경우 Figure 3에서 보여 지는 것과 같이 관련 유전자에서 동반 되는 모든 변이 정보를 확인할 수 있다. Splicing에 의한 변이정보, small deletion, small insertion 그리고 SNP에 의한 정보도 함께 검색 할 수 있다. 또한 transcription factor 정보도 링크되어 다양한 원인에 의해 유발되는 유전적 질환의 생화학적 정보를 통합적으로 확인 할 수 있다.


사용자 삽입 이미지

Figure 3. 유전자 검색. 유전자 검색을 통한 다양한 변이 정보 및 질병의 병변, 유전체상의 위치정보, 유전자 발현 조절 정보를 확인 할 수 있다.


Biochemical information : Human의 변이 정보는 구분된 카테고리 정보에서 keyword로 검색이 가능하며 이들의 정보는 이후 모두 다운로드가 가능하다. 질병의 phenotype을 비롯한 유전체 상의 위치 정보, dbSNP와 같은 기존 참조 데이터베이스의 정보, motif, regulation, 참조 문헌 정보까지 한 번에 확인할 수 있다.


사용자 삽입 이미지

Figure 4. 변이 정보 검색 결과. 유전적 변이에 의한 DNA서열의 변화, 단백질 서열 변이, 참조 데이터베이스, phenotype, gene ontology, 참조 문헌 정보를 모두 다운 받을 수 있다.


Personal genomics 시대에 가장 필수적인 데이터베이스중 하나인 Biobase HGMD는 개인의 잠재적인 유전적 질환의 탐색부터 현재 발병중인 질환에 대한 치료 연구를 위해 많은 기초 데이터를 제공할 것으로 여겨진다. 많은 논문과 데이터베이스를 집대성하여 유전적 질환의 통합적 정보를 제공하고 있는 HGMD는 앞으로 더 많은 연구자들에게 도움이 될 것이다.






Posted by 人Co

2010/05/13 19:17 2010/05/13 19:17

BKL PROTEOME

  진핵생물의 세포내 조절 메카니즘은 전사 수준의 유전자 발현 조절과 이후 생성된 단백질 간의 조절 메카니즘으로 구분지어 볼 수 있다. 이들은 세포 밖 외부 신호로부터 target 유전자까지의 신호전달을 유기적으로 전달하며 다양한 루트를 통해 전달한다. 따라서 하나의 단백질과 유전자가 한 가지 기능만을 수행하기 보다는 다양한 단백질과 유전자들과의 상호 협력적인 관계를 통해 전체적인 세포내 항상성을 유지하게 된다.

Biobase는 이러한 총체적인 세포내 조절 메카니즘 분석을 위해 BKL TRANSFAC을 통해 전사수준의 세포내 조절 메카니즘 분석을 위한 resource 데이터를 제공하고, BKL PROTEOME을 통해 이후 단백질 수준의 조절 메카니즘 분석을 위한 데이터베이스를 서비스하고 있다.

2010년 현재 PROTEOME은 6개의 category로 구분된 데이터베이스로 운영되고 있다. Disease-biomarker associations 관심 있는 유전자 혹은 질병에 관련된 pathway, regulation networks, drug interaction 정보를 제공하며 단백질과 질병간의 조절관계를 모 식도를 통해 이해하기 쉽도록 다양한 정보를 제공하고 있다.

  • 자연계에서 일어나는 현상에 대한 인과 관계 및 예방을 위한 정보
  • mRNA의 과잉 발현, DNA mutation, altered protein의 activity와 관련된    질병정보
  • 해당 약물의 질병 메카니즘에 끼치게 될 영향 및 target 유전자에 가해질    잠재적인 예후 정보
  • 새롭게 찾아낸 단백질의 다양한 pathway 정보 및 관계 정보

 Drug-protein interactions 특정 약물에 의해 영향을 받는 대사회로 및 네트워크    정보를 제공하며, 이는 drug 개발을 위한 결정에 보다 직관적인 정보를 제공 한다.


  • Drugbank 로부터 7,000개의 drug-protein interaction 정보를 분석
  • Yeast에서 확인된 1,200개의 chemical regulation 정보
  • Human, yeast 그리고 worm에서 annotation된 12,000개의 drug interaction의 자세한 정보.

 Signaling, metabolic pathway, and expression regulation data 모식화 된 pathway 및 regulation networks 정보를 통해 세포내 조절 메카니즘을 총체적으로 이해 할 수 있도록 하였다.

  • 19,000 건의 signaling interactions
  • Fungal 유전자의 2,700개의 regulator정보
  • 5,100건의 pathway 정보
Yeast and worm models 관심 있는 질병, 병원체, pathway 연구를 위한 model organism으로 다양한 관련 정보를 제공한다.

  • S.cerevisiae, S.pombe - 질병, 노화, fungal pathogen, 바이오연료       그리고 그 외 기초 연구를 위한 모델 정보
  • C.elegans - 질병, 노화, miRNA technology, nematode pathogen         그리고 그 외 기초 연구를 위한 모델 정보
 Fungal pathogens 관심 18개의 human pathogen과 관련된 infection disease 정보 및 pathogen drug 개발을 위한 기초자료를 제공 한다.

  • C. albicans and other Candida species
  • Aspergillus species
  • Blastomyces species
  • Coccidioides immitis
  • Cryptoccocus neoformans
  • Histoplasma capsulatum
  • Pneumocystis species

 Plant Science public data와 전문가의 manual curation 데이터의 조합을 통한 식물 유전체 내의 pathway 정보와 resource data를 제공한다.


  • Arabidopsis, soybean, maize, sorghum, and rice
  • 다른 데이터베이스에서는 찾아 볼 수 없는 표현형과 발현치에 대한 정보
  • Cell signaling and metabolic pathway data
  • BAR을 통한 발현데이터 visualization
  • Sequence 정보를 이용한 규명되지 않은 단백질의 GO, domain정보

PROTEOME Tutorial


 Quick search BKL PROTEOM은 Gene/protein, disease, pathway, drug 그리고 keyword category를 통해 검색 할 수 있다. 원하는 유전자가 포함된 disease 및 pathway정보를 문헌을 통한 전문가의 curation으로 세포내 기능을 검색할 수 있다.

사용자 삽입 이미지
Figure 1. BKL PROTEOM quick search. 유전자, 질병, pathway, drug, keyword를 통해 원하는 정보를 손쉽게 검색할 수 있다. 또한 organism을 제한하여 많은 데이터들 속에서   원하는 정보만을 한 번에 검색 할 수 있다.

STAT3 단백질을 검색한 결과 기본적인 단백질의 대표 기능과 함께 다양한 데이터베이스에서 활용되고 있는 STAT3의 synonyms 정보를 서비스 한다. 또한 좀 더 세분화된 카테고리로 구분된 단백질의 정보를 서비스하는데, biomarker
associations, drug interaction, gene ontology, mutant phenotype, pathway, transcriptional regulation, protein feature, annotation에 관련된 세포내 총체적인  기능을 이해 할 수 있도록 서비스 하고 있다.

Biomarker association disease와 관련된 biomarker로 활용되고 있는 단백질의 정보를 서비스한다. 이러한 정보는 질병의 진단을 위해 혹은 질병 징후에 대한 연구를 위해 활용되고 있다(Figure 2).

사용자 삽입 이미지
Figure 2. Biomarker association. 질병과 관련한 단백질의 표지인자로 활용되는 정보를 서비스한다. 각 질병과 관련된 단백질의 상세 관계 정보는 질병을 클릭하여 자세히 확인 할 수 있다.


 Pathway interaction 단백질과 관련한 pathway 및 interaction 정보를 서비스 한다(Figure 3). Multi-function하는 단백질의 특성상 다양한 pathway와 interaction정보를 검색 할 수있으며 이들의 pathway는 모식도를 통해 graphical하게 확인 할 수 있다. Pathway상의 upstream, downstream에 존재하는 단백질과 관계정보를 총체적으로 살펴 볼 수 있으며 이들 정보는 모두 text 형태로도 변환이 되어 서비스된다.

사용자 삽입 이미지
Figure 3. Pathway & Interaction. 관심 있는 단백질이 포함된 pathway와 interaction정보를   모식도를 통해 서비스하고 있다.


Pathway 모식도는 figure 4에서 보여지는 것과 같이 대표 단백질로 간편화 하여 전
체적인 세포내 기능을 이해 할 수 있는 것(figure 4. A)과 관련 단백질의 모든 관계를 표시한 PathFinder(figure 4. B)로 구분 지어 있다. PathFinder는 많은 단백질의 관계 중에 보고자하는 특정 질병 및 drug 그리고 유전자 관련 pathway만을 지정하여 tag를 이용하여 표시함으로써 이해를 돕고 있다.

사용자 삽입 이미지
Figure 4. Pathway. Graphical viewer를 통한 pathway의 주요 단백질 만들 대상으로 전체적인 정보를 보여주는 것(A)과, PathFinder(B)를 통한 모든 관련 단백질의 관계를 포함한 질병 및 drug 정보를 자세히 살펴 볼 수 있다. PathFinder에서는 zoom-in/out을 통해 단백질간의 관계를 자세히 살펴 볼 수 있으며, 원하는 단백질, 질병, drug정보를 기준으로 직접적으로 영향을 주는 pathway에 하이라이트를 통해 보다 직관적으로 이해할 수 있도록 하였다.

Regulation 특정 단백질이 조절하는 다른 단백질 정보를 서비스하는 것으로 up-regulation, down-regulation 그리고 non-effect로 구분되어 있다(figure 5). Pathway상에서 찾아 볼 수 있는 정보를 보다 유연한 형태로 서비스함으로써 사용자 편의를 고려한 서비스라 하겠다.

사용자 삽입 이미지
Figure 5. Regulation. 단백질들 간의 조절 관계를 up-/down-regulation을 통해 정리하였다.

Annotation 단백질의 pathway 정보뿐만 아니라 expression정보, GO 정보, modification 정보, localization 정보를 비롯한 단백질의 모든 기능을 서비스한다.   이들 정보는 모두 전문가의 curation을 통해 정리된 것으로 참고가 된 문헌 정보는 모두 링크를 통해 서비스 되고있다(figure 6).

사용자 삽입 이미지
Figure 6. Annotation. 단백질의 다양한 function 정보를 서비스한다. Pathway를 비롯한 expression, domain, GO, mechanism, feature정보를 문헌정보와 함께 서비스하고 있다.


2010년 4월 업데이트를 통해 새롭게 서비스 되는 BKL PROTEOM은 이전 버전과 비교하여 사용자 편의를 고려한 서비스가 매우 강화 되었다. Export 기능을 통해 원하는 정보를 모두 다운로드 받을 수 있으며, 많은 정보 가운데 원하는 정보만을 선택적으로 살펴 볼 수 있도록 카테고리화 한 점도 이에 해당한다. 그러나 무엇보다 Biobase의 최대 장점은 문헌정보를 바탕으로 한 전문가의 curation으로 데이터의 신뢰성을 높였다는 것으로 BKL PROTEOM 또한 신뢰성 높은 데이터베이스를 제공하고 있다.


Posted by 人Co

2010/05/04 16:34 2010/05/04 16:34

BKL TRANSFAC

 Biobase의 대표적인 제품군인 TRANSFAC은 eukaryotic gene regulation을 분석하기 위한 최적의 기초 데이터를 제공하고 있다. Transcription factors, miRNAs, 그리고 이들과 관련된 유전자의 프로모터 정보를 비롯하여 ChIP-Seq 데이터로부터 1,000,000건 이상의 binding sites 정보, 57,000건 이상의 human RNA polymeraseII의 위치정보를 포함하고  있다. 이들 정보는 모두 실험적으로 증명 되었거나 논문에 게재된 정보를 전문가의 리뷰를 통해 정확하면서도 통합적인 이해를 할 수 있도록 하였다.

 2010년 현재 TRANSFAC®의 데이터베이스는 DNA binding, expression 그리고 regulation에 관련한 전문가의 manual curation을 다음과 같이 수행하였다.

사용자 삽입 이미지

이들 데이터는 실험적으로

  • transcription factor binding site나 혹은 composite elements를 증명하고자       할 때,
  • promoter sequence를 찾고자 할 때
  • miRNA targets을 찾고자 할 때
  • 관심 있는 영역에 binding 가능한 transcription factor를  찾고자 할 때
  • transcription factor들 간의 조절을 알고자 할 때
 실험에 앞서 가능한 factor들의 기초 정보를 제공하게 된다. 따라서 microarray를 통한 유전자 발현 패턴을 분석했다면 동일한 발현 패턴을 보이는 유전자들의 상관관계를 분석하는데 많이 이용되며, 약리 반응이나 신물질의 target을 밝히는 데에도 기초 자료로 인용되고 있다.


TRANSFAC®의 데이터 구성


 TRANSFAC® Professional은 공개된 데이터에 비해 약 4년 정도의 데이터가 업데이트되어 있는 상태로 그 데이터양은 promoter서열이 약 280,000건, 700,000건의 ChIP-chip/-Seq 데이터를 더 포함하고 있다(figure 1).

사용자 삽입 이미지
Figure 1. Public database와 Professional version의 데이터양의 차이


이들의 자세한 내용은 figure 2에서 보여 지는 것과 같이 transcription factor의 서열 정보를 비롯한 binding 가능한 site정보, 도메인정보, regulation 정보를 총체적으로 담고 있다.

사용자 삽입 이미지
Figure 2. Transcription factor feature. Transcription factor의 서열 정보, 종 정보, 조직 정보, 도메인 정보, binding site 정보, interaction protein 정보, regulation정보를 총체적으로 서비스하고 있다.

 GO category정보 및 pathway정보도 가능한 모두 서비스가 되고 있어 세포내 생물학적 기능을 종합적으로 분석하고자 할 때 기초자료로 많은 정보를 주고 있다(figure3).

사용자 삽입 이미지
Figure 3. Transcription factor의 function 정보. Factor간의 interaction정보, pathway 정보, inhibitor 및 activator와 같은 regulation 정보 등을 문헌자료를 통해 데이터베이스화하고 서비스한다.



미지의 서열에 binding 가능한 transcription factor search.


 특정한 발현 패턴을 보이는 유전자의 발현 조절 메커니즘을 분석 하고자 할 때 기본적으로 유전자의 upstream 영역에서 작용하는 transcription factor(TF)를 알아보게 된다. TRNASFAC®은 기본적인 transcription factor 및 binding site에 대한 정보를 제공함과 동시에 미지 서열에 binding 가능한 transcription factor를 예측할 수 있는 MatchTM, PatchTM, 그리고 Catch® 프로그램도 제공하고 있다(Figure 4).

사용자 삽입 이미지
Figure 4. TRANSFAC Professional의 TF search를 위한 PATCH. Pattern match를 통한 미지의 서열에 binding 가능한 TF를 search한다. 이때 false positive를 최소화하기 위해 찾고자 하는 TF의 종 정보를 제한하여 식물 유전자의 경우 식물 데이터베이스를 사용하고 mamalian 유전자의 경우 mamalian 데이터베이스를 사용한다. 또한 특정 찾고자 하는 TF만을 대상으로 할 경우 분석자에 의해 선택된 TF만으로 구성된 프로파일을 제작하여 분석할 수도 있다.


 MatchTM는 TF의 binding site를 matrix로 구성하여 찾는 방법이며, PatchTM는 서열의 pattern match 방법을 이용하여 찾는 방법이다. Catch®는 composite elements를 찾고자 할 때 사용하게 되는데 보통 이들 프로그램을 모두 사용하여 가능한 모든 TF를 찾고 실험에 이용한다. 또한 실험적으로 하나하나 규명할 수도 있으나 유전체 전체 유전자를 대상으로 분석하고자 할 때, 웹으로 운영되는 다음 프로그램에 서열을 하나씩 분석하기는 매우 어려우므로 local 서버나 PC에 설치하여 batch로 서열을 분석할 수도 있다. 이후 얻어진 유전자의 upstream 영역에서 작용하는 TF의 profile정보는 통계적 기법을 통해 유의한 TF를 선별하기도 하고, 데이터베이스화하기도 한다.

또한 얼마 전 덴마크의 CLCBio사와의 협력을 통해 CLCMainWorkbench 혹은 CLCGenomicsWorkbench의 plug-in 기능을 통해 TF정보를 visualization 할 수도  있게 되었다. 따라서 NGS에 의한 RNA-seq 정보 및 유전자 발현정보와 함께 전사조절 ,    메커니즘까지 확대하여 함께 분석할 수 있는 최적의 데이터를 제공하고 있는 것이다.

사용자 삽입 이미지




Posted by 人Co

2010/04/27 14:55 2010/04/27 14:55

BIOBASE 소개

인 맞춤 의학시대를 가능케 한 NGS(Next Generation Sequencing) 기술로 인해 이제는 더 이상 유전자 서열정보만을 밝히는 것이 큰 의미를 내포하지 않는다. 생명과학 분야의 궁극적인 목표인 생명현상의 이해를 위해서는 쏟아지는 서열정보를 잘 꿰어 그들의 매우 정교한 세포내 역할을 규명해야 한다. (주)인실리코젠에서는 이러한 연구를 위해 필수적으로 요구되는 몇 가지 데이터베이스를 소개하고자 한다.

 최근 nature에 발표된 Ancient human genome project에 이용된 전사 조절인자 데이터베이스로 유명한 TRANSFAC을 서비스하고 있는 Biobase는 전문가 리뷰에 의한 생물학적 데이터베이스와 소프트웨어 및 생명과학분야의 분석 서비스에 뛰어난 세계적 선두 기업이다.

사용자 삽입 이미지
1986년 시작되어 1997년 German Research Center for Biotechnology에서 파생되어 설립된 이후로 전사조절인자를 비롯한 유전자 조절 메카니즘 데이터베이스 분야에서 독보적인 위치를 차지해 오고 있다. 의학을 비롯한 제약회사 및 연구기관을 포함한 전세계 수많은  고객에게 서비스를 제공하고 있으며, 생명과학 분야의 다양한 논문에서 현재의 데이터가 인용되고 있다.

 Biobase 제품군의 가장 큰 특징은 생물학 전문가들에 의한 데이터의 검토와 수정을 통해 지속적으로 업데이트된다는 것이다. 날마다 논문을 통해 쏟아지는 생명과학 분야의 다양한 데이터를 전문가의 리뷰를 통해 BIOBASE Knowledge Libray(BKL)로 재탄생 시켜 제공하고 있고 이들 데이터의 이해를 극대화 시킬수 있는 ExPlainTM을 서비스 함으로써 drug 혹은 biomarker 개발에 많은 연구자들이 효율적으로 활용 할 수 있도록 하고 있다. 그 서비스 목록은 크게 세 가지로 분류 된다.

1) BKL TRANSFAC

2) BKL PROTEOME

3) HGMD professional


 첫 번째,  TRANSFAC은 유전자 조절분야에서 세계 유일의 데이터베이스이며 표준이 될 정도의 고품질 데이터를 보장하고 있다. 이러한 평가는 The U.S. Bioinformatics Market의 보고에서도 TRANSFAC®을  주요 생물정보 툴 중 하나로 꼽는 등 세계적으로 높은 평가를 받고 있다. TRANSFAC suite에는 전사 조절인자와 관련된 모든 정보를 담고 있다.
Transcription factor, transcription factor binding site, 그리고 composite elements의 총체적인 정보로 구성되어 있으며, 유전자 돌연변이와 유전자 돌연변이에 관련된 질병에 관한 데이터베이스인 PathoDBTM 그리고 regulatory chromatin domain 정보를 담고 있는 S/MARtDBTM도 포함하고 있다.

사용자 삽입 이미지

 두 번째, PROTEOME은 단백질 수준의 조절, 즉 pathway정보를 제공하고 있다. 6개의 데이터베이스로 YPD(s.cerevisiae), HumanPSD, GPCR-PD, WormPD, MycoPath PD 그리고 PombePD(s.pombe)로 구성되어 기능이 밝혀진 최대한의 단백질을 활용하여 세포내에서의 pathway 조절 메카니즘을 총체적으로 이해 할 수 있도록 정보를 제공하고 있다. 이들 데이터는 관련 질병정보를 비롯한 참조논문과 데이터의 품질 정보를 모두 제공함으로써 다양한 생명과학 분야에서 인용되고 있다.

 마지막 HGMD는 human의 유전자 돌연변이 데이터베이스로 유전에 의한 질병관련 정보를 서비스하고 있다. Germ-line 돌연변이 데이터를 중심으로 주어진 유전자와 관련된 돌연변이 정보를 제공하고 있다. 2006년 이후 꾸준한 데이터베이스의 축척으로 2009년 3월 95,000건에 달하는 돌연변이 정보를 보유하고 있으며, 병변을 비롯한 서열정보, 유전체에서의 위치정보, 본래 특성 정보등 상세한 관련 정보를 제공 하고 있다.

 앞서 밝힌 내용과 같이 Biobase 제품군은 세포내 발현 조절과 관련된 총체적인 데이터베이스를 제공한다. 전사 수준의 발현조절인 promoter 분석(TRANSFAC), 단백질 수준의 pathway 분석(PROTEOM), 이후 phenotype과 관련된 유전적 질병 정보(HGMD) 등을
제공하며 다양한 생명과학 분야에 고품질의 데이터를 제공하고 있다.

다음 주부터 앞으로 3주 동안, 오늘 간략하게 말씀드린 Biobase 제품군의 세 가지 데이터베이스에 대하여 한 주에 하나씩 좀 더 자세한 내용으로 소개해드릴 예정입니다.  

여러분들의 많은 관심 부탁드립니다.
감사합니다.






Posted by 人Co

2010/04/19 15:07 2010/04/19 15:07

지난 3월 11일, (주)인실리코젠CLC bio사, 그리고 서울대학교 식물유전체육종연구소와의 NGS 데이터 분석을 위한 기술적인 정보 교환과 공동 연구 개발 및 컨설팅을 위한 프로모션 등의 내용에 대하여 MOU를 체결하였습니다.

이번 MOU 체결식에는 (주)인실리코젠의 최남우 대표이사님, 서울대학교 식물유전체육종연구소의 소장님이신 고희종 교수님, CLC bio사의 아시아 마케 총괄 담당을 맡은 Wayne Hsu가 CEO인 Thomas Knudsen를 대신하여 참석하였으며, Next Generation Sequencing 기술을 바탕으로 한 식물의 게놈 분석을 위하여 그 동안 수행했던 프로젝트의 다양한 경험들과 기술적인 능력들을 공유하기로 동의하였습니다.

사용자 삽입 이미지
왼쪽부터 CLC bio사의 Wayne Hsu, 서울대학교 고희종 교수님, (주)인실리코젠의 최남우 대표이사님


서울대학교 식물유전체육종연구소는 막대한 양의 NGS genome 데이터 분석에 중요한 기술적인 문제를 해결할 수 있는 강력한 파트너들을 갖게 됨으로서, CLC bio사의 NGS 데이터 분석을 위한 생물적보학 솔루션과 (주)인실리코젠의 고품질의 컨설팅 서비스를 모두 지원 받을 수 있게 되었고 또한 국내에서 뿐만 아니라 국제적으로 생물정보학과 식물 과학 분야에서 중요한 경쟁력을 갖게 될 것으로 생각됩니다.


사용자 삽입 이미지
이번 MOU 행사는 한국과 아시아의 NGS를 이용한 유전체 연구에 새로운 장을 마련한 것으로, (주)인실리코젠CLC bio사서울대학교의 NGS 분석 관련한 프로젝트를 성공시키는데 최선의 지원을 해줄 것을 약속하였습니다.



Posted by 人Co

2010/04/12 17:52 2010/04/12 17:52

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis


이번 연재에서는 현재까지 공개  데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 Gene Network Discovery by Text-mining에 대해 알아보겠습니다.


3-4. Gene Network Discovery by Text-mining


 최근의 생물학 연구의 이슈는 데이터를 생산하는 것보다 현재까지 공개 데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 부분에 있다. 즉 데이터의 ‘생산’에서 ‘연결’로 생물정보학의 관점이 옮겨가고 있다고 할 수 있다. 따라서 다양한 분야의 실험데이터, 문헌데이터, 공개데이터 등을 네트워크 형식으로 연결하여 새로운 지식을 발굴할 수 있는 시스템이 주목받고 있다.

현재 NCBI의 PubMed에는 18,000,000건 이상의 논문들이 수록되어 있으며, 하루에도 수  십편의 논문들이 새롭게 업데이트되고 있다. PubMed에 수록되어 있는 저널들은 의학, 생명, 생물에 관련된 연구 논문들이며, 오랜 기간에 걸쳐 저널의 정보에 대한 공신력이 검증된 논문들이라고 할 수 있다. 따라서 연구자가 새로운 주제를 기반으로 하여 연구를 시작하고자 할 경우, 가장 선행되어져야 하는 것은 논문 리뷰라고 할 수 있다. 다른 사람이 비슷한 연구를 수행한 경험이 있는지, 어떠한 방법에 의해서 연구가 진행되었는지, 또한 그 결과는 어떠하였는지 등을 참조하게 된다. 이와 같은 논문 리뷰가 선행된 후 자신의 연구 방향을 설정하게 된다. 그만큼 다른 사람에 의해서 분석되어진 연구 정보가 최근 들어서는 상당히 중요하다고 할 수 있다. 더구나, 최근에는 인터넷을 이용한 데이터의 정보교환이 활발하여 엄청나게 많은 문헌 정보들을 손쉽게 찾아볼 수 있기 때문에 일정한 부분에서는 직접 실험을 하지 않더라도 그와 유사한 실험을 수행한 결과물을 얻을 수 있다. 따라서 이와 같은 문헌 정보의 모래 언덕을 잘 살펴서 보물을 찾아낼 수 있는 방법들이 주목을 받고 있다.

한 예로 Ariadne사의 MedScan과 Pathway Studio는 텍스트 마이닝이라는 컴퓨터 알고리즘을 이용하여 주어진 문헌 정보에서 유전자와 질병, 화학물질, 세포내 프로세스, 대사회로와 같은 엔티티(Entity)들의 관계를 자동으로 추출하여 테이블과 다양한 그래프로 관계들을 보여주는 프로그램으로 대사회로, 유전자 조절 네트워크, 단백질 상호작용 맵과 같은 실험결과를 이해하는데 상당히 유용하다(그림 7). Pathway Studio는 척추동물, 식물 연구의 생물학적 연관관계, ontology와 pathway들의 정보를 포함하고 있는 ResNet 데이터베이스와 자연언어처리기술을 이용하여 과학문헌을 자동으로 읽고 생물학적인 관계를 추출하는 기능을 가진 MedScan으로 구성되어 있다. MedScan의 경우에는 약 1천개의 논문 초록을 대상으로 생물학적인 관계를 추출하는데 2~3분밖에 걸리지 않으므로, 대량의 수집된 논문에서 특정한 바이오마커를 발굴하거나 특정 단백질 또는 질병과 관련된 네트워크 정보를 검토하기에는 상당히 유용하다고 할 수 있다.
 
보통 하나의 유전자와 관계하는 다양한 정보를 찾아보기 위해서는 수많은 데이터베이스와 문헌, 웹사이트를 검색하여 그 연관관계를 하나씩 도출해야 되지만, Pathway Studio와 같은 프로그램은 그와 같은 일련의 시간과 노동력이 상당히 투자되어야 하는 업무를 효율적으로 지원함으로써 연구자의 보다 빠르고 충실한 결과물을 얻을 수 있도록 지원한다.

사용자 삽입 이미지
그림 7. Architecture of MedScan and Pathway Studio

그림 8은 Cholestasis에 관련된 약물과 단백질 등의 연관관계를 Pathway Studio를 이용하여 연구자가 쉽게 이해할 수 있는 방식의 그래프로 재구성한 것이다. 이와 같은 방법으로 복잡한 질병과 약물, 단백질 및 대사 작용의 네트워크를 시각적으로 이해하기 쉽게 제공하고 있다.

사용자 삽입 이미지
그림 8. Pathway Studio workflow diagram


그림 9는 EMB라는 유전자를 대상으로 관련 있는 다양한 유전자 및 질병, 약물, 세포내  프로세스 등을 연결한 그래프로서 연결되어있는 라인을 클릭하면 그림과 같이 연관관계를 표현하는 문헌정보를 확인할 수 있어 연관관계의 정확성 및 신뢰성을 뒷받침하고 있다.

사용자 삽입 이미지
그림 9. Entity와 Relation의 네트워크 및 관련 문헌의 확인


그림 10은 PubMed에서 Curcumin과 Prostate Cancer에 관련된 논문을 검색하여 수집된 수 십 여 편의 논문에서 MedScan의 텍스트 마이닝 알고리즘을 이용하여 네트워크를 재구성한 것이다. 그림에서 보는 것과 같이 Curcumin과 Prostate Cancer 사이에 있는 단백질이 Prostate Cancer를 억제하는 역할을 한다는 정보를 검증된 문헌을 통해서 확인하는 것이다.


사용자 삽입 이미지
그림 10. MedScan을 통한 문헌정보의 네트워크 구성


다음 연재에서는 NGS Edition의 마지막 연재로 대용량의 데이터를 다루기 위한 Centralization for High-throughput Data Analysis에 대해 알아보도록 하겠습니다.

많은 관심 부탁드립니다.


Posted by 人Co

2010/04/05 15:44 2010/04/05 15:44

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
  7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 Semantic Network for Integrated Biology Data에 대해 알아보겠습니다.



3-3. Semantic Network for Integrated Biology Data

 
 여있는 유전체 데이터와 각종 실험을 통해서 얻어진 수많은 데이터 사이에서 새롭게 응용할 수 있는 지식은 무엇일까? 인터넷이 발달된 최근에는 인터넷 쇼핑이 괄목할 만한 성장을 보이고 있으며, 고객들에게 좀 더 좋은 정보를 제공하고자 다양한 알고리즘 및 분석기법을 적용하고 있다. 예를 들어서 상품을 주문한 고객의 구매 목록에 대한 특징을 찾아서 비슷한 성향의 신제품이 있으면 자동으로 고객에게 이메일로 상품광고를 전달하는 것과 같은 맞춤형 광고기법이 한 예일 것이다.

이와 맞물려 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 방법을 찾고자 하는 연구들이 진행되고 있으며, 이와 관련한 의미론적 지식 정보 추출을 위한 시스템이 개발되고 있다. 또한 최근의 연구 동향은 단순히 데이터를 생성하고 쌓아두는 것 보다 각 생물학 데이터들의 연관관계를 도출하여 어떻게 각 데이터들을 연결하여 새로운 정보를 발굴할 것인가라는 ‘How to link between the data’에 초점이 맞추어져 있다.

축적된 생물학 데이터에서 새로운 의미를 발굴할 수 있도록 지원하는 시스템 가운데 Biomax Informatics AG사 BioXM 지식관리 시스템을 꼽을 수 있다. BioXM 은 연구실 및 센터의 다양한 생물, 생명, 의학 관련 데이터에서 의미론적 정보를 추출할 수 있도록 데이터의 시맨틱 네트워크를 구축하는 플랫폼이다(그림 2).

사용자 삽입 이미지
그림 2. 데이터의 시멘틱 네트워크 흐름도

이미 미국 국립암센터(NCI)와 연계하여 시스템을 운용, 활용하여 암에 관련된 실험정보 및 분석정보, 문헌정보를 통합한 시스템을 구축한 바 있다(그림 3).

사용자 삽입 이미지
그림 3. BioXM의 데이터 통합 개념

이와 같은 지식관리 시스템은 기존에 구축한 수많은 실험정보, 분석정보, 문헌정보들 사이의 연관관계를 도출하여 새로운 의미를 찾고자 하는 바램을 충족시켜준다. 대다수의 시스템들이 RDBMS 형식의 데이터베이스로 구축되어 있으므로, 모든 데이터의 통합에 의한 새로운 형태의 의미를 발굴하기 위해서는 기존 시스템보다 더 확장된 형태의 데이터베이스 구축 및 IT 시스템 구축이 선행되어진다. 하지만 이와 같이 단순히 시스템의 확장 구축을 통해서는 얻어질 수 있는 데이터의 유기적 연관관계는 한계를 보이게 된다. 또한 데이터베이스의 확장이 진행될수록 생물학자들의 지식이 더 많이 요구되지만 IT와 BT 전문가의 상호 생각의 차이로 인해 최종적으로는 생물학자들이 원하는 형태가 아닌 별개의 시스템으로 구축되는 경우가 다반사이다. 이에 반해 BioXM 지식관리 시스템은 기존 데이터들을 새로운 데이터베이스 스키마를 설계하여 통합 연계하는 것이 아니라 각 생물학 데이터의 기존 의미를 알고 있는 연구자가 퍼즐을 맞춰가는 방식과 같이 edge와 node의 꼬리에 꼬리를 무는 방식으로 데이터들을 선택하여 서로 연계된 데이터들을 통합하고 관리하는 지식관리시스템이다. 이와 같은 방식으로 BioXM은 Genomics, Transcriptomics, Proteomics 등 다양한 omics 데이터들과 문헌정보 등을 손쉽게 통합할 수 있을 뿐만 아니라 다양한 방법으로 데이터를 조합하여 연구자가 알고자 원하는 질문에 알맞은 답을 얻도록 지원한다.

사용자 삽입 이미지
그림 4. Object와 Relation에 대한 개략적인 데이터 모델


그림 5는 환자에 관한 질병과 질병에 관련된 유전자와 대상 약물 및 임상실험과 같은 다양한 정보를 이용하여 그래픽 사용자 인터페이스 형태로 모델링을 구현한 사례를 보이고 있다. 지금 그림에서 보이고 있는 데이터 이외에 다양한 정보가 있을 경우에도 동일한 방법으로 모델링을 구현하여 좀 더 폭넓은 데이터 연관 관계도를 생성할 수 있다.

사용자 삽입 이미지
그림 5. BioXM 데이터 모델링 구현


BioXM 지식관리 시스템의 특징 및 장단점은 표 1과 같다.

사용자 삽입 이미지
암을 연구하는 연구자들은 자신이 가지고 있는 데이터를 이용하여 다음과 같은 다양한 궁금증을 표현할 수 있으며, BioMax사의 BioXM과 같은 시스템을 이용하여 각 데이터들의 네트워크를 구축하면 궁금증에 대한 답변을 얻을 수 있을 것이다. 이와 같은 지식 발굴 시스템은 다음과 같은 문제점을 해결하는데 도움을 줄 수 있다(그림 6).

사용자 삽입 이미지
사용자 삽입 이미지
그림 6. BioXM 시스템을 이용한 지식 네비게이션


다음 연재에서는 현재까지 공개  데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 Gene Network Discovery by Text-mining에 대해 알아보겠습니다. 많은 관심 부탁드립니다.



Posted by 人Co

2010/04/01 15:00 2010/04/01 15:00

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
  5. Genome Annotation
   6. Next Generation Bioinformatics
  7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 웹 2.0 시대에 맞추어 다양한 분야에서 생산된 데이터를 효율적으로 관리하는 방법에 대해 알아보겠습니다.

3-2. Data Management for Web 2.0 Era


 근 들어 웹 2.0에 대한 논란이 뜨겁다. 비단 IT에서 뿐만 아니라 일상생활에서도 웹 2.0이라는 용어는 어렵지 않게 들을 수 있게 되었다. ‘O'Reilly Media’에서 2003년 처음 사용하기 시작하면서부터 대중화 된 웹 2.0에 대한 정의를 위키피디아에서는 이렇게 정의하고 있다. 단순한 웹사이트의 집합체를 웹 1.0으로 보고 있다면, 웹 2.0은 웹 애플리케이션을 제공하는 하나의 완전한 플랫폼으로의 발전이다(그림 1)[2].

사용자 삽입 이미지
그림 1. Web 2.0이란?

 웹 2.0이 세상에 알려진 지 불과 몇 년 밖에 되지 않았으나, 이제는 누구나가 쉽게 웹 2.0 으로 구축된 사이트에 자신의 데이터를 올리거나 다른 사람의 데이터를 다운로드 받는 등 이전보다 능동적으로 웹을 활용하고 있다. 위키라는 개념으로 접근한 웹 2.0은 대영백과사전으로 알려져 있는 브리태니커 백과사전보다 더 많은 정보를 담고 있어 세계 최대의 백과사전으로 기네스북에 기록되어 있다. 2001년 1월 출범하여 2006년 12월에 기네스북에 인정되기까지 불과 6년의 짧은 기간에 엄청난 정보가 모이게 된 가장 큰 원동력은 웹 2.0 시대에 맞춰 운영자가 절대 개입하지 않는다는 원칙하에 모든 방문자가 스스로 글을 읽고 쓸 수 있게 한 것이다. 정보의 양을 기준으로 한다면 다양한 사람들이 생산하는 데이터가 한 명이 작성한 글보다 훨씬 클 수 있으며, 다양한 사람들에 의해서 읽혀지고 수정되어 보다 정확한 정보들로 탈바꿈할 수 있다는 것이다.

 (주)인실리코젠에서는 웹 2.0 시대에 맞추어 위키 시스템을 활용한 홈페이지 형식의 지식관리시스템을 재구성하였다. 이를 이용하여 프로젝트 단위의 연구에서 공동 연구자들 사이의 데이터 공유 또는 미팅과 관련된 로그 관리 등을 효율적으로 운영하고 있다. 개별 연구자들이 각자 분석업무를 업로드하고 관련 연구자들이 업데이트된 데이터를 다운로드 받거나 웹상에서 오류나 문제점을 수정, 지적하여 최종적으로는 다양한 연구 전문가 그룹에 의한 완성된 연구 결과를 도출하는 방식을 취하고 있다. 이와 같은 방식의 연구 관리는 데이터가 실험실에 존재하는 것이 아니라 웹상에 존재하면서, 인터넷만 연결된 환경에서는 장소, 시간에 관계없이 공통의 주제를 가지고 분석 업무를 수행하고 데이터를 보완 할 수 있다는 장점이 있다. 한 사람의 불완전한 지식에서 시작하여 공동 연구자 또는 다른 전문가의 지식을 포함하여 완전한 지식을 유도하는 방향을 추구하고 있는 것이다.

이처럼 다양한 분야의 생물학 영역에서도 웹 2.0의 장점을 백분 발휘하여 데이터를 축적하고, 보완하고, 관리하는 흐름을 엿볼 수 있다. 최근에는 웹 2.0의 장점에 덧붙여서 다양한 분야에서 생산된 데이터를 어떻게 의미론적으로 재분류할 수 있는가에 보다 많은 관심이 집중되고 있다. 기존에 존재하는 지식 자원을 연구자가 검색, 통합 및 관리하기 편리하도록 의미기반 온톨로지 사이트로 구축하는 것이다. 그리하여, 최근의 많은 포탈검색사이트에서 입력된 검색어에 관한 다양한 관련 정보를 추출하여 보여주는 의미론적 검색 방법을 개발하였으며, 한국인들이 가장 많이 검색하는 네이버에서도 의미검색사이트를 개발하여 서비스하고 있다.

다음 연재에서는 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 Semantic Network for Integrated Biology Data에 대해 알아보겠습니다.

많은 관심 부탁드립니다.

참고문헌

 2. http://ko.wikipedia.org/wiki/Web2.0



Posted by 人Co

2010/03/30 14:53 2010/03/30 14:53
, , , , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/65



« Previous : 1 : 2 : 3 : 4 : 5 : 6 : 7 : Next »