연재 순서

 1. PathwayStudio 소개
 2. 문헌정보를 활용한 유전자 네트워크 분석
 3. Chip 실험 데이터에서의 유전자 네트워크 분석
 4. Drug 발굴을 위한 지식 데이터베이스 ChemEffect


약물 작용과 효과의 profiling을 위한 ChemEffect Database


 현재 지구상에는 약 800만 종의 화학물질이 존재하고 그 중에서 8만여 종이 상업적으로 생산, 판매되고 있다고 한다. 우리나라에서 사용되는 화학물질의 종류는 약 1만여종으로 매년 증가하고 있다. 이러한 화학물질 가운데 사람의 유전자에 영향을 미치는지 파악하기 위해서는 DNA chip실험을 통한 분석 및 다른 다양한 실험을 통해서 판별이 가능하다.

 약제로 개발되는 화학물질의 경우 인체에 부작용을 일으키는지 여부는 실험을 거치지 않고서는 판별할 수 없다. 최근 들어, 독성유전학이라는 분야가 새로운 연구로 각광을 받고 있으며, 산업 현장 및 일상생활속에서 접하고 있는 중금속이 인체의 유전자에 미치는 영향을 파악하고자 하고 있다.

 AriadneGenomics사 에서는 이러한 화학물질의 특성 및 유전자에 영향을 미치는 지 여부 등을 기존의 논문 정보와 실험 정보등을 통해서 “ChemEffect” 라는 데이터베이스를 구축하여 서비스를 제공하고 있다.

 ChemEffect 데이터베이스는 화학물질인 small molecular가 gene과의 연관관계 및 cellular processes에서의 역할들에 대한 다양한 정보를 담고 있다. 이 정보는 약물의 화학물질에 대해서 독성과 compound 타입에 의한 부작용을 프로파일링 하거나 효소정보를 찾을 때, 독성과 약물 메커니즘 사이의 관계를 결정 지을 때 그리고 대체 물질을 찾을 때 많은 도움이 된다.

사용자 삽입 이미지
그림 1. ChemEffect 데이터베이스의 Small molecule과 protein의 다양한 관계 정보.

ChemEffect 데이터베이스를 이용하면 아래와 같은 문제들을 빠르게 해결할 수 있다.

  • 후보 약물과 관련된 pathway와 연결되어있는 질병을 확인할 때,
  • Target pathway 또는 Target protein에 영향을 미치는 compound를 발견하고자 할 때,
  • Compound에 의해 영향을 받는 Target protein을 찾을 때,
  • Compound와 관련 있는 부작용에 대한 연구를 할 때,
  • 약효, 독성, drug-drug 작용과 같은 잠재적인 결과와 compound 사이의 관계를 설계 할 때,

ChemEffect 데이터베이스의 구성


 ChemEffect는 NLP(Natural Language Processing) 기술을 응용하여 과학문헌 정보에서생물학적인 정보를 추출하는 MedScan과 추출된 정보를 이용하여 다양한 정보들 간의 네트워크를 그래픽적으로 표현할 수 있는 PathwayStudio로 구성되어 있다.

사용자 삽입 이미지
그림 2. ChemEffect 데이터베이스 Component 구성. MedScan을 이용하여 Text 정보를 추출하고 추출된 데이터는 ChemEffect 데이터베이스에 저장된다. 이후 데이터베이스의 데이터들을 활용하여 PathwayStudio에서 는 데이터들 사이의 관계를 그래픽으로 표현하여 하나의 메커니즘으로 생성된다.


ChemEffect 데이터의 구성


 ChemEffect의 데이터는 앞서 말한 것과 같이 MedScan의 텍스트-마이닝 기법을 이용하여 추출된다. Pathway Studio의 기본 데이터베이스인 ResNet Mammalian 데이터베이스와 결합된 ChemEffect에는 NCBI PubMed에 투고된 논문 정보로부터 추출된 Entity, Relations 정보 이외에도 기존에 알려져 있는 Pathway, Ontologies, Annotation 정보들도 함께 포함하고 있어 보다 다양한 정보를 얻을 수 있다.

사용자 삽입 이미지
Table 1. ChemEffect 데이터 구성 표(2.0 version).



ChemEffect 데이터베이스를 활용한 Workflow


 ChemEffect 데이터베이스를 활용해서 1차적으로 보고자 하는 drug 또는 small molecule에 대해 지식 기반의 프로파일링을 수행 할 수 있다. 예를 들어 Sorafenib라는 Small molecule의 1차 검색을 통해서 이 small molecule과 관련 있는(Metabolized by, Directly Inhibits, DownRegulates, UpRegulates) 단백질 정보와 Sorafenib에 의해 Inhibit되고 Activate하는 cell processes에는 어떤 것들이 있는지 프로파일링 정보를 얻을 수 있다. 모든 정보에 대해서는 이를 뒷받침하는 문헌 정보와 링크가 되어 있어 바로 확인이 가능하므로 분석된 데이터에 대한 신뢰성이 상당히 높다고 할 수 있다.

사용자 삽입 이미지
그림 3. Small molecule(Sorafenib)에 대한 knowledge profile 정보.


 더 나아가서는 Drug Discovery를 할 때 다양한 Application에서 ChemEffect 데이터베이스를 사용할 수 있다. In silico 단계에서 Target을 validation 할 때, In vitro 단계의 Lead Optimization, In vivo 단계에서의 Candidate Nomination/Preclinical 이 세 가지 모든 과정을 통합하고 해석하고 마지막으로 최종 결정에 이르기까지 유용하게 응용 될 수 있다.

사용자 삽입 이미지
그림 4. Drug discovery의 세 단계 Application. 각 단계를 통합, 해석, 결정하는 데 있어서 다양한 Application에 ChemEffect 데이터베이스를 사용하여 Drug discovery를 할 수 있다.

Posted by 人Co

2010/06/28 17:39 2010/06/28 17:39

연재 순서

 1. PathwayStudio 소개
 2. 문헌정보를 활용한 유전자 네트워크 분석
 3. Chip 실험 데이터에서의 유전자 네트워크 분석
 4. Drug 발굴을 위한 지식 데이터베이스 ChemEffect


MedScan의 필요성


 과학 문헌의 대표적인 데이터베이스인 NCBI의 PubMed는 시간이 지날수록 등록되는 문헌의 수가 급속도로 증가하고 있으며, 최근에는 약 1,900만건 이상의 문헌들을 서비스하고 있다. 즉, 증가의 추세로 볼 때 하루에 약 4,100여건의 문헌이 업데이트되고 있다. 문헌이 기하급수적으로 증가함에 따라 관련 연구에 대한 정보를 찾기 위해서 연구자들은 점점 더 많은 시간과 노력을 기울여야 한다. 이에 따라 문헌 속에서 생물학적인 정보를 자동으로 추출하는 시스템의 필요성이 증가하고 있다.

사용자 삽입 이미지
그림 1. NCBI PubMed 문헌의 증가 속도.


MedScan의 특징


 이번 블로그에서는 PathwayStudio와 연계된 프로그램으로 PubMed, Google, 그리고 PDF, DOC 형식으로 된 문헌에서 텍스트 마이닝 기법으로 생물학적인 의미가 있는 데이터를 자동으로 추출하는 MedScan에 대해 소개하고자 한다. 데이터를 추출할 때 사용되는 텍스트 마이닝 기법은 복합 문서와 인터넷 페이지 등과 같은 비정형 데이터로부터 자연언어처리 기술과 문서처리 기술을 적용하여 유용한 정보를 추출하고 가공하는 기술을 말한다.

사용자 삽입 이미지
그림 2. MedScan 시스템.

텍스트 마이닝 기법을 이용한 MedScan은 아래와 같은 특징들을 가지고 있다.

  • 생물학적인 문헌에서 정확하게 데이터를 추출할 수 있도록 과학적 언어에 Focusing
  • 생물학 전문가에 의한 정보의 수정 및 Dictionary라고 정의된 Mammalian, Plant에 특화된 텍스트 마이닝
  • 2분안에 918개의 abstract 다운로드, 7,700개 문장 리뷰, 7,300개 entity와 577개의 relation 관계 확인을 동시에 할 수 있을 정도의 빠른 속도
  • 동일한 주제의 연구 정보에 대한 중복성 제거
  • 생물학 전문가의 수정 및 지속적인 검증을 통한 10% 이하의 낮은 False positive 데이터
  • Dictionary 및 검색 패턴을 연구자 의도에 따른 customization 가능

Tutorial


 MedScan은 Pathway Sutido를 통해 실행시킬 수 있다. 실행된 화면은 그림 3에서 보는 것과 같이 사용자가 친숙하게 사용할 수 있도록 인터페이스가 구성되어 있다. MedScan에 서 문헌을 검색하기에 앞서 먼저 Catridge를 선택한다. Human, Mouse, Rat과 같은 mammal에 대한 검색을 할 때에는 Standard catridge를 선택하고, Plant와 관련된 검색을 할 때에는 Plant catridge를 선택한다. 간단하게 설정을 마치고 나면 검색을 수행할 수 있다.

사용자 삽입 이미지
그림 3. MedScan 인터페이스.



문헌 검색

 
 검색은 Popular Destinations과 Quick Import 두 가지 검색 방법을 이용한다. Popular Destinations에서는 Search PubMed, Search BioMed Central, Search HighWire Press, Search Google Scholar, Search Google 다섯 가지의 검색 할 수 있는 destination(그림 4)이 제공된다. 각각을 클릭하면 MedScan에서 바로 웹 사이트로 연결이 되어 인터넷 창을 따로 띄우지 않고도 검색을 수행 할 수 있도록 되어 있다. Quick Import 검색은 웹 사이트로 직접 연결하여 데이터를 검색하는 것보다 조금 더 빠르고 편리한 방법이다. 웹사이트에 연결하지 않고 바로 쿼리를 입력할 수 있도록 되어 있어서 Import PubMed Dataset에 쿼리를 입력하고 Query and Import 버튼을 클릭하면 기본적으로 PubMed abstract에서 1000개까지의 abstract을 추출해 준다.

사용자 삽입 이미지
그림 4. MedScan 검색 방법. 1) Popular Destinations 2) Quick Import

 Popular Destination 검색 가운데 “Search PubMed”를 선택하면, NCBI의 PubMed와 동일한 화면을 볼 수 있다. NCBI의 PubMed에서 문헌을 검색할 때와 동일한 방법으로 알고자하는 쿼리를 입력하고 검색을 수행한다. PubMed에서 문헌을 검색할 때 Display Setting을 Abstract로 변환하고, 페이지당 보여지는 문헌의 개수를 200개로 변환하면 더욱 더 많은 정보를 추출할 수 있다는 것을 염두해두자. 검색된 Abstract에서 검색하고자 했던 쿼리와 관련이 있는 정보들이 있는 문장은 노란색 배경처리되어 표시되고 생물학적인 의미를 지니고 있는 단어는 초록색으로 표시가 된다. 표시가 된 부분은 자동으로 Entity와 Relation으로 추출되어 우측 상단의 테이블 형태로 정리가 된다.

검색 결과


 검색 결과가 정리된 우측의 테이블은 Relation tab과 Entities tab 두 가지 tab으로 결과가 정리되어 있다. Relation tab을 보면 첫 번째 컬럼은 Reference 문헌의 개수를 의미하고 두 번째 컬럼은 Entity 1, 세 번째 컬럼은 Relation 관계 정보를 마지막 네 번째 컬럼은 Entity 2를 나타낸다. 상단 도구모음의 View를 클릭하면 데이터를 컬럼별로 정렬하여 볼 수 있도록 되어 있다. 각각의 컬럼을 정렬해가면서 원하는 데이터만 키보드의 Shift 또는 Ctrl을 사용하여 선택한다. 그런 다음 선택된 데이터만 아래의 Known Relation 테이블로 이동시킨다. Known Relation 테이블에서도 다시 한 번 view를 통해 정렬을 하여 컬럼을 선택 할 수 있다.

 그렇게 해서 최종적으로 선택된 데이터들만 가지고 Pathway Studio로 이동시킨다. 선택된 데이터에서 마우스 오른쪽을 누른 뒤 send to pathway studio 클릭한다. Pathway Studio를 다시 실행 시켜 보면 MedScan에서 보낸 데이터를 Import 할 수 있는 창이 떠있고 여기에서 pathway를 저장 할 디렉토리를 선택해주고 Next를 클릭한다. Import가 완료되고 해당 디렉토리로 가면 MedScan에 서 보낸 데이터 정보를 이용하여 그려진 pathway 파일이 생성되어 있는 것을 확인 할 수 있다.


사용자 삽입 이미지
그림 5. MedScan 검색 결과.

  이밖에도 MedScan에서는 직접 사용자가 가지고 있는 텍스트, 워드, pdf, XML 또는 HTML 포맷의 문서를 Import 하여 데이터를 추출 할 수도 있다. Import 할 문서가 한 개 이상일 때에는 문서를 하나의 폴더 안에 저장해 놓고 폴더 자체를 Import 할 수도 있다. 우리가 어떤 연구를 하기 전에는 보통 문헌에서 내가 하고자 하는 연구가 어느 정도 선행 연구가 이루어 졌는지 알아보는데 그 때마다 많은 문헌들을 하나 하나 살펴 보기에는 어려움이 있다. 그 때 MedScan을 사용하면 그런 점에서 많은 도움을 줄 뿐만 아니라 그 문헌들 사이에서 의미 있는 결과까지 도출해 줄 수 있으리라 생각된다.



Posted by 人Co

2010/06/07 17:38 2010/06/07 17:38

PathwayStudio 소개

연재 순서

 1. PathwayStudio 소개
 2. 문헌정보를 활용한 유전자 네트워크 분석
 3. Chip 실험 데이터에서의 유전자 네트워크 분석
 4. Drug 발굴을 위한 지식 데이터베이스 ChemEffect


카레 성분의 커큐민(cucumin)이 전립선암을 억제한다고?


 미국에는 해마다 전립선암 환자가 증가하고 있는데 반해 인도인들은 전립선암 환자가 거의 발생하지 않고 있다. 유전적인 요인도 있겠지만, 식습관의 차이가 전립선 암환자의 발생을 유도하거나 억제하지 않을까라는 단순한 궁금증을 가지고 카레와 전립선암과의 연관관계에 대한 연구를 시작하고자 한다. 이때 우리는 “인도인들이 즐겨먹는 카레의 주성분에서 전립선암을 억제하는 상호기작이 있을 것이다”라고 가정할 수 있다. 그럼 카레의 주성분은 무엇일까? 카레의 색깔이 노란색인 것은 커큐민이라는 성분때문인데, 이 커큐민이 카레의 주성분이다. 전립선암과 우리가 즐겨 먹는 카레의 주성분인 커큐민은 상호 어떤 관계가 있을까? 실험을 통해서 일일이 검증을 해야 확인할 수 있겠지만, PubMed와 같이 과학 문헌 데이터베이스에서 커큐민 성분에 영향을 미치는 유전자에 관련된 논문과 전립선암에 관여하는 유전자에 대한 논문을 찾은 후 ‘커큐민-유전자-전립선암’과의 관계를 유추할 수 있다.

이와 같이 신약을 발굴하기 위해서 바이오마커를 찾거나, 특정 질병에 관여하는 유전자들이 무엇인지 알고자 할 경우, 또는 DNA Chip 분석을 통해서 얻어지는 차등 발현 유전자들이 공통적으로 관여하는 질병을 찾거나, 유전자들의 상호 연관관계를 알고자 할 경우에 사용되는 유용한 프로그램 가운데 PathwayStudio라 는 프로그램을 소개하고자 한다.

Pathway Studio 시스템 구성


Pathway Studio는 세 가지 시스템으로 구성되어 있다.

  • MedScan: 자연어처리기술(NaturalLanguageProcessing) 을 이용한 과학 문헌의 전문화된 텍스트 마이닝프로그램, 단백질 중심의 생물학적 연관관계 추출
  • ResNet Database: MedScan을 이용하여 PubMed와 Interaction 관련 저널에서 추출한 Mammalian, Plant의 생물학적 네트워크 정보를 생물학 전문가에 의해 재검증한 데이터베이스
  • PathwayStudio: MedScan과ResNet Database를 통해 추출된 데이터를 이용하여 Pathway를 편집 할 수 있도록 제공되는 사용자-친숙한 인터페이스
사용자 삽입 이미지
그림 1. 시스템의 구성. 1) 자연어 처리 기술을 응용하여 문헌에서 생물학적인 데이터를 추출하는 MedScan Reader 2) 추출된 데이터를 데이터베이스화 한 ResNetResNet Database는 Mammalian과 Plant 두 가지로 구분되어진다. 3) 데이터베이스의 정보를 그래픽 형태로 pathway를 생성하고 편집할 수 있는 인터페이스를 제공하는 PathwayStudio Database.


Pathway Studio 응용분야


Pathway Studio는

  • 유전자 발현 데이터 또는 high throughput 데이터를 해석할 때,
  • pathway를 설계, 확장하고 분석 할 때,
  • 유전자, 단백질, cell processes, 질병 사이의 관계를 찾을 때,
  • publication-quality pathway 다이어그램을 그릴 때,
  • 문헌 정보에서 바이오마커와 drug 후보군을 찾을 때,
와 같은 다양한 연구 분야에서 사용되고 있으며, 수많은 연구자들이 Pathway Studio를 이용하여 분석한 결과 및 방법들을 논문으로 투고하고 있다. ARIADNE사의 홈페이지((http://www.ariadnegenomics.com/technology-research/publications/)) 에는 아래와 같은 카테고리 별로 PathwayStudio를 이용하여 투고된 논문 정보를 바로 확인할 수 있다.

  • Epigenetic studies
  • Pathway Analysis
  • Analysis of gene expression microarray data
  • Anayisis of proteomics data
  • Drug discovery
  • Human genetics
  • Toxicogenomics
  • Biomarkers
  • Neuroscience
  • Text mining
  • Model organisms
  • Plants

Pathway Build 방법


 과연, 그렇다면 Pathway Studio에서는 어떤 방법으로 pathway를 그릴 수 있을까? pathway를 그릴 수 있는 방법은 아래 그림과 같이 크게 3가지 정도로 나누어 볼 수 있다. 첫 번째로 내가 알고 있는 유전자 하나 혹은 여러 개의 유전자 목록을 검색하여 엔티티들 사이에 어떤 관계가 있는지 pathway를 직접 그려가면서 확인하는 검색을 통한 방법이 다. 두 번째로는 어떠한 주제로 연구를 할 때 기존에 밝혀져 있는 문헌에 대해 리뷰하는 과정을 거치게 되는데 이 때 관련 문헌을 모두 검색하고 거기에서 보고자 하는 정보들을 추출 할 수 있다. 이렇게 추출된 정보들은 문헌을 통한 검색으 로 추출되었기 때문에 신뢰도가 높은 정보를 제공할 뿐만 아니라 Pathway Studio를 통해서 그들 간의 pathway도 그려 볼 수 있고, 그것을 더 확장해 나가면서 새로운 의미를 도출 할 수도 있다. 마지막으로 실제 실험을 통해 나온 데이터를 입력하고 통계 분석을 한 뒤 통계적으로 유의한 유전자들 사이의 관계를 pathway로 그려보고 발현양상을 살펴보는 방법이 있다.

사용자 삽입 이미지
그림 2. pathway build 방법 1) 유전자 검색을 통한 방법 2) MedScan 문헌 검색을 통한 방법 3) Import한 실험 데이터를 이용하는 방법

Pathway 편집


 위의 세 가지 방법을 통해 pathway를 그릴 때에는 pathway를 보기 쉽게 편집하는 것 또한 중요하다. Pathway Studio에서는 pathway를 그릴 때 편집하기 쉬운 인터페이스를 제공하고 있을 뿐 아니라 서로 다른 Entity와 Relation을 한 눈에 구별 할 수 있도록 그것을 다양한 모양과 색으로 표현하고 있다. 완성된 pathway를 이미지로 저장할 때에는 아래 그림과 같이 Entity와 Relation 정보를 범례로 포함하여 저장 할 수 있어 pathway를 처음 보는 사람이더라도 쉽게 그 관계를 이해 할 수 있다. 또한 그려진 pathway에서 Relation을 나타내는 화살표에 마우스를 가져가면 Entity들 간에 어떤 관계에 있는지 그리고 그 관계를 뒷받침 할 수 있는 관련 문장이 어떤 문헌에서 추출 되었는지와 같은 정보를 제공해 준다.

사용자 삽입 이미지
그림 3. Entity, Relation, component group의 종류

Pathway layout


 완성된 pathway는 layout을 바꾸어 가면서 볼 수 있다. Pathway Studio에서는 DirectForce layout, Symmetric layout, Cell Localization layout, Hierachical layout과 같이 다양한 layout을 제공하고 있다. layout을 변경을 통해서 보다 새로운 의미를 찾을 수 있을 것이다.

  • DirectForce layout : Entity를 중심으로 관련 정보를 축 방향으로 나타내주는 layout
  • Symmetric layout : Entity를 중심으로 관련 정보를 대칭 형태로 나타내주는 layout
  • Cell Localization layout : pathway의 Entity들이 Cell 안에서 어떤 곳에 위치하는지 보여주는 layout
  • Hierachical layout : Entity를 중심으로 유전자를 조절하는 up-regulation 또는 공통적으로 작용하는 down-regulation 정보를 계층적인 구조로 보여주는 layout
layout을 통해 그랙픽 형식으로 검토하는 방법 이외에도 Entity table, Relation table 보기 기능도 지원하고 있다. Table 보기에서는 Entity와 Relation 정보 이외에도 다양한 annotation 정보도 함께 제공하고, 테이블의 컬럼도 사용자의 편의에 맞게 선택적으로 customizing 하여 볼 수 있도록 되어 있다.

사용자 삽입 이미지
그림 4. pathway view 방식 1) pathway 그래프 보기의 다양한 layout 형태 2) Entity, Relation 테이블 형태의 보기 방식

Pathway data export


 pathway는 다양한 형태로도 저장이 가능하다. 그래프 형태의 pathway는 .gif, .jpg, .png, .tif, .bmp 5가지 확장자의 이미지 파일로 저장 할 수 있다. 이미지로 저장을 할 때에는 범례를 포함하여 저장 할 수 있는데 pathway를 문헌에 효율적으로 이용할 수 있도록 이미지의 넓이, 높이의 크기와 DPI 해상도까지 지정할 수 있다. Entity와 Relation 정보의 table 보기는 엑셀의 형태로 저장 할 수 있어 차후에 2차 분석을 할 때 유용하게 사용할 수 있다. 이 밖에도 웹 문서인 HTML 형태로 저장을 하면 Pathway Studio가 설치되어 있지 않은 곳에서도 웹을 통해 데이터들을 모두 볼 수 있으며 Pathway Studio의 고유 파일 형식인 .gpp 파일 포맷으로 저장을 할 경우에는 Pathway Studio가 설치되어 있는 사용자 간의 혹은 pathway 데이터를 백업 할 때 사용할 수 있다.

사용자 삽입 이미지
그림 5. Pathway 데이터 export 방식.


 2010년 5월 24일 현재 Pathway Studio는 7.1 버전까지 업데이트 되었으며 꾸준한 기능 향상과 데이터베이스 업데이트를 통해 항상 최신의 데이터를 제공하고 있다. Pathway Studio는 다양한 연구 분야를 비롯하여 제약회사를 포함한 전세계의 고객에 의해 사용되고 있다. Ariadne사에서는 고객들이 Pathway Studio를 효과적으로 사용할 수 있도록 case study를 다양한 형태로 제공하기도 하며 국내에도 매 년 몇차례 방문하여 세미나를 개최한 바 있다. 앞으로도 지속적인 기능 향상과 최신의 데이터베이스를 유지함으로써 국내의 많은 연구자들에게 도움이 될 것으로 생각된다.



Posted by 人Co

2010/05/31 08:40 2010/05/31 08:40

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis


이번 연재에서는 현재까지 공개  데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 Gene Network Discovery by Text-mining에 대해 알아보겠습니다.


3-4. Gene Network Discovery by Text-mining


 최근의 생물학 연구의 이슈는 데이터를 생산하는 것보다 현재까지 공개 데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 부분에 있다. 즉 데이터의 ‘생산’에서 ‘연결’로 생물정보학의 관점이 옮겨가고 있다고 할 수 있다. 따라서 다양한 분야의 실험데이터, 문헌데이터, 공개데이터 등을 네트워크 형식으로 연결하여 새로운 지식을 발굴할 수 있는 시스템이 주목받고 있다.

현재 NCBI의 PubMed에는 18,000,000건 이상의 논문들이 수록되어 있으며, 하루에도 수  십편의 논문들이 새롭게 업데이트되고 있다. PubMed에 수록되어 있는 저널들은 의학, 생명, 생물에 관련된 연구 논문들이며, 오랜 기간에 걸쳐 저널의 정보에 대한 공신력이 검증된 논문들이라고 할 수 있다. 따라서 연구자가 새로운 주제를 기반으로 하여 연구를 시작하고자 할 경우, 가장 선행되어져야 하는 것은 논문 리뷰라고 할 수 있다. 다른 사람이 비슷한 연구를 수행한 경험이 있는지, 어떠한 방법에 의해서 연구가 진행되었는지, 또한 그 결과는 어떠하였는지 등을 참조하게 된다. 이와 같은 논문 리뷰가 선행된 후 자신의 연구 방향을 설정하게 된다. 그만큼 다른 사람에 의해서 분석되어진 연구 정보가 최근 들어서는 상당히 중요하다고 할 수 있다. 더구나, 최근에는 인터넷을 이용한 데이터의 정보교환이 활발하여 엄청나게 많은 문헌 정보들을 손쉽게 찾아볼 수 있기 때문에 일정한 부분에서는 직접 실험을 하지 않더라도 그와 유사한 실험을 수행한 결과물을 얻을 수 있다. 따라서 이와 같은 문헌 정보의 모래 언덕을 잘 살펴서 보물을 찾아낼 수 있는 방법들이 주목을 받고 있다.

한 예로 Ariadne사의 MedScan과 Pathway Studio는 텍스트 마이닝이라는 컴퓨터 알고리즘을 이용하여 주어진 문헌 정보에서 유전자와 질병, 화학물질, 세포내 프로세스, 대사회로와 같은 엔티티(Entity)들의 관계를 자동으로 추출하여 테이블과 다양한 그래프로 관계들을 보여주는 프로그램으로 대사회로, 유전자 조절 네트워크, 단백질 상호작용 맵과 같은 실험결과를 이해하는데 상당히 유용하다(그림 7). Pathway Studio는 척추동물, 식물 연구의 생물학적 연관관계, ontology와 pathway들의 정보를 포함하고 있는 ResNet 데이터베이스와 자연언어처리기술을 이용하여 과학문헌을 자동으로 읽고 생물학적인 관계를 추출하는 기능을 가진 MedScan으로 구성되어 있다. MedScan의 경우에는 약 1천개의 논문 초록을 대상으로 생물학적인 관계를 추출하는데 2~3분밖에 걸리지 않으므로, 대량의 수집된 논문에서 특정한 바이오마커를 발굴하거나 특정 단백질 또는 질병과 관련된 네트워크 정보를 검토하기에는 상당히 유용하다고 할 수 있다.
 
보통 하나의 유전자와 관계하는 다양한 정보를 찾아보기 위해서는 수많은 데이터베이스와 문헌, 웹사이트를 검색하여 그 연관관계를 하나씩 도출해야 되지만, Pathway Studio와 같은 프로그램은 그와 같은 일련의 시간과 노동력이 상당히 투자되어야 하는 업무를 효율적으로 지원함으로써 연구자의 보다 빠르고 충실한 결과물을 얻을 수 있도록 지원한다.

사용자 삽입 이미지
그림 7. Architecture of MedScan and Pathway Studio

그림 8은 Cholestasis에 관련된 약물과 단백질 등의 연관관계를 Pathway Studio를 이용하여 연구자가 쉽게 이해할 수 있는 방식의 그래프로 재구성한 것이다. 이와 같은 방법으로 복잡한 질병과 약물, 단백질 및 대사 작용의 네트워크를 시각적으로 이해하기 쉽게 제공하고 있다.

사용자 삽입 이미지
그림 8. Pathway Studio workflow diagram


그림 9는 EMB라는 유전자를 대상으로 관련 있는 다양한 유전자 및 질병, 약물, 세포내  프로세스 등을 연결한 그래프로서 연결되어있는 라인을 클릭하면 그림과 같이 연관관계를 표현하는 문헌정보를 확인할 수 있어 연관관계의 정확성 및 신뢰성을 뒷받침하고 있다.

사용자 삽입 이미지
그림 9. Entity와 Relation의 네트워크 및 관련 문헌의 확인


그림 10은 PubMed에서 Curcumin과 Prostate Cancer에 관련된 논문을 검색하여 수집된 수 십 여 편의 논문에서 MedScan의 텍스트 마이닝 알고리즘을 이용하여 네트워크를 재구성한 것이다. 그림에서 보는 것과 같이 Curcumin과 Prostate Cancer 사이에 있는 단백질이 Prostate Cancer를 억제하는 역할을 한다는 정보를 검증된 문헌을 통해서 확인하는 것이다.


사용자 삽입 이미지
그림 10. MedScan을 통한 문헌정보의 네트워크 구성


다음 연재에서는 NGS Edition의 마지막 연재로 대용량의 데이터를 다루기 위한 Centralization for High-throughput Data Analysis에 대해 알아보도록 하겠습니다.

많은 관심 부탁드립니다.


Posted by 人Co

2010/04/05 15:44 2010/04/05 15:44

 난 2월 26일(금) Systems Biology 전문 소프트웨어 개발회사인 Ariadne Genomics사에서 Anton Yuryev 박사가 내한하였습니다. Anton Yuryev 박사는 이번 세미나에서 nutrigenomics, toxicogenomics와 biomarker발굴 연구에 응용할 수 있는 Pathway Studio 프로그램의 다양한 분석 활용에 대해 소개해주셨습니다.

 세미나는 26일 하루 동안 서울과 대전 두 곳에서 바쁘게 진행되었습니다. 먼저 오전에 서울대학교 약학대학에서는 서울 근교 지역에서 여러 분들이 참석을 해주셨습니다. 서울대학교 분석약학실의 권성원 교수님의 Anton박사 약력 소개와 이어 (주)인실리코젠의 Codes팀 박준형 팀장님께서 이날 세미나의 취지에 대해 말씀해 주시는 것으로 세미나가 시작되었습니다. Anton박사는 Pathway Studio에 대한 간략한 소개와 skin care에 대한 새로운 idea, 다양한 물질에 대한 toxicity mechanism, drug action mechanism, disease pathway 등 다양한 case study를 Pathway Studio 이용하여 어떻게 분석할 수 있는지에 대해 설명해 주셨습니다.

사용자 삽입 이미지
1시간 30분간의 서울에서의 세미나 일정을 마치고 간단하게 점심을 먹고 대전으로 향했습니다. 점심을 먹는 동안에는 김연아 선수의 프리스케이팅 경기가 있었습니다. Anton Yuryev 박사님께 김연아 선수에 대한 소개도 해드리고 함께 경기를 지켜보았습니다. 김연아 선수의 좋은 성적으로 기분 좋게 대전으로 출발할 수 있었던 것 같습니다.

 전에서는 한국생명공학연구원에서 세미나가 진행되었는데 한국생명공학연구원분들과 KAIST 그리고 멀리 부산에서도 참석하여 함께 자리를 빛내주셨습니다. 세미나에 대한 소개를 시작으로 Anton Yuryev 박사의 세미나가 시작되었습니다. 세미나는 서울에서와 마찬가지로 Pathway Studio에 대한 간략한 소개와 drug epositioning and combination therapy design이라는 주제에 중점을 둔 case study 내용으로 진행되었습니다. 세미나가 끝나고 멀리 있어서 자주 찾아뵙지 못하는 분들과 반갑게 대화를 나누는 시간도 잠시 가졌습니다.

사용자 삽입 이미지
  렇게 26일의 서울과 대전의 바쁜 일정을 마치고 27일(토)에는 Anton Yuryev 박사께서 직접 저희 회사에 방문해 주셔서 내부 세미나를 진행해주시기도 하였습니다. 한층 더 업그레이드된 ResNet Database curator, MedScan 기술, 그리고 Pathway Studio의 API에 대해 Training을 받았습니다. 저희 회사에서 앞으로 Pathway Studio 컨설팅을 하는데 있어서 도움이 될 수 있는 내용에 대해 배우는 중요한 시간이 되었습니다.

사용자 삽입 이미지
  다시 한 번 바쁘신 와중에도 지난 26일(금)에 세미나에 참석해 주신 모든 분들께 진심으로 감사드리며, 이번에 개최된 세미나가 많은 분들께 유익한 시간이 되었기를 바랍니다. 앞으로도 저희 (주)인실리코젠에서는 세미나를 진행함에 있어 부족한 점들을 지속적으로 보완하여 세미나에 참여하시는 모든분들께 보다 새롭고 다양한 정보를 제공할 수 있도록 노력하겠습니다. 발표 내용이나 PathwayStudio에 대한 문의사항이 있으시면 언제든지 대표전화(031-278-0061) 또는 Codes팀(codes@insilicogen.com)으로 문의하여 주십시오.

감사합니다.




Posted by 人Co

2010/03/09 17:46 2010/03/09 17:46