연재 순서

 1. PathwayStudio 소개
 2. 문헌정보를 활용한 유전자 네트워크 분석
 3. Chip 실험 데이터에서의 유전자 네트워크 분석
 4. Drug 발굴을 위한 지식 데이터베이스 ChemEffect


MedScan의 필요성


 과학 문헌의 대표적인 데이터베이스인 NCBI의 PubMed는 시간이 지날수록 등록되는 문헌의 수가 급속도로 증가하고 있으며, 최근에는 약 1,900만건 이상의 문헌들을 서비스하고 있다. 즉, 증가의 추세로 볼 때 하루에 약 4,100여건의 문헌이 업데이트되고 있다. 문헌이 기하급수적으로 증가함에 따라 관련 연구에 대한 정보를 찾기 위해서 연구자들은 점점 더 많은 시간과 노력을 기울여야 한다. 이에 따라 문헌 속에서 생물학적인 정보를 자동으로 추출하는 시스템의 필요성이 증가하고 있다.

사용자 삽입 이미지
그림 1. NCBI PubMed 문헌의 증가 속도.


MedScan의 특징


 이번 블로그에서는 PathwayStudio와 연계된 프로그램으로 PubMed, Google, 그리고 PDF, DOC 형식으로 된 문헌에서 텍스트 마이닝 기법으로 생물학적인 의미가 있는 데이터를 자동으로 추출하는 MedScan에 대해 소개하고자 한다. 데이터를 추출할 때 사용되는 텍스트 마이닝 기법은 복합 문서와 인터넷 페이지 등과 같은 비정형 데이터로부터 자연언어처리 기술과 문서처리 기술을 적용하여 유용한 정보를 추출하고 가공하는 기술을 말한다.

사용자 삽입 이미지
그림 2. MedScan 시스템.

텍스트 마이닝 기법을 이용한 MedScan은 아래와 같은 특징들을 가지고 있다.

  • 생물학적인 문헌에서 정확하게 데이터를 추출할 수 있도록 과학적 언어에 Focusing
  • 생물학 전문가에 의한 정보의 수정 및 Dictionary라고 정의된 Mammalian, Plant에 특화된 텍스트 마이닝
  • 2분안에 918개의 abstract 다운로드, 7,700개 문장 리뷰, 7,300개 entity와 577개의 relation 관계 확인을 동시에 할 수 있을 정도의 빠른 속도
  • 동일한 주제의 연구 정보에 대한 중복성 제거
  • 생물학 전문가의 수정 및 지속적인 검증을 통한 10% 이하의 낮은 False positive 데이터
  • Dictionary 및 검색 패턴을 연구자 의도에 따른 customization 가능

Tutorial


 MedScan은 Pathway Sutido를 통해 실행시킬 수 있다. 실행된 화면은 그림 3에서 보는 것과 같이 사용자가 친숙하게 사용할 수 있도록 인터페이스가 구성되어 있다. MedScan에 서 문헌을 검색하기에 앞서 먼저 Catridge를 선택한다. Human, Mouse, Rat과 같은 mammal에 대한 검색을 할 때에는 Standard catridge를 선택하고, Plant와 관련된 검색을 할 때에는 Plant catridge를 선택한다. 간단하게 설정을 마치고 나면 검색을 수행할 수 있다.

사용자 삽입 이미지
그림 3. MedScan 인터페이스.



문헌 검색

 
 검색은 Popular Destinations과 Quick Import 두 가지 검색 방법을 이용한다. Popular Destinations에서는 Search PubMed, Search BioMed Central, Search HighWire Press, Search Google Scholar, Search Google 다섯 가지의 검색 할 수 있는 destination(그림 4)이 제공된다. 각각을 클릭하면 MedScan에서 바로 웹 사이트로 연결이 되어 인터넷 창을 따로 띄우지 않고도 검색을 수행 할 수 있도록 되어 있다. Quick Import 검색은 웹 사이트로 직접 연결하여 데이터를 검색하는 것보다 조금 더 빠르고 편리한 방법이다. 웹사이트에 연결하지 않고 바로 쿼리를 입력할 수 있도록 되어 있어서 Import PubMed Dataset에 쿼리를 입력하고 Query and Import 버튼을 클릭하면 기본적으로 PubMed abstract에서 1000개까지의 abstract을 추출해 준다.

사용자 삽입 이미지
그림 4. MedScan 검색 방법. 1) Popular Destinations 2) Quick Import

 Popular Destination 검색 가운데 “Search PubMed”를 선택하면, NCBI의 PubMed와 동일한 화면을 볼 수 있다. NCBI의 PubMed에서 문헌을 검색할 때와 동일한 방법으로 알고자하는 쿼리를 입력하고 검색을 수행한다. PubMed에서 문헌을 검색할 때 Display Setting을 Abstract로 변환하고, 페이지당 보여지는 문헌의 개수를 200개로 변환하면 더욱 더 많은 정보를 추출할 수 있다는 것을 염두해두자. 검색된 Abstract에서 검색하고자 했던 쿼리와 관련이 있는 정보들이 있는 문장은 노란색 배경처리되어 표시되고 생물학적인 의미를 지니고 있는 단어는 초록색으로 표시가 된다. 표시가 된 부분은 자동으로 Entity와 Relation으로 추출되어 우측 상단의 테이블 형태로 정리가 된다.

검색 결과


 검색 결과가 정리된 우측의 테이블은 Relation tab과 Entities tab 두 가지 tab으로 결과가 정리되어 있다. Relation tab을 보면 첫 번째 컬럼은 Reference 문헌의 개수를 의미하고 두 번째 컬럼은 Entity 1, 세 번째 컬럼은 Relation 관계 정보를 마지막 네 번째 컬럼은 Entity 2를 나타낸다. 상단 도구모음의 View를 클릭하면 데이터를 컬럼별로 정렬하여 볼 수 있도록 되어 있다. 각각의 컬럼을 정렬해가면서 원하는 데이터만 키보드의 Shift 또는 Ctrl을 사용하여 선택한다. 그런 다음 선택된 데이터만 아래의 Known Relation 테이블로 이동시킨다. Known Relation 테이블에서도 다시 한 번 view를 통해 정렬을 하여 컬럼을 선택 할 수 있다.

 그렇게 해서 최종적으로 선택된 데이터들만 가지고 Pathway Studio로 이동시킨다. 선택된 데이터에서 마우스 오른쪽을 누른 뒤 send to pathway studio 클릭한다. Pathway Studio를 다시 실행 시켜 보면 MedScan에서 보낸 데이터를 Import 할 수 있는 창이 떠있고 여기에서 pathway를 저장 할 디렉토리를 선택해주고 Next를 클릭한다. Import가 완료되고 해당 디렉토리로 가면 MedScan에 서 보낸 데이터 정보를 이용하여 그려진 pathway 파일이 생성되어 있는 것을 확인 할 수 있다.


사용자 삽입 이미지
그림 5. MedScan 검색 결과.

  이밖에도 MedScan에서는 직접 사용자가 가지고 있는 텍스트, 워드, pdf, XML 또는 HTML 포맷의 문서를 Import 하여 데이터를 추출 할 수도 있다. Import 할 문서가 한 개 이상일 때에는 문서를 하나의 폴더 안에 저장해 놓고 폴더 자체를 Import 할 수도 있다. 우리가 어떤 연구를 하기 전에는 보통 문헌에서 내가 하고자 하는 연구가 어느 정도 선행 연구가 이루어 졌는지 알아보는데 그 때마다 많은 문헌들을 하나 하나 살펴 보기에는 어려움이 있다. 그 때 MedScan을 사용하면 그런 점에서 많은 도움을 줄 뿐만 아니라 그 문헌들 사이에서 의미 있는 결과까지 도출해 줄 수 있으리라 생각된다.



Posted by 人Co

2010/06/07 17:38 2010/06/07 17:38

PathwayStudio 소개

연재 순서

 1. PathwayStudio 소개
 2. 문헌정보를 활용한 유전자 네트워크 분석
 3. Chip 실험 데이터에서의 유전자 네트워크 분석
 4. Drug 발굴을 위한 지식 데이터베이스 ChemEffect


카레 성분의 커큐민(cucumin)이 전립선암을 억제한다고?


 미국에는 해마다 전립선암 환자가 증가하고 있는데 반해 인도인들은 전립선암 환자가 거의 발생하지 않고 있다. 유전적인 요인도 있겠지만, 식습관의 차이가 전립선 암환자의 발생을 유도하거나 억제하지 않을까라는 단순한 궁금증을 가지고 카레와 전립선암과의 연관관계에 대한 연구를 시작하고자 한다. 이때 우리는 “인도인들이 즐겨먹는 카레의 주성분에서 전립선암을 억제하는 상호기작이 있을 것이다”라고 가정할 수 있다. 그럼 카레의 주성분은 무엇일까? 카레의 색깔이 노란색인 것은 커큐민이라는 성분때문인데, 이 커큐민이 카레의 주성분이다. 전립선암과 우리가 즐겨 먹는 카레의 주성분인 커큐민은 상호 어떤 관계가 있을까? 실험을 통해서 일일이 검증을 해야 확인할 수 있겠지만, PubMed와 같이 과학 문헌 데이터베이스에서 커큐민 성분에 영향을 미치는 유전자에 관련된 논문과 전립선암에 관여하는 유전자에 대한 논문을 찾은 후 ‘커큐민-유전자-전립선암’과의 관계를 유추할 수 있다.

이와 같이 신약을 발굴하기 위해서 바이오마커를 찾거나, 특정 질병에 관여하는 유전자들이 무엇인지 알고자 할 경우, 또는 DNA Chip 분석을 통해서 얻어지는 차등 발현 유전자들이 공통적으로 관여하는 질병을 찾거나, 유전자들의 상호 연관관계를 알고자 할 경우에 사용되는 유용한 프로그램 가운데 PathwayStudio라 는 프로그램을 소개하고자 한다.

Pathway Studio 시스템 구성


Pathway Studio는 세 가지 시스템으로 구성되어 있다.

  • MedScan: 자연어처리기술(NaturalLanguageProcessing) 을 이용한 과학 문헌의 전문화된 텍스트 마이닝프로그램, 단백질 중심의 생물학적 연관관계 추출
  • ResNet Database: MedScan을 이용하여 PubMed와 Interaction 관련 저널에서 추출한 Mammalian, Plant의 생물학적 네트워크 정보를 생물학 전문가에 의해 재검증한 데이터베이스
  • PathwayStudio: MedScan과ResNet Database를 통해 추출된 데이터를 이용하여 Pathway를 편집 할 수 있도록 제공되는 사용자-친숙한 인터페이스
사용자 삽입 이미지
그림 1. 시스템의 구성. 1) 자연어 처리 기술을 응용하여 문헌에서 생물학적인 데이터를 추출하는 MedScan Reader 2) 추출된 데이터를 데이터베이스화 한 ResNetResNet Database는 Mammalian과 Plant 두 가지로 구분되어진다. 3) 데이터베이스의 정보를 그래픽 형태로 pathway를 생성하고 편집할 수 있는 인터페이스를 제공하는 PathwayStudio Database.


Pathway Studio 응용분야


Pathway Studio는

  • 유전자 발현 데이터 또는 high throughput 데이터를 해석할 때,
  • pathway를 설계, 확장하고 분석 할 때,
  • 유전자, 단백질, cell processes, 질병 사이의 관계를 찾을 때,
  • publication-quality pathway 다이어그램을 그릴 때,
  • 문헌 정보에서 바이오마커와 drug 후보군을 찾을 때,
와 같은 다양한 연구 분야에서 사용되고 있으며, 수많은 연구자들이 Pathway Studio를 이용하여 분석한 결과 및 방법들을 논문으로 투고하고 있다. ARIADNE사의 홈페이지((http://www.ariadnegenomics.com/technology-research/publications/)) 에는 아래와 같은 카테고리 별로 PathwayStudio를 이용하여 투고된 논문 정보를 바로 확인할 수 있다.

  • Epigenetic studies
  • Pathway Analysis
  • Analysis of gene expression microarray data
  • Anayisis of proteomics data
  • Drug discovery
  • Human genetics
  • Toxicogenomics
  • Biomarkers
  • Neuroscience
  • Text mining
  • Model organisms
  • Plants

Pathway Build 방법


 과연, 그렇다면 Pathway Studio에서는 어떤 방법으로 pathway를 그릴 수 있을까? pathway를 그릴 수 있는 방법은 아래 그림과 같이 크게 3가지 정도로 나누어 볼 수 있다. 첫 번째로 내가 알고 있는 유전자 하나 혹은 여러 개의 유전자 목록을 검색하여 엔티티들 사이에 어떤 관계가 있는지 pathway를 직접 그려가면서 확인하는 검색을 통한 방법이 다. 두 번째로는 어떠한 주제로 연구를 할 때 기존에 밝혀져 있는 문헌에 대해 리뷰하는 과정을 거치게 되는데 이 때 관련 문헌을 모두 검색하고 거기에서 보고자 하는 정보들을 추출 할 수 있다. 이렇게 추출된 정보들은 문헌을 통한 검색으 로 추출되었기 때문에 신뢰도가 높은 정보를 제공할 뿐만 아니라 Pathway Studio를 통해서 그들 간의 pathway도 그려 볼 수 있고, 그것을 더 확장해 나가면서 새로운 의미를 도출 할 수도 있다. 마지막으로 실제 실험을 통해 나온 데이터를 입력하고 통계 분석을 한 뒤 통계적으로 유의한 유전자들 사이의 관계를 pathway로 그려보고 발현양상을 살펴보는 방법이 있다.

사용자 삽입 이미지
그림 2. pathway build 방법 1) 유전자 검색을 통한 방법 2) MedScan 문헌 검색을 통한 방법 3) Import한 실험 데이터를 이용하는 방법

Pathway 편집


 위의 세 가지 방법을 통해 pathway를 그릴 때에는 pathway를 보기 쉽게 편집하는 것 또한 중요하다. Pathway Studio에서는 pathway를 그릴 때 편집하기 쉬운 인터페이스를 제공하고 있을 뿐 아니라 서로 다른 Entity와 Relation을 한 눈에 구별 할 수 있도록 그것을 다양한 모양과 색으로 표현하고 있다. 완성된 pathway를 이미지로 저장할 때에는 아래 그림과 같이 Entity와 Relation 정보를 범례로 포함하여 저장 할 수 있어 pathway를 처음 보는 사람이더라도 쉽게 그 관계를 이해 할 수 있다. 또한 그려진 pathway에서 Relation을 나타내는 화살표에 마우스를 가져가면 Entity들 간에 어떤 관계에 있는지 그리고 그 관계를 뒷받침 할 수 있는 관련 문장이 어떤 문헌에서 추출 되었는지와 같은 정보를 제공해 준다.

사용자 삽입 이미지
그림 3. Entity, Relation, component group의 종류

Pathway layout


 완성된 pathway는 layout을 바꾸어 가면서 볼 수 있다. Pathway Studio에서는 DirectForce layout, Symmetric layout, Cell Localization layout, Hierachical layout과 같이 다양한 layout을 제공하고 있다. layout을 변경을 통해서 보다 새로운 의미를 찾을 수 있을 것이다.

  • DirectForce layout : Entity를 중심으로 관련 정보를 축 방향으로 나타내주는 layout
  • Symmetric layout : Entity를 중심으로 관련 정보를 대칭 형태로 나타내주는 layout
  • Cell Localization layout : pathway의 Entity들이 Cell 안에서 어떤 곳에 위치하는지 보여주는 layout
  • Hierachical layout : Entity를 중심으로 유전자를 조절하는 up-regulation 또는 공통적으로 작용하는 down-regulation 정보를 계층적인 구조로 보여주는 layout
layout을 통해 그랙픽 형식으로 검토하는 방법 이외에도 Entity table, Relation table 보기 기능도 지원하고 있다. Table 보기에서는 Entity와 Relation 정보 이외에도 다양한 annotation 정보도 함께 제공하고, 테이블의 컬럼도 사용자의 편의에 맞게 선택적으로 customizing 하여 볼 수 있도록 되어 있다.

사용자 삽입 이미지
그림 4. pathway view 방식 1) pathway 그래프 보기의 다양한 layout 형태 2) Entity, Relation 테이블 형태의 보기 방식

Pathway data export


 pathway는 다양한 형태로도 저장이 가능하다. 그래프 형태의 pathway는 .gif, .jpg, .png, .tif, .bmp 5가지 확장자의 이미지 파일로 저장 할 수 있다. 이미지로 저장을 할 때에는 범례를 포함하여 저장 할 수 있는데 pathway를 문헌에 효율적으로 이용할 수 있도록 이미지의 넓이, 높이의 크기와 DPI 해상도까지 지정할 수 있다. Entity와 Relation 정보의 table 보기는 엑셀의 형태로 저장 할 수 있어 차후에 2차 분석을 할 때 유용하게 사용할 수 있다. 이 밖에도 웹 문서인 HTML 형태로 저장을 하면 Pathway Studio가 설치되어 있지 않은 곳에서도 웹을 통해 데이터들을 모두 볼 수 있으며 Pathway Studio의 고유 파일 형식인 .gpp 파일 포맷으로 저장을 할 경우에는 Pathway Studio가 설치되어 있는 사용자 간의 혹은 pathway 데이터를 백업 할 때 사용할 수 있다.

사용자 삽입 이미지
그림 5. Pathway 데이터 export 방식.


 2010년 5월 24일 현재 Pathway Studio는 7.1 버전까지 업데이트 되었으며 꾸준한 기능 향상과 데이터베이스 업데이트를 통해 항상 최신의 데이터를 제공하고 있다. Pathway Studio는 다양한 연구 분야를 비롯하여 제약회사를 포함한 전세계의 고객에 의해 사용되고 있다. Ariadne사에서는 고객들이 Pathway Studio를 효과적으로 사용할 수 있도록 case study를 다양한 형태로 제공하기도 하며 국내에도 매 년 몇차례 방문하여 세미나를 개최한 바 있다. 앞으로도 지속적인 기능 향상과 최신의 데이터베이스를 유지함으로써 국내의 많은 연구자들에게 도움이 될 것으로 생각된다.



Posted by 人Co

2010/05/31 08:40 2010/05/31 08:40

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis


이번 연재에서는 현재까지 공개  데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 Gene Network Discovery by Text-mining에 대해 알아보겠습니다.


3-4. Gene Network Discovery by Text-mining


 최근의 생물학 연구의 이슈는 데이터를 생산하는 것보다 현재까지 공개 데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 부분에 있다. 즉 데이터의 ‘생산’에서 ‘연결’로 생물정보학의 관점이 옮겨가고 있다고 할 수 있다. 따라서 다양한 분야의 실험데이터, 문헌데이터, 공개데이터 등을 네트워크 형식으로 연결하여 새로운 지식을 발굴할 수 있는 시스템이 주목받고 있다.

현재 NCBI의 PubMed에는 18,000,000건 이상의 논문들이 수록되어 있으며, 하루에도 수  십편의 논문들이 새롭게 업데이트되고 있다. PubMed에 수록되어 있는 저널들은 의학, 생명, 생물에 관련된 연구 논문들이며, 오랜 기간에 걸쳐 저널의 정보에 대한 공신력이 검증된 논문들이라고 할 수 있다. 따라서 연구자가 새로운 주제를 기반으로 하여 연구를 시작하고자 할 경우, 가장 선행되어져야 하는 것은 논문 리뷰라고 할 수 있다. 다른 사람이 비슷한 연구를 수행한 경험이 있는지, 어떠한 방법에 의해서 연구가 진행되었는지, 또한 그 결과는 어떠하였는지 등을 참조하게 된다. 이와 같은 논문 리뷰가 선행된 후 자신의 연구 방향을 설정하게 된다. 그만큼 다른 사람에 의해서 분석되어진 연구 정보가 최근 들어서는 상당히 중요하다고 할 수 있다. 더구나, 최근에는 인터넷을 이용한 데이터의 정보교환이 활발하여 엄청나게 많은 문헌 정보들을 손쉽게 찾아볼 수 있기 때문에 일정한 부분에서는 직접 실험을 하지 않더라도 그와 유사한 실험을 수행한 결과물을 얻을 수 있다. 따라서 이와 같은 문헌 정보의 모래 언덕을 잘 살펴서 보물을 찾아낼 수 있는 방법들이 주목을 받고 있다.

한 예로 Ariadne사의 MedScan과 Pathway Studio는 텍스트 마이닝이라는 컴퓨터 알고리즘을 이용하여 주어진 문헌 정보에서 유전자와 질병, 화학물질, 세포내 프로세스, 대사회로와 같은 엔티티(Entity)들의 관계를 자동으로 추출하여 테이블과 다양한 그래프로 관계들을 보여주는 프로그램으로 대사회로, 유전자 조절 네트워크, 단백질 상호작용 맵과 같은 실험결과를 이해하는데 상당히 유용하다(그림 7). Pathway Studio는 척추동물, 식물 연구의 생물학적 연관관계, ontology와 pathway들의 정보를 포함하고 있는 ResNet 데이터베이스와 자연언어처리기술을 이용하여 과학문헌을 자동으로 읽고 생물학적인 관계를 추출하는 기능을 가진 MedScan으로 구성되어 있다. MedScan의 경우에는 약 1천개의 논문 초록을 대상으로 생물학적인 관계를 추출하는데 2~3분밖에 걸리지 않으므로, 대량의 수집된 논문에서 특정한 바이오마커를 발굴하거나 특정 단백질 또는 질병과 관련된 네트워크 정보를 검토하기에는 상당히 유용하다고 할 수 있다.
 
보통 하나의 유전자와 관계하는 다양한 정보를 찾아보기 위해서는 수많은 데이터베이스와 문헌, 웹사이트를 검색하여 그 연관관계를 하나씩 도출해야 되지만, Pathway Studio와 같은 프로그램은 그와 같은 일련의 시간과 노동력이 상당히 투자되어야 하는 업무를 효율적으로 지원함으로써 연구자의 보다 빠르고 충실한 결과물을 얻을 수 있도록 지원한다.

사용자 삽입 이미지
그림 7. Architecture of MedScan and Pathway Studio

그림 8은 Cholestasis에 관련된 약물과 단백질 등의 연관관계를 Pathway Studio를 이용하여 연구자가 쉽게 이해할 수 있는 방식의 그래프로 재구성한 것이다. 이와 같은 방법으로 복잡한 질병과 약물, 단백질 및 대사 작용의 네트워크를 시각적으로 이해하기 쉽게 제공하고 있다.

사용자 삽입 이미지
그림 8. Pathway Studio workflow diagram


그림 9는 EMB라는 유전자를 대상으로 관련 있는 다양한 유전자 및 질병, 약물, 세포내  프로세스 등을 연결한 그래프로서 연결되어있는 라인을 클릭하면 그림과 같이 연관관계를 표현하는 문헌정보를 확인할 수 있어 연관관계의 정확성 및 신뢰성을 뒷받침하고 있다.

사용자 삽입 이미지
그림 9. Entity와 Relation의 네트워크 및 관련 문헌의 확인


그림 10은 PubMed에서 Curcumin과 Prostate Cancer에 관련된 논문을 검색하여 수집된 수 십 여 편의 논문에서 MedScan의 텍스트 마이닝 알고리즘을 이용하여 네트워크를 재구성한 것이다. 그림에서 보는 것과 같이 Curcumin과 Prostate Cancer 사이에 있는 단백질이 Prostate Cancer를 억제하는 역할을 한다는 정보를 검증된 문헌을 통해서 확인하는 것이다.


사용자 삽입 이미지
그림 10. MedScan을 통한 문헌정보의 네트워크 구성


다음 연재에서는 NGS Edition의 마지막 연재로 대용량의 데이터를 다루기 위한 Centralization for High-throughput Data Analysis에 대해 알아보도록 하겠습니다.

많은 관심 부탁드립니다.


Posted by 人Co

2010/04/05 15:44 2010/04/05 15:44

PubMed 논문검색결과를 RSS로 받아보기

지난번 골라읽는 학술정보, RSS를 이용하여 내 분야의 최근 연구현황 파악하기를 통해서, 나의 관심 연구분야를 RSS로 받아봄으로써, 최근의 연구현황을 놓치지 않는 방법을 알아봤습니다. 당시, PubMed의 논문검색결과는 RSS로 제공되지 않는다고 말씀드렸었는데, 아니였습니다. Send to 라는 콤보박스 아래에 숨어있더라고요. 역시나 NCBI는 기대를 저버리지 않는군요. (biopython과 NCBI E-util로 만들어보려고 했는데, 찾아내서 다행입니다.)

먼저, 나의 관심 키워드를 검색해봅니다. http://www.ncbi.nlm.nih.gov 에 방문하여, 검색대상을 PubMed로 놓고, 제가 예전에 연구했던 selenocysteine을 입력해보겠습니다.

/wiki/InsilicoLog/2008-06-16?action=AttachFile&do=get&target=a.jpg

Preview/Index 탭을 열어보면, 나의 키워드를 조합해볼 수 있습니다. 1324개의 검색결과중에서 인간(human) 관련 논문만 보고싶다면,

/wiki/InsilicoLog/2008-06-16?action=AttachFile&do=get&target=b.jpg

검색결과를 546개로 줄일 수 있었습니다. 위 방법으로 검색필드 및 검색조건을 수정할 수 있습니다. 543개의 검색결과보기를 클릭하면, 다음의 검색결과 화면이 나옵니다.

/wiki/InsilicoLog/2008-06-16?action=AttachFile&do=get&target=c.jpg

"Send to" 라고 된 부분을 클릭하면, RSS Feed 라는 항목이 나옵니다. 이를 선택하게되면,

/wiki/InsilicoLog/2008-06-16?action=AttachFile&do=get&target=d.jpg

화면이 나오며, "Create feed"를 선택하면, 자주봤던 XML 아이콘이 보입니다.

/wiki/InsilicoLog/2008-06-16?action=AttachFile&do=get&target=e.jpg

자 이제 이제 이 Feed 주소를 RSS 수집 프로그램(bloglines 혹은 한RSS, 구글RSS리더 등)에 등록해 놓으면, 본 키워드로 새로 등록되는 논문들을 바로바로 받아볼 수 있습니다. 더이상 관련분야의 최신현황을 놓치지 마시길.

Posted by 人Co

2008/06/16 11:45 2008/06/16 11:45
,
Response
No Trackback , No Comment
RSS :
http://www.insilicogen.com/blog/rss/response/6

지금 내가 연구하는 이 분야의 전세계적인 최근 소식은 무엇일까? 현대를 살아가는 연구자라면 늘 갖고 있어야 할 질문 가운데 하나입니다. 누군가 나와 비슷한 연구를 하고 있지는 않을까, 유사한 아이디어들이 등장하지는 않았을까, 늘 안테나를 쫑긋 세우고 고성능 레이더망을 구비하여 세상을 스케닝해야 하겠죠.

여기에 쓸만한 고성능 레이더망이 있습니다. 바로 RSS라는 기술을 이용하는 것입니다. RSS(Really Simple Syndication)란 Web2.0을 이야기할 때, 종종 소개되는 기술가운데 하나로서 뭔가 정보의 단편을 규격화해놓은 포맷입니다. 이 기술을 이용하여, 특정 분야의 최신 현황을 실시간으로 스케닝할 수 있는 레이더망을 구축할 수 있습니다.

RSS가 무엇인가 에 대한 설명은 RSS 등의 문서들을 참고하시고요, 간단히 예를 들어 설명하자면 다음과 같습니다.

내가 가입한 인터넷동호회가 다음에도 있고, 네이버에도 있고, 싸이월드에도 있다고 할 때, 매일 아침 이 모든 사이트의 새로 등록된 글들을 확인하고 싶다고 한다면, 일일이 로그인하고 들어가봐야 할 것입니다. 번거로움을 느낀 나머지, 각 웹사이트의 새글을 자동으로 수집하는 프로그램을 만들어야지라고 생각할 수 있을 것입니다. 물론 프로그래밍을 잘 하신다는 가정이지만요.

하지만, 이 문제의 경우, 프로그래밍을 잘 하더라도 쉽지 않습니다. 각 사이트의 웹페이지에 직접 접근해서 최근 글 부분이 어떻게 생겨먹었는지를 알아야 가져오든 말든 할텐데, 사이트마다 다 HTML 문서가 제각각이지요. 왠만큼 똑똑한 인공지능이 아니라면, 그 웹페이지의 글 구조를 알아차리기 쉽지 않겠죠. (유사한 시도가 있습니다. 기계학습이론을 적용해서 웹페이지에서 자동으로 RSS 만들기를 하기도 하지만 아직 실용화는 안되고 있습니다.)

문제는 형식을 통일하면 된다는 것입니다. 형식에 맞도록 각 사이트에
사용자 삽입 이미지
서 데이터를 주고, 내 프로그램이 그 형식에 맞도록 데이터를 취합하면 되니까요. 여기에 이야기된 그 형식이란 것이 바로 RSS 입니다. 블로그나 뉴스사이트에 가셨을 때 보이는 RSS 라는 마크가 그것을 의미합니다. (오른쪽의 그림처럼 생겼습니다.) 클릭해보면, XML이란 언어로 기술된 포맷에 컨텐츠가 담겨져 있습니다. 이제부터 프로그램은 그 RSS만을 이용하면 데이터의 취합이 훨씬 쉬워집니다. 어느부분이 새글이다, 등록시간은 몇시다라는 형식이 이미 정해져 있으니까요. 그것을 취합하는 프로그램은 이미 많이 있습니다. RSS 리더기라고들 이야기하죠. 웹으로도 제공되고 있고요, Bloglines한RSS 같은 곳이 대표적으로 사용자가 원하는 사이트들의 RSS를 취합하여 새로 등록된 글을 알려주는 서비스를 제공합니다. 이후, 나는 관심있는 사이트의 RSS들만 등록해 놓으면, 이후 자동으로 새글들을 취합하여 제게 보여줍니다.

위 방법으로 RSS리더기에 내 연구분야가 걸려들만한 사이트와 검색키워드들을 등록해 놓으면, RSS리더기가 새로운 정보들을 바로바로 알려줄껍니다. 자, 그러면, 내 연구와 관련된 RSS들은 어떻게 알 수 있을까요? 다음과 같은 방법들이 있습니다.

학술저널의 최신 출판 목록 받기


BaRf(Bioinformatics aggregated RSS feeds)라는 사이트가 있습니다. 어느 일본분이 많든 사이트로 추정되는 곳입니다. 여기는 PubMed의 주요저널별 최근 논문 초록의 목록을 RSS로 변환하여 제공합니다. 이 사이트의 저널목록에서 나의 연구분야를 대표하는 저널들을 선정하여, RSS 등록합니다. 이렇게 하면, 각 저널마다 새로운 논문이 출판되었을 때의 초록을 늘 받아볼 수 있습니다. 보아하니, 옥스퍼드 출판사에서 제공하는 Bioinformatics 저널의 RSS feed 주소는 http://barf.jcowboy.org/bioinformatics.xml 이군요. 이 주소를 복사해서 RSS 리더기에 등록하면 Bioinformatics 저널의 최근 논문들을 그때그때 자동으로 받을 수 있습니다.

위 사이트관리자의 언급에 의하면, 없는 저널의 경우, 메일로 알려주면 등록 추가하겠다고 합니다. 왠만한 생명과학관련 저널들은 다 찾아볼 수 있을 듯 합니다.

네이버 뉴스검색


국내 관련 분야 새소식 역시 중요합니다. 우리나라에 보도되는 대부분의 기사들을 네이버에서 통합제공하고 있지요. 네이버에 방문하여, 생물정보학 키워드로 뉴스를 검색해보면, 우하단에 ''뉴스검색 RSS 보기'' 라는 링크가 있습니다. 이렇게 생겼네요. 이 주소 역시 RSS 리더기에 등록하면, 해당 키워드의 국내소식을 가장 빠르게 알 수 있겠죠. 앞으로, 내 분야 관련 언론보도를 모르고 지나칠 일은 없을겁니다.


구글 블로그검색


블로거들의 정보 역시 빼놓을 수 없죠. 요즘 정말로 유용한 특정 정보들은 블로그에 많이 있습니다. 자기만의 독특한 분야를 자랑하기 좋아하는 블로그들의 취향으로 인해, 전문적이고도 실용적인 정보들을 구할 수 있습니다. 블로그들을 통합해서 검색해 주는 곳은 구글 만한 곳이 없죠. 만일 내가 selenocysteine관련 연구를 하고 있다고 한다면 구글사이트에 방문하여 selenocysteine을 검색어로 입력합니다. 구글검색결과화면의 좌상단을 보면 블로그만 보여주는 링크가 있네요. 클릭해보면 블로그 결과만 보여주고, 이 역시 RSS 가 제공됩니다. 이렇게] 생겼네요. 이 주소를 등록해놓으면, 이후 selenocysteine 관련 연구를 하는 특정 누군가가 블로그에 관련 글을 썼다면, 바로 나도 받아볼 수 있습니다.

구글의 검색능력은 정말이지 탁월해서, 필자의 경우, 필자의 블로그에 썼던 글이 블로그검색 RSS 로 제공되기까지 서너시간밖에 걸리지 않았습니다.


PubMed 에서 특정 키워드가 포함된 최근 논문 목록 받기


아쉽게도 이 부분은 아직 RSS로 제공되지 않고 있습니다. NCBI에서 이미 만들어서 서비스할 줄 알았는데, 아직은 안되고 있네요. (당사에서 서비스해야 겠습니다. PubMed API를 직접 이용할 수도 있고, biopython같은 라이브러리를 써서 만들 수도 있습니다. 논문의 목록을 RSS 형식으로 변환만 하면 됩니다.)

----
이상의 방법들을 이용해서 내 연구분야를 꼭 찝어낼만한 RSS 주소들을 모아모아서 RSS 리더기에 등록해 놓으십시오. 고성능 레이더망을 갖추신겁니다. 위에 언급된 방법들만으로도 자신의 연구분야의 최신현황을 가만히 앉아서 받아볼 수 있습니다. 요즘같은 시대, 왠만한 정보들은 다 인터넷으로 올라오고, 그것들은 구글이니, 네이버니 등등의 검색엔진등에 다 알아서 정리한다죠. 그 최신의 정보들이 자동으로 당신의 모니터로 제공될 것입니다.

Posted by 人Co

2008/05/29 12:32 2008/05/29 12:32
,
Response
No Trackback , No Comment
RSS :
http://www.insilicogen.com/blog/rss/response/3