How can I find candidate genes related to a specific plant trait?


특정 식물의 특성과 관련이 있는 후보 유전자는 어떻게 찾을 수 있을까?
식물의 특성 중에서도 과일 단계에서 과일의 크기, 모양, 색과 같은 다양한 특성에 관련된 유전자를 찾는 방법에 대해서 알아보고자 한다. 또한 과일의 색에 영향을 주는 유전자들을 찾았다고 한다면 유전자들 중에서 영향을 많이 준 순서대로 보는 방법과 과일의 색과 유전자의 관계를 뒷받침해주는 논문의 수가 많은 순서대로 보는 방법도 함께 소개한다.

Step to follow


Step 1. Fruit 검색

Search Entities by keword를 통해 과일과 관련이 있는 Cell Process만 검색한다. 검색된 Cell Process 중에 보고자 하는 것만 선택하고 복사한 뒤 새 Pathway 문서에 붙여넣기 한다.

사용자 삽입 이미지

Step 2. Pathway 옵션 설정

선택한 Cell Process와 관련이 있는 유전자를 찾고 Pathway로 나타내기 위해 옵션 설정 과정을 거친다. Advanced Build Pathway Wizard 에서 Add Neighbors > Directionality: “Upstream” > Entity type: “Protein” > Filter Parameters: “Regulation” 순으로 선택한다.

사용자 삽입 이미지
Step 3. Entity Table 보기(View > Entity Table View)

엔티티 테이블 보기를 하면 Pathway에 있는 모든 엔티티에 대한 정보를 테이블 형태로 볼 수 있다. 테이블 컬럼 중에 Outdegree 컬럼을 내림차순으로 정렬하면 과일의 특성과 관련된 유전자 중에서 많은 영향을 준 유전자 순으로 볼 수 있다.

사용자 삽입 이미지

Step 4. Relation Table 보기(View > Relation Table View)

Relation 테이블 보기는 Pathway의 Relation에 대한 정보들을 테이블 형태로 보여 주는 기능을 한다. # of Reference 컬럼을 내림차순으로 정렬하면 Relation 정보를 뒷받침해주는 Reference가 많은 순으로 Effect 정보와 함께 볼 수 있다.

사용자 삽입 이미지
Step 5. Active Style 변경

Effect와 Reference 개수에 따라 그래프 보기에서도 효과를 나타내 줄 수 있다. Style 메뉴의 Active Style Sheet에서 By Effect를 선택하면 Effect의 Positive, Negative 효과에 따라 Relation 선색을 다르게 할 수 있으며, By Reference Count를 선택하면 Reference의 개수에 따라서 Relation 선색이 달라지는 것을 확인 할 수 있다.

사용자 삽입 이미지

아래 동영상보기를 하시면 5개의 Step을 한 번에 보실 수 있습니다.




Posted by 人Co

2010/10/18 10:44 2010/10/18 10:44


연재 순서

 1. PathwayStudio 소개
 2. 문헌정보를 활용한 유전자 네트워크 분석
 3. Chip 실험 데이터에서의 유전자 네트워크 분석
 4. Drug 발굴을 위한 지식 데이터베이스 ChemEffect


Chip 실험 데이터에서의 유전자 네트워크 분석


 DNA Chip 분석 실험을 통해 유전자의 발현 양상을 분석하는 연구가 이전부터 많이 진행되어 왔다. 특정한 조건하에서 발현을 보이는 유전자가 무엇인지 검토하고 이들 유전자에 대한 다양한 정보를 검토하는 것이 이전의 연구방향이었다. 그러나 Eukaryote유전체에서는 하나의 유전자가 다양한 역할을 수행하기도 하며, 반대로 여러 개의 유전자들이 서로 상호 연관관계를 맺어서 하나의 기능을 수행하기도 한다. 따라서, 이러한 유전자들의 상호 연관관계를 도출하고자 하는 연구가 최근들어서는 중요시되고 있다. 즉 차등발현을 보이는 여러 개의 유전자들을 upstream 단계에서 조절하고 있는 요소가 무엇인지, 또한 여러 개의 유전자들이 공통적으로 타겟을 정하고 있는 질병이나, 유전자들이 무엇인지를 밝히고자 한다. 이번 블로그에서는 PathwayStudio를 이용하여 Chip 실험 데이터에 대한 유전자 네트워크 분석 방법에 대해서 알아보고자 한다.

Data importer

 
 실험 데이터를 분석하기 위해 먼저 실험데이터를 Import 해야 한다. Pathway Studio는 실험 데이터를 매우 쉽게 입력 할 수 있도록 인터페이스가 구성되어 있다. 입력 할 수 있는 형식으로는 Gene expression, Metabolomics, Proteomics가 있다. 입력 할 수 있는 데이터의 포맷도 아래와 같이 다양하게 제공된다.

  • Tab-delemited text(Generic)
  • Microsoft Excel
  • GEO Datasets (GDS in SOFT format)
  • Affymetrix Raw (CEL)
  • Affymetrix CHP
  • Agilent
  • Illumina

 입력할 데이터의 포맷은 DNA Chip 실험 분석을 통해서 얻어진 정보들을 탭 분리형식으로 구성되어진 파일과 엑셀 형식으로 되어 있는 파일을 불러들일 수 있다. 또한 Affymetrix, Agilent, Illumina 사와 같은 기존에 가장 많이 분석에 이용되고 있는 상용화 DNA Chip 정보 포맷도 쉽게 불러들여 분석을 진행 할 수 있다. 탭 분리형식으로 데이터가 저장된 파일을 불러들여 분석을 할 경우 아래와 같이 모두 10가지 단계를 거치게 된다.

 실험 데이터의 형식, 파일 포맷, 그리고 입력할 파일과 최종 저장할 디렉토리를 선택하면 모두 10가지 단계의 입력과정을 거치게 된다. 첫 번째 단계에서 부터 순서대로 실험 데이터의 헤더 설정, 데이터가 시작되는 행의 지정, Probe identity를 표현하는 컬럼 지정, 샘플의 layout 설정, 데이터의 마지막 컬럼 지정, 부가적으로 사용될 annotation으로 컬럼 설정, 샘플 타입, 부가적으로 Probe를 식별하는데 사용하는 Identifier, expression 분석에 사용되는 annotation 컬럼을 선택한다. 마지막 열 번째 단계에서는 반복실험을 수행한 샘플들간의 상호 연관성을 볼 수 있는 sample correlation 단계로 샘플 간에 가까운 상관관계가 있는 것끼리 그룹으로 설정하여 Tree 형태로 보여준다. 여기에서 correlation이 잘못된 경우 분석에서 제외할 샘플을 선별 할 수 있다.

사용자 삽입 이미지
그림 1. Chip 실험 데이터 import step


Result and displays


 모든 입력 단계가 완료되면 아래와 같이 Pathway Studio에 실험데이터가 입력 된 것을 확인할 수 있다. 실험 데이터 뷰어는 크게 5가지 부분으로 나뉜다.

  1. 데이터를 분석하거나 편집할 때 많이 사용하는 기능을 모아 놓은 Toolbar
  2. Probe를 빠르게 검색하여 찾을 수 있는 검색창
  3. Probe ID 컬럼
  4. 발현 차이를 보기 위해 t-test 통계 수치가 계산된 컬럼
  5. 샘플 데이터
사용자 삽입 이미지
그림 2. 실험 데이터 Viewer 인터페이스


Data analysis algorithms


Pathway Studio에서 실험데이터를 분석하는 알고리즘은 크게 세 가지가 있다.

  • Fisher's Exact Test
  • Gene Set Enrichment Analysis
  • Sub-Network Enrichment

 Fisher's Exact Test와 Gene Set Enrichment Analysis는 Enrichment를 분석하는 서로 다른 알고리즘이고 Sub-Network Enrichment는 ResNet에서 사용자가 직접 Gene Set을 설정해 주는 것으로 알려진 Gene Set을 사용하는 앞의 두 알고리즘과는 다르다.

 먼저 Fisher's Exact Test를 수행하기 전에 통계적으로 유의한 유전자 리스트를 확인하기 위해 필터링 과정을 거친다. Toolbar에서 Filter Probes by value를 클릭하면 대화창이 나타난다. 필터링을 적용하고자 하는 샘플을 선택하고 Probe 범위와 P-value cutoff 값을 입력하여 필터링을 수행 한다. 이제 Filter를 통해 나온 데이터들을 이용해서 Fisher's Exact Test를 수행한다. 분석하고자 하는 데이터 컬럼에서 마우스 오른쪽을 눌러 Find Pathway/Groups Enriched with Selected Entities를 선택한다. 대화창이 나타나는데 여기에서 실험 데이터를 대상으로 Fisher's Exact Test를 수행 할 Ontology나 Pathway를 선택한다.

사용자 삽입 이미지

그림 3. Fisher's Exact Test 분석 1) Filter Probes by value 2) Find Pathway/Groups Enriched with Selected Entities

 분석이 완료되면 하단에 P-value를 기준으로 정렬된 분석 결과가 테이블 형태로 나타난다. 결과 테이블에서는 분석할 때 선택한 샘플 유전자들이 어떤 Pathway나 Group에 가장 가깝게 해당되는지 알 수 있다. 아래의 결과 테이블을 예로 들어보면 Fisher's Exact Test를 할 때 선택해준 샘플 데이터가 결과 테이블 첫 번째 행에 있는 ECM degradation 즉, ECM 단백질의 분해에 관여하는 Group에 속한다는 것을 알 수 있다. ECM degradation group에는 14개의 Entity가 있는데 그 중에서 선택한 샘플 데이터와 중복이 되는 것은 3개이고 구체적으로 어떤 유전자가 중복이 되는지 리스트도 함께 보여준다.

사용자 삽입 이미지
그림 4. Fisher's Exact Test 분석 결과 테이블

결과 테이블에서 보고자 하는 Pathway를 오픈하면 Graph view에서 볼 수 있다. 이 Pathway에 있는 Entity들이 입력한 실험 데이터에 있는 유전자들 중에서도 발현이 되고 있는지 보고자 한다면 실험 데이터 viewer의 Toolbar에서 Link 버튼을 이용한다. 발현이 되고 있다면 Entity의 색이 변하는 것을 볼 수 있다.

사용자 삽입 이미지
그림 5. Fisher's Exact Test 분석 결과 Pathway 보기 Link 메뉴를 통해 분석결과 나온 Pathway와 실험 데이터의 유전자들이 서로 link 되어 있는지 확인할 수 있다.

 두 번째 알고리즘인 Gene Set enrichment 분석은 Fisher's Exact Test와 비슷한 분석이지만 실험 데이터에 서열화 방법을 적용하였다는 차이점이 있다. Gene Set enrichment 분석을 할 때에는 Filter를 적용하지 않고 분석을 시작한다. Enrichment 분석 할 알고리즘으로 2가지가 제공되는데 Mann-Whitley Utest와 Kolmogorov-Smirnov가 그것이다. 두 가지 모두 순위척도 자료를 위한 비모수 통계방법으로 두 모집단 사이에 유의한 차이가 있는지를 검정할 때 사용한다.

 Gene Set enrichment 분석도 마찬가지로 분석이 완료되면 그림 3과 같은 결과 테이블을 제공한다. 결과 테이블에서 Fisher's Exact Test와 다른점이 있다면 Median fold change 값을 제공한다는 것이다. 이 값을 통해 측정된 Entity 그룹에 대한 fold change 값의 분포를 알 수 있고, 결과 set에서 더 up regulated 되거나 더 down regulated 되는 그룹을 빠르게 확인 할 수 있도록 정보를 제공해 주고 있다.

 이렇게 분석 결과 나온 pathway는 여러 가지 pathway를 합쳐서 보거나, 공통된 것 또는 공통된 것을 제외한 나머지 부분만을 볼 수도 있다. 또한 실험데이터가 Time-course로 진행된 실험이라면 특정 Entity가 시간에 따라 어떻게 발현이 달라지는지 볼 수 있다. 보고자 하는 Entity를 하나 선택하고 마우스 오른쪽을 클릭하면 Show diagram이 있다. 이것을 클릭하면 그림에서 보는 것과 같이 Line plot 형태로 그려진 diagram이 생성된다. 다시 이 다이어그램을 클릭하고 마우스 오른쪽을 노르면 Show as Heat Map 메뉴가 있는데 이것은 Line plot 형태의 다이어그램을 Heat Map 형태로 바꾸어 볼 수 있는 역할을 한다.

사용자 삽입 이미지
그림 6. Visualizing time-course data on pathway

 Pathway Studio를 통해서 실험데이터 차등발현유전자를 선별하고 여러가지 통계분석을 통해 이 유전자들을 조절하는 상위조절인자를 분석하거나 차등발현유전자들이 공통적으로 작용하고 있는 질병, 세포내 프로세스 등을 알아볼 수 있었다. 앞선 연재에서 설명한 Pathway Studio의 ResNet DB 또는 문헌정보를 활용한 유전자 네트워크 정보와도 비교 분석하면서 데이터를 해석하면 좀 더 의미있는 결과가 도출될 것이다.

Posted by 人Co

2010/06/16 09:23 2010/06/16 09:23

연재 순서

 1. PathwayStudio 소개
 2. 문헌정보를 활용한 유전자 네트워크 분석
 3. Chip 실험 데이터에서의 유전자 네트워크 분석
 4. Drug 발굴을 위한 지식 데이터베이스 ChemEffect


MedScan의 필요성


 과학 문헌의 대표적인 데이터베이스인 NCBI의 PubMed는 시간이 지날수록 등록되는 문헌의 수가 급속도로 증가하고 있으며, 최근에는 약 1,900만건 이상의 문헌들을 서비스하고 있다. 즉, 증가의 추세로 볼 때 하루에 약 4,100여건의 문헌이 업데이트되고 있다. 문헌이 기하급수적으로 증가함에 따라 관련 연구에 대한 정보를 찾기 위해서 연구자들은 점점 더 많은 시간과 노력을 기울여야 한다. 이에 따라 문헌 속에서 생물학적인 정보를 자동으로 추출하는 시스템의 필요성이 증가하고 있다.

사용자 삽입 이미지
그림 1. NCBI PubMed 문헌의 증가 속도.


MedScan의 특징


 이번 블로그에서는 PathwayStudio와 연계된 프로그램으로 PubMed, Google, 그리고 PDF, DOC 형식으로 된 문헌에서 텍스트 마이닝 기법으로 생물학적인 의미가 있는 데이터를 자동으로 추출하는 MedScan에 대해 소개하고자 한다. 데이터를 추출할 때 사용되는 텍스트 마이닝 기법은 복합 문서와 인터넷 페이지 등과 같은 비정형 데이터로부터 자연언어처리 기술과 문서처리 기술을 적용하여 유용한 정보를 추출하고 가공하는 기술을 말한다.

사용자 삽입 이미지
그림 2. MedScan 시스템.

텍스트 마이닝 기법을 이용한 MedScan은 아래와 같은 특징들을 가지고 있다.

  • 생물학적인 문헌에서 정확하게 데이터를 추출할 수 있도록 과학적 언어에 Focusing
  • 생물학 전문가에 의한 정보의 수정 및 Dictionary라고 정의된 Mammalian, Plant에 특화된 텍스트 마이닝
  • 2분안에 918개의 abstract 다운로드, 7,700개 문장 리뷰, 7,300개 entity와 577개의 relation 관계 확인을 동시에 할 수 있을 정도의 빠른 속도
  • 동일한 주제의 연구 정보에 대한 중복성 제거
  • 생물학 전문가의 수정 및 지속적인 검증을 통한 10% 이하의 낮은 False positive 데이터
  • Dictionary 및 검색 패턴을 연구자 의도에 따른 customization 가능

Tutorial


 MedScan은 Pathway Sutido를 통해 실행시킬 수 있다. 실행된 화면은 그림 3에서 보는 것과 같이 사용자가 친숙하게 사용할 수 있도록 인터페이스가 구성되어 있다. MedScan에 서 문헌을 검색하기에 앞서 먼저 Catridge를 선택한다. Human, Mouse, Rat과 같은 mammal에 대한 검색을 할 때에는 Standard catridge를 선택하고, Plant와 관련된 검색을 할 때에는 Plant catridge를 선택한다. 간단하게 설정을 마치고 나면 검색을 수행할 수 있다.

사용자 삽입 이미지
그림 3. MedScan 인터페이스.



문헌 검색

 
 검색은 Popular Destinations과 Quick Import 두 가지 검색 방법을 이용한다. Popular Destinations에서는 Search PubMed, Search BioMed Central, Search HighWire Press, Search Google Scholar, Search Google 다섯 가지의 검색 할 수 있는 destination(그림 4)이 제공된다. 각각을 클릭하면 MedScan에서 바로 웹 사이트로 연결이 되어 인터넷 창을 따로 띄우지 않고도 검색을 수행 할 수 있도록 되어 있다. Quick Import 검색은 웹 사이트로 직접 연결하여 데이터를 검색하는 것보다 조금 더 빠르고 편리한 방법이다. 웹사이트에 연결하지 않고 바로 쿼리를 입력할 수 있도록 되어 있어서 Import PubMed Dataset에 쿼리를 입력하고 Query and Import 버튼을 클릭하면 기본적으로 PubMed abstract에서 1000개까지의 abstract을 추출해 준다.

사용자 삽입 이미지
그림 4. MedScan 검색 방법. 1) Popular Destinations 2) Quick Import

 Popular Destination 검색 가운데 “Search PubMed”를 선택하면, NCBI의 PubMed와 동일한 화면을 볼 수 있다. NCBI의 PubMed에서 문헌을 검색할 때와 동일한 방법으로 알고자하는 쿼리를 입력하고 검색을 수행한다. PubMed에서 문헌을 검색할 때 Display Setting을 Abstract로 변환하고, 페이지당 보여지는 문헌의 개수를 200개로 변환하면 더욱 더 많은 정보를 추출할 수 있다는 것을 염두해두자. 검색된 Abstract에서 검색하고자 했던 쿼리와 관련이 있는 정보들이 있는 문장은 노란색 배경처리되어 표시되고 생물학적인 의미를 지니고 있는 단어는 초록색으로 표시가 된다. 표시가 된 부분은 자동으로 Entity와 Relation으로 추출되어 우측 상단의 테이블 형태로 정리가 된다.

검색 결과


 검색 결과가 정리된 우측의 테이블은 Relation tab과 Entities tab 두 가지 tab으로 결과가 정리되어 있다. Relation tab을 보면 첫 번째 컬럼은 Reference 문헌의 개수를 의미하고 두 번째 컬럼은 Entity 1, 세 번째 컬럼은 Relation 관계 정보를 마지막 네 번째 컬럼은 Entity 2를 나타낸다. 상단 도구모음의 View를 클릭하면 데이터를 컬럼별로 정렬하여 볼 수 있도록 되어 있다. 각각의 컬럼을 정렬해가면서 원하는 데이터만 키보드의 Shift 또는 Ctrl을 사용하여 선택한다. 그런 다음 선택된 데이터만 아래의 Known Relation 테이블로 이동시킨다. Known Relation 테이블에서도 다시 한 번 view를 통해 정렬을 하여 컬럼을 선택 할 수 있다.

 그렇게 해서 최종적으로 선택된 데이터들만 가지고 Pathway Studio로 이동시킨다. 선택된 데이터에서 마우스 오른쪽을 누른 뒤 send to pathway studio 클릭한다. Pathway Studio를 다시 실행 시켜 보면 MedScan에서 보낸 데이터를 Import 할 수 있는 창이 떠있고 여기에서 pathway를 저장 할 디렉토리를 선택해주고 Next를 클릭한다. Import가 완료되고 해당 디렉토리로 가면 MedScan에 서 보낸 데이터 정보를 이용하여 그려진 pathway 파일이 생성되어 있는 것을 확인 할 수 있다.


사용자 삽입 이미지
그림 5. MedScan 검색 결과.

  이밖에도 MedScan에서는 직접 사용자가 가지고 있는 텍스트, 워드, pdf, XML 또는 HTML 포맷의 문서를 Import 하여 데이터를 추출 할 수도 있다. Import 할 문서가 한 개 이상일 때에는 문서를 하나의 폴더 안에 저장해 놓고 폴더 자체를 Import 할 수도 있다. 우리가 어떤 연구를 하기 전에는 보통 문헌에서 내가 하고자 하는 연구가 어느 정도 선행 연구가 이루어 졌는지 알아보는데 그 때마다 많은 문헌들을 하나 하나 살펴 보기에는 어려움이 있다. 그 때 MedScan을 사용하면 그런 점에서 많은 도움을 줄 뿐만 아니라 그 문헌들 사이에서 의미 있는 결과까지 도출해 줄 수 있으리라 생각된다.



Posted by 人Co

2010/06/07 17:38 2010/06/07 17:38