실습 시나리오
Contents
목적
문헌정보 분석 : PubMed의 다양한 기능을 활용하여 문헌 정보를 검색 한다.
윈도우즈 명령행 프로그램 실습 : 프리웨어로 사용가능한 생물정보 분석 툴을 이용하여, 실제 생물정보 분석을 수행해 본다. 대개의 생물정보 프리웨어가 유닉스/리눅스 환경이지만, 윈도우즈에서도 명령행 프롬프트하에서 대부분 분석이 가능하다는 점을 이용하여, 일반 윈도우즈 PC에서도 각종 생물정보 분석을 수행한다.
준비물
program download
환경설정
다운받은 프로그램들을 압축해제한 뒤, 하나의 디렉토리 예(C:\bio)에 모은다.
시스템설정 -> 고급 -> 환경변수 에서 PATH 변수에 위 경로를 추가해준다.
NCBI blast 프로그램 설정을 위해서는 c:\windows 디렉토리에 ncbi.ini 파일을 생성하여 아래처럼 기입해야한다. 압축해제 후 생성된 data 디렉토리를 위 경로에 복사한 뒤에, 다음처럼 data 경로를 지정해준다.
[NCBI] Data=C:\bio\data
실습내용
PubMed 검색
- Author 검색
- 저자 Alving C를 찾아보고 middle name의 이니셜이 무엇인지 유추하시오.
- 두명의 저자, Fauci AS와 Kottilil S로 검색되는 논문 수는?
- Gene이라는 성(last name)만을 알고 있다. 어떻게 찾으면 될까? 그 hit수는?
PubMed의 history 기능을 이용해서 다음의 키워드 검색을 수행보라.
- keyword :
lung cancer
mutation
mutation*
oncogene*
tumor suppressor*
tumor suppressor gene*
- 각 검색에서의 hit 수를 살펴보고,
- 각자 읽을 수 있는 분량의 hit 수가 되도록 boolean operator로 조합할 것.
- limts 기능을 이용해서 최신 2002년 이후의 논문에서만 검색이 되도록 해보고,
- 다시 인간(Human)과 중년(middle aged)에 대해서 한정하여 검색하시오.
- Abstract를 읽고 대표적인 유전자를 10개씩 리스트를 작성하시오.
- keyword :
- 식물 관련 유전자의 정보 검색
- 먼저 아래에 대해서 답하면서 식물의 재배에 대한 토론을 하자.
- 식물의 생장에 영향을 주는 것은 무엇인가?
- 어떤 지질학적 특성이 식물의 생장에 영향을 줄까?
- 왜 사람들은 식물을 재배하는가?
Humans have using genetics and breeding to tailor plants to meet our needs for thousands of years. ( 10,000yrs -Jared Diamond, 1997 Germs, Guns, and Steel)
- 좋은 특성과 많은 씨앗을 가진 식물을 육종,
- 특성을 확인할 수 있을 때까지 가꾸며 기다리고,
- 특성에 따라 선별하고 탈락.
- 형질은 서로 다른 환경에서 다르게 발현되므로 좋은 형질의 유전자의 존재를 놓칠 수 있음.
- 냉해(drought)에 잘 견디(tolerance)는 식물 유전자를 찾아라.
- 식물 추출물에서 항진균 성분을 찾고자 한다. 어떤 식물종이 가장 많은 연구가 진행되었는지 조사하라. (시간이 많이 걸리다고 생각들면 그 전략을 발표하라)
- 독성이 높은 pestiside의 사용을 줄이고 싶다. 이에 관련된 식물 유전자를 찾아라.
- 먼저 아래에 대해서 답하면서 식물의 재배에 대한 토론을 하자.
- 저녁 뉴스를 듣다가 결장암의 유전학적 최신 결과를 듣고 관련된 자료를 찾고자 한다. 그러나 뉴스에서 나온 이야기는 매우 단편적이라 분명한 정보는 단지 연구책임자가 Johns Hopkins School of Medicine의 Bert Vogelstein 박사라는 사실뿐이다.
PubMed에서 Vogelstein 박사가 작성한 논문은 총 몇 편이며? 그 중에서 colorectal neoplasms이 주제인 내용은 몇 편인가?
- Hedrick과 동료들의 논문에는 세포 분화와 결장암 발생에 있어서 DCC 유전자 산물의 역할에 대해서 설명이 있다. 이 연구 결과에서 DCC 유전자의 염색체상의 위치는 어디인가?
WWW BLAST
- Search the Arabaidopsis DNA sequence database with this seqeunce.
{{{>unknown 1
GCGGCCGCAAGGGGTTCGCGTCAGCGGGTGTTGGCGGGTGTCGGGGCTGGCTTAACTATGCGGCATCAGA GCAGATTGTACTGAGAGTGCACCATATGCGGTGTGAAATACCGCACAGATGCGTAAGGAGAAAATACCGC ATCAGGCGCCATTCGCCATTCAGGCTGCGCAACTGTTGGGAAGGGCGATCGGTGCGGGCCTCTTCGCTAT TACGCCAGCTGGCGAAAGGGGGATGTGCTGCAAGGCGATTAAGTTGGGTAACGCCAGGGTTTTCCCAGTC ACGACGTTGTAAAACGACGGCCAGTGAATTGTAATACGACTCACTATAGGGCGAATTCGAGCTCGGTACC}}}
- Approximately how many Arabidopsis sequences are very similar to it?
- Search the general protein database with this sequence? What does it encode? What conclusion can you make about the role of this equence in the Arabidopsis genome?
- Search the Arabaidopsis sequence database with this seqeunce.
{{{>unknown 2
AGCCGTACAGAGGGATACGGAGGAGGAAGTGGGGCAAGTGGGTGGCTGAGATTCGTGAGCCTAACAAACG CTCACGGCTTTGGCTTGGCTCTTACACAACCGATATCGCCGCCGCTAGAGCCTACGACGTGGCCGTCTTC TACCTCCGTGGCCCCTCCGCACGTCTCAACTTCCCTGATCTTCTCTTGCAAGAAGAGGACCATCTCTCAG CCGCCACCACCGCTGACATGCCCGCAGCTCTTATAAGGGAAAAAGCGGCGGAGGTCGGCGCCAGAGTCGA CGCTCTTCTAGCTTCTGCCGCTCCTTCGATGGCTCACTCCACTCCGCCGGTAATAAAACCCGACTTGAAT CAAATACCCGAATCCGGAGATATATAGTCAATTTATATACATGTAGTTTGTTTTGTTTGATTAGAAGATT}}}
- Approximately how many Arabidopsis sequences are very similar to it?
- B. Search the general protein database with this sequence? What does it encode? What conclusion can you make about the role of this sequence in the Arabidopsis genome?
- Find out whether the Arabaidopsis genome encodes proteins similar to WERNER Syndrome protein
{{{>gi|6136393|sp|Q14191|WRN_HUMAN WERNER SYNDROME HELICASE
MSEKKLETTAQQRKCPEWMNVQNKRCAVEERKACVRKSVFEDDLPFLEFTGSIVYSYDASDCSFLSEDIS MSLSDGDVVGFDMEWPPLYNRGKLGKVALIQLCVSESKCYLFHVSSMSVFPQGLKMLLENKAVKKAGVGI EGDQWKLLRDFDIKLKNFVELTDVANKKLKCTETWSLNSLVKHLLGKQLLKDKSIRCSNWSKFPLTEDQK LYAATDAYAGFIIYRNLEILDDTVQRFAINKEEEILLSDMNKQLTSISEEVMDLAKHLPHAFSKLENPRR VSILLKDISENLYSLRRMIIGSTNIETELRPSNNLNLLSFEDSTTGGVQQKQIREHEVLIHVEDETWDPT LDHLAKHDGEDVLGNKVERKEDGFEDGVEDNKLKENMERACLMSLDITEHELQILEQQSQEEYLSDIAYK STEHLSPNDNENDTSYVIESDEDLEMEMLKHLSPNDNENDTSYVIESDEDLEMEMLKSLENLNSGTVEPT HSKCLKMERNLGLPTKEEEEDDENEANEGEEDDDKDFLWPAPNEEQVTCLKMYFGHSSFKPVQWKVIHSV LEERRDNVAVMATGYGKSLCFQYPPVYVGKIGLVISPLISLMEDQVLQLKMSNIPACFLGSAQSENVLTD IKLGKYRIVYVTPEYCSGNMGLLQQLEADIGITLIAVDEAHCISEWGHDFRDSFRKLGSLKTALPMVPIV ALTATASSSIREDIVRCLNLRNPQITCTGFDRPNLYLEVRRKTGNILQDLQPFLVKTSSHWEFEGPTIIY CPSRKMTQQVTGELRKLNLSCGTYHAGMSFSTRKDIHHRFVRDEIQCVIATIAFGMGINKADIRQVIHYG APKDMESYYQEIGRAGRDGLQSSCHVLWAPADINLNRHLLTEIRNEKFRLYKLKMMAKMEKYLHSSRCRR QIILSHFEDKQVQKASLGIMGTEKCCDNCRSRLDHCYSMDDSEDTSWDFGPQAFKLLSAVDILGEKFGIG LPILFLRGSNSQRLADQYRRHSLFGTGKDQTESWWKAFSRQLITEGFLVEVSRYNKFMKICALTKKGRNW LHKANTESQSLILQANEELCPKKFLLPSSKTVSSGTKEHCYNQVPVELSTEKKSNLEKLYSYKPCDKISS GSNISKKSIMVQSPEKAYSSSQPVISAQEQETQIVLYGKLVEARQKHANKMDVPPAILATNKILVDMAKM RPTTVENVKRIDGVSEGKAAMLAPLLEVIKHFCQTNSVQTDLFSSTKPQEEQKTSLVAKNKICTLSQSMA ITYSLFQEKKMPLKSIAESRILPLMTIGMHLSQAVKAGCPLDLERAGLTPEVQKIIADVIRNPPVNSDMS KISLIRMLVPENIDTYLIHMAIEILKHGPDSGLQPSCDVNKRRCFPGSEEICSSSKRSKEEVGINTETSS AERKRRLPVWFAKGSDTSKKLMDKTKRGGLFS}}}
- Advanced Assignment (do this if you are already familiar with database serches) Produce an alignment of either of the following:
- Werner syndrome protein homologs of plants
Plant glycosyltransferases (start with gi|8885563|dbj|BAA97493.1| UDP-glycose:flavonoid glycosyltransferase-like Arabidopsis thaliana).
You could use, for example, the BLOCKS database or the multiple sequence alignment tool ClustalW in the BCM Search Launcher. Once you have produced the alignment, design degenerate oligonucleotide for PCR by using the Codehops program within the Blocks database.
Pairwise alignment
두개의 서열을 bl2seq 프로그램을 이용하여, pairwise alignment 해본다.
단백질 서열 비교 (헤모글로빈 단백질 서열이 얼마나 다른가)
유전체 서열 비교 (TP53 유전자의 mRNA와 genomic DNA와 비교)
mRNA : 8400737
genomic DNA : 17번 염색체의 7512464-7531642 영역
- -D 1 옵션을 이용하여, 엑셀에서도 읽을 수 있도록 조정
이후, GenomeComparison 기능을 사용함으로써 그림이미지 확인
BLAST analysis
Human hemoglobin과 가장 유사한 다른 종의 단백질은 어떤 것이 있는가를 찾아본다.
실습과정
- Entrez에서 globin키워드 혹은 hemoglobin키워드로 관련 단백질서열들을 모두 fasta format으로 다운로드 받는다.
- formatdb 를 이용하여, BLAST DB로 만든다.
- blastall 을 이용하여, BLAST 검색을 수행한다.
NCBI FTP사이트에서 적당한 사이즈의 BLAST DB용 FASTA파일을 다운로드 받아서, 검색을 수행해본다.
Multiple alignment
위 BLAST 검색결과에서 관심있는 단백질들을 따로 빈 파일에 모아본다. 스크립트를 작성해서 자동으로 생성할 수 도 있지만, 여기에서는 눈으로 보고, 관심있는 (예, beta만 모두) 단백질들만 따로 전에 blast db생성에 사용했던 파일에서 찾아서 빈 파일에 FASTA format으로 작성한다.
clustalw 프로그램을 이용하여, multiple alignment 한다. 출력옵션을 다양하게 설정해본다.
Phylogenetic analysis
위 multiple alignment 분석에서 출력옵션에 phylip 을 추가하여 수행하면, .phy 파일이 생성된다. Phylip용 입력파일 포맷이다.
Phylip 패키지에는 다양한 프로그램들이 포함되어 있다. 그중에서 phylogenetic analysis 에 사용되는 프로그램들은 다음과 같다.
- dnaml, proml : Maximum likelihood
- dnapenny, protpars : Parsimony method
- fitch, neighbor : Distance method
참고로, ClustalW프로그램의 phylogenetic analysis 메뉴는 neighbor joining 알고리즘을 이용한 것이다.
각각의 프로그램들을 입력파일(*.phy)을 이용하여 tree 파일을 생성해본다.
생성된 tree 파일을 TreeView 프로그램을 이용하여 Phylogenetic tree를 직접 그려본다.
Genome annotation
Apollo프로그램을 설치하고, CG16983.chado.xml파일을 로드한 뒤, 각 feature 영역들의 설명들을 확인한다.
GAVI에서 자신만의 genome map을 그려본다.
Ensembl 에서 Human X chromosome 0~1Mbps 영역에서 얻을 수 있는 모든 가능한 cDNA의 서열들을 FASTA format 과 Excel format으로 얻기









