지난 더운 여름, EBS 다큐프라임에서 재밌는 이야기 하나를 보았습니다. "기생충과 우리는 함께 진화해 오고 있다." 그저 징그럽고 혐오스러웠던 하등한 기생충 따위가 월등히 진화된 우리와 함께 라니... 라며 반문 할 수 있겠지만, 생화학적으로나 진화적으로 '제대로' 진화해온 기생충이야 말로 똑똑하게 진화해서 숙주를 조종까지 하게 되었습니다



일례로 의학을 상징하는 카두케우스의 지팡이에 감긴 뱀 두 마리는 메디나충을 의미하는 것으로 예로 부터 알려진 대표적인 숙주를 조종하는 기생충입니다. 아프리카등지에서 오염된 물을 통해 감염된 메디나충은 성충이 되어 숙주 몸 밖으로 안전하게 알을 배출하기 위해 숙주인 사람을 물가로 이끌게 합니다. 중력 때문인지, 물과 근접하기 위함인지 정확하진 않지만, 대부분 물과 쉽게 닳는 발이나 복숭아뼈 근처 피부를 뚫어 수포를 만들고 염증반응을 유발하여 화끈거리는 발을 물가로 인도 하는 메디나 충은 그 긴 몸을 드러내고 본인의 목적을 달성합니다. 다시금 중간 숙주인 물벼룩의 먹이가 되어 보다 많은 종 숙주(사람)에서 삶을 이어갈 수 있도록 말입니다.

기생충은 오로지 자손 번식을 위해서만 살아간다고 합니다. 그렇게 진화된 것이라고 합니다. 회충은 몸의 대부분이 생식기로 구성되어 있으며 암컷 회충은 하루에 20만개의 알을 낳는다는 것도 이런 이유일 것입니다. 유충 상태로 우리 몸 어딘가에 정착된 기생충은 처음 직면하는 어려움이 우리 몸의 면역 세포들과의 소소한 싸움입니다. 면역 세포에 비해 덩치가 워낙 큰 기생충은 사실상 상대가 되지 않을 만큼 면역세포들에게는 큰 적입니다. 그러나 소소한 면역 세포의 끊임없는 괴롭힘은 사실 기생충으로 하여금 '나는 오직 자손 번식만 하면 돼..너 괴롭힐 맘 없으니 잠시 방 하나만 내어주면 조용히 지낼께~' 라며 양해를 구하게 하고, 싸우기 힘든 면역 세포 입장에서는 '그래, 약속만 한다면야...내가 참아주지.' 라며 서로 합의에 이르게 합니다. 그러나 이러한 합의는 성충이된 기생충의 살아가는 목적인 알을 안전하게 다음 숙주로 옮겨주어 자손을 널리널리 퍼뜨려 종족이 사라지지 않도록 하기 위해 위반하게 되고 숙주에게 해를 끼치게 됩니다. (물론, 중간 중간 이상한 물질을 분비하여 신경계를 교란 시키거나 여러 조직을 돌아다니면서 물리적으로 치명적인 해를 입히는 기생충도 많이 있습니다. )

여기서 생물을 연구하는 우리는 의문을 품었습니다. '기생충과 면역 세포간의 합의가 이뤄진 그 기간 동안 민감했던 면역 시스템이 대충 눈감아 줄 정도로 유연해 졌다면, 아토피나 알레르기와 같은 예민한 자가 면역이 호전 되지 않을까?' 전 세계 많은 과학자들은 실험을 했고, 결론은 '기생충이 아토피와 같은 자가 면역 질환에 도움이 된다'를 주장 하는 논문과 '유의한 결과가 없다'를 주장하는 논문이 함께 맞서고 있습니다[1][2][3][4].



이러한 상황을 생물정보학적으로 접근해 보겠습니다. 현재까지의 자가면역 질환에 대한 기생충의 효과는 대부분이 자가면역질환을 유도하는 면역 시스템인 Th2 면역반응에 수반되는 IL-4, IL-5, IL-6, IL-10, IL-13와 같은 cytokine과 IgE와 같은 염증반응을 유도하는 면역 글로빈의 반응을 중심으로 연구 되었습니다. 이를 유전체 전반으로 확장하여 생각해 보면, 실험의 대상이 되는 숙주인 사람은 생김새 부터 식습관, 성격까지 다양한 나름의 특징을 가지고 있고 이는 46 개 염색체 전반에 분포하고 있는 유전체상의 서열변이로 인해 갖는 다양성입니다. 따라서, 본래 태어날 때부터 갖는 외부 자극에 대한 면역 반응이 서로 다를 수 있으며 자라온 환경적인 이유로도(Epigenomics) 그 반응이 상이 할 수 있습니다. 같은 아토피 환자라 할지라도 반응 정도, 반응 물질, 반응 시기까지 모두 다양하게 나타나는 예가 바로 이에 해당된다 할수 있습니다. 따라서 복잡한 면역시스템과 기생충간의 상호 대응 관계를 일반화 시키기 위한 조건을 잡는 것은 쉬운일이 아닐것입니다.

생물정보분야에서는 이러한 복잡한 배경속에서 결론을 얻기 힘든 상황을 해결하기 위해 시맨틱 모델을 적용한 데이터 베이스를 활용하기 시작했습니다. 최대한 다양한 정보를 바탕으로 각각의 경우에 따른 반응정도를 정리하는 데이터 베이스를 구성하는 것으로 다음과 같은 정보들을 정리 할 수 있습니다.

첫번째, 유전체내 서열 변이 정보를 정규화 하여 데이터 베이스화 합니다.
예를 들어 집먼지 진드기에 알레르기를 일으키는 유형과 꽃가루 혹은 견과류에 반응을 보이는 유형 각각의 유전체 정보를 정규화 합니다. 단일염기변이(SNPs) 정보, gene loss 정보와 같은 유전체 전반에 걸친 정보를 데이터베이스화 합니다.

두번째, 이들의 유전자 발현 패턴을 정보화 합니다.
동일한 외부 자극에 대한 반응의 정도를 각각의 유형(집먼지진드기, 꽃가루, 견과류 반응)에 따라 유전자의 발현 패턴을 정규화 합니다. 또한 기생충(유충) 감염 상태에서의 유전자 발현 정도도 함께 체크합니다. (단, 감염 초기 4주 안에는 숙주에 큰 피해를 주지 않는다는 안정성 테스트가 있었습니다[5].) 뿐만 아니라 감염되는 기생충의 종, 감염 기간, 감염량에 따라서도 많은 차이를 보이므로 이들에 대한 적절한 실험 디자인이 필요합니다.

세번째, 기본적인 유전자의 생물학적 기능 정보를 비롯해 현재 알려진 세포내 신호전달 정보를 데이터베이스화 합니다.
KEGG를 비롯한 biocarta의 데이터베이스와 현재까지 업데이트 되지 못한 문헌상의 pathway 정보를 데이터베이스화 합니다(문헌상의 pathway 정보를 텍스트마이닝을 통해 정리해 주는 프로그램은 'PathwayStudio', 'Ingenuity' 등이 있습니다).

네번째, 각 실험 대상인 유형별 표현형을 데이터베이스화 합니다.
나이, 체중, 성별, 가족관계, 혈액형, 성격, 질병이력 등을 비롯해 식습관, 사는곳 등 가능한 많은 표현형 정보와 환경적인 요인을 정보화 합니다.







다섯번째, 현재까지 정리된 데이터들을 서로 연결합니다.
이때, 각각의 정보에 대한 의미론적인 관계(Semantic model)를 맺어주게 되고 이를 통해 기계가 특정 자극에 대한 결과를 통합적으로 살펴볼수 있도록 합니다(이를 위해서는 Biomax사의 'BioXM' 을 이용할수 있습니다).

이렇게 구축된 데이터베이스는 사용자의 질문에 대해 가능한 모든 정보를 배출하게 됩니다. 따라서 사용자는 최대한 많은 경우를 고려한 질문을 데이터베이스에 요구하여 데이터베이스로 하여금 시맨틱모델이 적용된 많은 조건을 모두 통과한 결과를 배출 하도록 하는 것이 필요합니다. 또한 의미있는 결과를 얻기 위해서는 앞서 언급했듯이 이러한 시맨틱 데이터 베이스가 최대한 많은 정보를 담아야 합니다. 따라서 다양한 실험 결과를 생산해 냄과 동시에 이미 공개된 데이터와 세계 각국에서 따로따로 진행된 일부 정보들을 모두 활용하여 세포속 네트워크 처럼 만들어 가는 것이 가장 중요하다 할 수 있습니다.

현재까지는 열거된 정보를 담은 기생충과 숙주와의 관계를 살펴 볼수 있는 데이터베이스를 찾기가 쉽지 않습니다. 그러나 시간이 갈수록 촘촘해지는 네트워크를 구축해 간다면,
"땅콩에 예민한 알레르기 반응을 보이는 반면 집먼지 진드기에는 반응을 보이지 않고있는 10세 이하의 어린이들 중 Heligomosomoides polygyrus 감염후 IgE 항체의 양이 4배이상 증가하는 숙주들의 유전자 loss들이 관여하고 있는 공통된 pathway는 무엇인가?" 라는 질문에 대한 정보에서 재밌는 단서를 찾을 수 있지 않을까 기대해 봅니다.



Reference

  1. Fallon PG, Mangan NE (2007) Suppression of TH2-type allergic reactions by helminth infection. Nat Rev Immunol 7: 220-230.
  2. Yazdanbakhsh M, Kremsner PG, van Ree R (2002) Allergy, parasites, and the hygiene hypothesis. Science 296: 490-494.
  3. Harnett W, Harnett MM (2008) Therapeutic immunomodulators from nematode parasites. Expert Rev Mol Med 10: e18.
  4. Yazdanbakhsh M, van den Biggelaar A, Maizels RM (2001) Th2 responses without atopy: immunoregulation in chronic helminth infections and reduced allergic disease. Trends Immunol 22: 372-377.
  5. Falcone FH, Pritchard DI (2005) Parasite role reversal: worms on trial. Trends Parasitol 21: 157-160

작성자 : Codes 사업부 Research팀
신윤희 선임

Posted by 人Co

2013/11/20 14:10 2013/11/20 14:10
, , , , , , ,
Response
No Trackback , No Comment
RSS :
http://www.insilicogen.com/blog/rss/response/142


연재 순서

 1. PathwayStudio 소개
 2. 문헌정보를 활용한 유전자 네트워크 분석
 3. Chip 실험 데이터에서의 유전자 네트워크 분석
 4. Drug 발굴을 위한 지식 데이터베이스 ChemEffect


약물 작용과 효과의 profiling을 위한 ChemEffect Database


 현재 지구상에는 약 800만 종의 화학물질이 존재하고 그 중에서 8만여 종이 상업적으로 생산, 판매되고 있다고 한다. 우리나라에서 사용되는 화학물질의 종류는 약 1만여종으로 매년 증가하고 있다. 이러한 화학물질 가운데 사람의 유전자에 영향을 미치는지 파악하기 위해서는 DNA chip실험을 통한 분석 및 다른 다양한 실험을 통해서 판별이 가능하다.

 약제로 개발되는 화학물질의 경우 인체에 부작용을 일으키는지 여부는 실험을 거치지 않고서는 판별할 수 없다. 최근 들어, 독성유전학이라는 분야가 새로운 연구로 각광을 받고 있으며, 산업 현장 및 일상생활속에서 접하고 있는 중금속이 인체의 유전자에 미치는 영향을 파악하고자 하고 있다.

 AriadneGenomics사 에서는 이러한 화학물질의 특성 및 유전자에 영향을 미치는 지 여부 등을 기존의 논문 정보와 실험 정보등을 통해서 “ChemEffect” 라는 데이터베이스를 구축하여 서비스를 제공하고 있다.

 ChemEffect 데이터베이스는 화학물질인 small molecular가 gene과의 연관관계 및 cellular processes에서의 역할들에 대한 다양한 정보를 담고 있다. 이 정보는 약물의 화학물질에 대해서 독성과 compound 타입에 의한 부작용을 프로파일링 하거나 효소정보를 찾을 때, 독성과 약물 메커니즘 사이의 관계를 결정 지을 때 그리고 대체 물질을 찾을 때 많은 도움이 된다.

사용자 삽입 이미지
그림 1. ChemEffect 데이터베이스의 Small molecule과 protein의 다양한 관계 정보.

ChemEffect 데이터베이스를 이용하면 아래와 같은 문제들을 빠르게 해결할 수 있다.

  • 후보 약물과 관련된 pathway와 연결되어있는 질병을 확인할 때,
  • Target pathway 또는 Target protein에 영향을 미치는 compound를 발견하고자 할 때,
  • Compound에 의해 영향을 받는 Target protein을 찾을 때,
  • Compound와 관련 있는 부작용에 대한 연구를 할 때,
  • 약효, 독성, drug-drug 작용과 같은 잠재적인 결과와 compound 사이의 관계를 설계 할 때,

ChemEffect 데이터베이스의 구성


 ChemEffect는 NLP(Natural Language Processing) 기술을 응용하여 과학문헌 정보에서생물학적인 정보를 추출하는 MedScan과 추출된 정보를 이용하여 다양한 정보들 간의 네트워크를 그래픽적으로 표현할 수 있는 PathwayStudio로 구성되어 있다.

사용자 삽입 이미지
그림 2. ChemEffect 데이터베이스 Component 구성. MedScan을 이용하여 Text 정보를 추출하고 추출된 데이터는 ChemEffect 데이터베이스에 저장된다. 이후 데이터베이스의 데이터들을 활용하여 PathwayStudio에서 는 데이터들 사이의 관계를 그래픽으로 표현하여 하나의 메커니즘으로 생성된다.


ChemEffect 데이터의 구성


 ChemEffect의 데이터는 앞서 말한 것과 같이 MedScan의 텍스트-마이닝 기법을 이용하여 추출된다. Pathway Studio의 기본 데이터베이스인 ResNet Mammalian 데이터베이스와 결합된 ChemEffect에는 NCBI PubMed에 투고된 논문 정보로부터 추출된 Entity, Relations 정보 이외에도 기존에 알려져 있는 Pathway, Ontologies, Annotation 정보들도 함께 포함하고 있어 보다 다양한 정보를 얻을 수 있다.

사용자 삽입 이미지
Table 1. ChemEffect 데이터 구성 표(2.0 version).



ChemEffect 데이터베이스를 활용한 Workflow


 ChemEffect 데이터베이스를 활용해서 1차적으로 보고자 하는 drug 또는 small molecule에 대해 지식 기반의 프로파일링을 수행 할 수 있다. 예를 들어 Sorafenib라는 Small molecule의 1차 검색을 통해서 이 small molecule과 관련 있는(Metabolized by, Directly Inhibits, DownRegulates, UpRegulates) 단백질 정보와 Sorafenib에 의해 Inhibit되고 Activate하는 cell processes에는 어떤 것들이 있는지 프로파일링 정보를 얻을 수 있다. 모든 정보에 대해서는 이를 뒷받침하는 문헌 정보와 링크가 되어 있어 바로 확인이 가능하므로 분석된 데이터에 대한 신뢰성이 상당히 높다고 할 수 있다.

사용자 삽입 이미지
그림 3. Small molecule(Sorafenib)에 대한 knowledge profile 정보.


 더 나아가서는 Drug Discovery를 할 때 다양한 Application에서 ChemEffect 데이터베이스를 사용할 수 있다. In silico 단계에서 Target을 validation 할 때, In vitro 단계의 Lead Optimization, In vivo 단계에서의 Candidate Nomination/Preclinical 이 세 가지 모든 과정을 통합하고 해석하고 마지막으로 최종 결정에 이르기까지 유용하게 응용 될 수 있다.

사용자 삽입 이미지
그림 4. Drug discovery의 세 단계 Application. 각 단계를 통합, 해석, 결정하는 데 있어서 다양한 Application에 ChemEffect 데이터베이스를 사용하여 Drug discovery를 할 수 있다.

Posted by 人Co

2010/06/28 17:39 2010/06/28 17:39

연재 순서

 1. PathwayStudio 소개
 2. 문헌정보를 활용한 유전자 네트워크 분석
 3. Chip 실험 데이터에서의 유전자 네트워크 분석
 4. Drug 발굴을 위한 지식 데이터베이스 ChemEffect


MedScan의 필요성


 과학 문헌의 대표적인 데이터베이스인 NCBI의 PubMed는 시간이 지날수록 등록되는 문헌의 수가 급속도로 증가하고 있으며, 최근에는 약 1,900만건 이상의 문헌들을 서비스하고 있다. 즉, 증가의 추세로 볼 때 하루에 약 4,100여건의 문헌이 업데이트되고 있다. 문헌이 기하급수적으로 증가함에 따라 관련 연구에 대한 정보를 찾기 위해서 연구자들은 점점 더 많은 시간과 노력을 기울여야 한다. 이에 따라 문헌 속에서 생물학적인 정보를 자동으로 추출하는 시스템의 필요성이 증가하고 있다.

사용자 삽입 이미지
그림 1. NCBI PubMed 문헌의 증가 속도.


MedScan의 특징


 이번 블로그에서는 PathwayStudio와 연계된 프로그램으로 PubMed, Google, 그리고 PDF, DOC 형식으로 된 문헌에서 텍스트 마이닝 기법으로 생물학적인 의미가 있는 데이터를 자동으로 추출하는 MedScan에 대해 소개하고자 한다. 데이터를 추출할 때 사용되는 텍스트 마이닝 기법은 복합 문서와 인터넷 페이지 등과 같은 비정형 데이터로부터 자연언어처리 기술과 문서처리 기술을 적용하여 유용한 정보를 추출하고 가공하는 기술을 말한다.

사용자 삽입 이미지
그림 2. MedScan 시스템.

텍스트 마이닝 기법을 이용한 MedScan은 아래와 같은 특징들을 가지고 있다.

  • 생물학적인 문헌에서 정확하게 데이터를 추출할 수 있도록 과학적 언어에 Focusing
  • 생물학 전문가에 의한 정보의 수정 및 Dictionary라고 정의된 Mammalian, Plant에 특화된 텍스트 마이닝
  • 2분안에 918개의 abstract 다운로드, 7,700개 문장 리뷰, 7,300개 entity와 577개의 relation 관계 확인을 동시에 할 수 있을 정도의 빠른 속도
  • 동일한 주제의 연구 정보에 대한 중복성 제거
  • 생물학 전문가의 수정 및 지속적인 검증을 통한 10% 이하의 낮은 False positive 데이터
  • Dictionary 및 검색 패턴을 연구자 의도에 따른 customization 가능

Tutorial


 MedScan은 Pathway Sutido를 통해 실행시킬 수 있다. 실행된 화면은 그림 3에서 보는 것과 같이 사용자가 친숙하게 사용할 수 있도록 인터페이스가 구성되어 있다. MedScan에 서 문헌을 검색하기에 앞서 먼저 Catridge를 선택한다. Human, Mouse, Rat과 같은 mammal에 대한 검색을 할 때에는 Standard catridge를 선택하고, Plant와 관련된 검색을 할 때에는 Plant catridge를 선택한다. 간단하게 설정을 마치고 나면 검색을 수행할 수 있다.

사용자 삽입 이미지
그림 3. MedScan 인터페이스.



문헌 검색

 
 검색은 Popular Destinations과 Quick Import 두 가지 검색 방법을 이용한다. Popular Destinations에서는 Search PubMed, Search BioMed Central, Search HighWire Press, Search Google Scholar, Search Google 다섯 가지의 검색 할 수 있는 destination(그림 4)이 제공된다. 각각을 클릭하면 MedScan에서 바로 웹 사이트로 연결이 되어 인터넷 창을 따로 띄우지 않고도 검색을 수행 할 수 있도록 되어 있다. Quick Import 검색은 웹 사이트로 직접 연결하여 데이터를 검색하는 것보다 조금 더 빠르고 편리한 방법이다. 웹사이트에 연결하지 않고 바로 쿼리를 입력할 수 있도록 되어 있어서 Import PubMed Dataset에 쿼리를 입력하고 Query and Import 버튼을 클릭하면 기본적으로 PubMed abstract에서 1000개까지의 abstract을 추출해 준다.

사용자 삽입 이미지
그림 4. MedScan 검색 방법. 1) Popular Destinations 2) Quick Import

 Popular Destination 검색 가운데 “Search PubMed”를 선택하면, NCBI의 PubMed와 동일한 화면을 볼 수 있다. NCBI의 PubMed에서 문헌을 검색할 때와 동일한 방법으로 알고자하는 쿼리를 입력하고 검색을 수행한다. PubMed에서 문헌을 검색할 때 Display Setting을 Abstract로 변환하고, 페이지당 보여지는 문헌의 개수를 200개로 변환하면 더욱 더 많은 정보를 추출할 수 있다는 것을 염두해두자. 검색된 Abstract에서 검색하고자 했던 쿼리와 관련이 있는 정보들이 있는 문장은 노란색 배경처리되어 표시되고 생물학적인 의미를 지니고 있는 단어는 초록색으로 표시가 된다. 표시가 된 부분은 자동으로 Entity와 Relation으로 추출되어 우측 상단의 테이블 형태로 정리가 된다.

검색 결과


 검색 결과가 정리된 우측의 테이블은 Relation tab과 Entities tab 두 가지 tab으로 결과가 정리되어 있다. Relation tab을 보면 첫 번째 컬럼은 Reference 문헌의 개수를 의미하고 두 번째 컬럼은 Entity 1, 세 번째 컬럼은 Relation 관계 정보를 마지막 네 번째 컬럼은 Entity 2를 나타낸다. 상단 도구모음의 View를 클릭하면 데이터를 컬럼별로 정렬하여 볼 수 있도록 되어 있다. 각각의 컬럼을 정렬해가면서 원하는 데이터만 키보드의 Shift 또는 Ctrl을 사용하여 선택한다. 그런 다음 선택된 데이터만 아래의 Known Relation 테이블로 이동시킨다. Known Relation 테이블에서도 다시 한 번 view를 통해 정렬을 하여 컬럼을 선택 할 수 있다.

 그렇게 해서 최종적으로 선택된 데이터들만 가지고 Pathway Studio로 이동시킨다. 선택된 데이터에서 마우스 오른쪽을 누른 뒤 send to pathway studio 클릭한다. Pathway Studio를 다시 실행 시켜 보면 MedScan에서 보낸 데이터를 Import 할 수 있는 창이 떠있고 여기에서 pathway를 저장 할 디렉토리를 선택해주고 Next를 클릭한다. Import가 완료되고 해당 디렉토리로 가면 MedScan에 서 보낸 데이터 정보를 이용하여 그려진 pathway 파일이 생성되어 있는 것을 확인 할 수 있다.


사용자 삽입 이미지
그림 5. MedScan 검색 결과.

  이밖에도 MedScan에서는 직접 사용자가 가지고 있는 텍스트, 워드, pdf, XML 또는 HTML 포맷의 문서를 Import 하여 데이터를 추출 할 수도 있다. Import 할 문서가 한 개 이상일 때에는 문서를 하나의 폴더 안에 저장해 놓고 폴더 자체를 Import 할 수도 있다. 우리가 어떤 연구를 하기 전에는 보통 문헌에서 내가 하고자 하는 연구가 어느 정도 선행 연구가 이루어 졌는지 알아보는데 그 때마다 많은 문헌들을 하나 하나 살펴 보기에는 어려움이 있다. 그 때 MedScan을 사용하면 그런 점에서 많은 도움을 줄 뿐만 아니라 그 문헌들 사이에서 의미 있는 결과까지 도출해 줄 수 있으리라 생각된다.



Posted by 人Co

2010/06/07 17:38 2010/06/07 17:38

BIOBASE 소개

인 맞춤 의학시대를 가능케 한 NGS(Next Generation Sequencing) 기술로 인해 이제는 더 이상 유전자 서열정보만을 밝히는 것이 큰 의미를 내포하지 않는다. 생명과학 분야의 궁극적인 목표인 생명현상의 이해를 위해서는 쏟아지는 서열정보를 잘 꿰어 그들의 매우 정교한 세포내 역할을 규명해야 한다. (주)인실리코젠에서는 이러한 연구를 위해 필수적으로 요구되는 몇 가지 데이터베이스를 소개하고자 한다.

 최근 nature에 발표된 Ancient human genome project에 이용된 전사 조절인자 데이터베이스로 유명한 TRANSFAC을 서비스하고 있는 Biobase는 전문가 리뷰에 의한 생물학적 데이터베이스와 소프트웨어 및 생명과학분야의 분석 서비스에 뛰어난 세계적 선두 기업이다.

사용자 삽입 이미지
1986년 시작되어 1997년 German Research Center for Biotechnology에서 파생되어 설립된 이후로 전사조절인자를 비롯한 유전자 조절 메카니즘 데이터베이스 분야에서 독보적인 위치를 차지해 오고 있다. 의학을 비롯한 제약회사 및 연구기관을 포함한 전세계 수많은  고객에게 서비스를 제공하고 있으며, 생명과학 분야의 다양한 논문에서 현재의 데이터가 인용되고 있다.

 Biobase 제품군의 가장 큰 특징은 생물학 전문가들에 의한 데이터의 검토와 수정을 통해 지속적으로 업데이트된다는 것이다. 날마다 논문을 통해 쏟아지는 생명과학 분야의 다양한 데이터를 전문가의 리뷰를 통해 BIOBASE Knowledge Libray(BKL)로 재탄생 시켜 제공하고 있고 이들 데이터의 이해를 극대화 시킬수 있는 ExPlainTM을 서비스 함으로써 drug 혹은 biomarker 개발에 많은 연구자들이 효율적으로 활용 할 수 있도록 하고 있다. 그 서비스 목록은 크게 세 가지로 분류 된다.

1) BKL TRANSFAC

2) BKL PROTEOME

3) HGMD professional


 첫 번째,  TRANSFAC은 유전자 조절분야에서 세계 유일의 데이터베이스이며 표준이 될 정도의 고품질 데이터를 보장하고 있다. 이러한 평가는 The U.S. Bioinformatics Market의 보고에서도 TRANSFAC®을  주요 생물정보 툴 중 하나로 꼽는 등 세계적으로 높은 평가를 받고 있다. TRANSFAC suite에는 전사 조절인자와 관련된 모든 정보를 담고 있다.
Transcription factor, transcription factor binding site, 그리고 composite elements의 총체적인 정보로 구성되어 있으며, 유전자 돌연변이와 유전자 돌연변이에 관련된 질병에 관한 데이터베이스인 PathoDBTM 그리고 regulatory chromatin domain 정보를 담고 있는 S/MARtDBTM도 포함하고 있다.

사용자 삽입 이미지

 두 번째, PROTEOME은 단백질 수준의 조절, 즉 pathway정보를 제공하고 있다. 6개의 데이터베이스로 YPD(s.cerevisiae), HumanPSD, GPCR-PD, WormPD, MycoPath PD 그리고 PombePD(s.pombe)로 구성되어 기능이 밝혀진 최대한의 단백질을 활용하여 세포내에서의 pathway 조절 메카니즘을 총체적으로 이해 할 수 있도록 정보를 제공하고 있다. 이들 데이터는 관련 질병정보를 비롯한 참조논문과 데이터의 품질 정보를 모두 제공함으로써 다양한 생명과학 분야에서 인용되고 있다.

 마지막 HGMD는 human의 유전자 돌연변이 데이터베이스로 유전에 의한 질병관련 정보를 서비스하고 있다. Germ-line 돌연변이 데이터를 중심으로 주어진 유전자와 관련된 돌연변이 정보를 제공하고 있다. 2006년 이후 꾸준한 데이터베이스의 축척으로 2009년 3월 95,000건에 달하는 돌연변이 정보를 보유하고 있으며, 병변을 비롯한 서열정보, 유전체에서의 위치정보, 본래 특성 정보등 상세한 관련 정보를 제공 하고 있다.

 앞서 밝힌 내용과 같이 Biobase 제품군은 세포내 발현 조절과 관련된 총체적인 데이터베이스를 제공한다. 전사 수준의 발현조절인 promoter 분석(TRANSFAC), 단백질 수준의 pathway 분석(PROTEOM), 이후 phenotype과 관련된 유전적 질병 정보(HGMD) 등을
제공하며 다양한 생명과학 분야에 고품질의 데이터를 제공하고 있다.

다음 주부터 앞으로 3주 동안, 오늘 간략하게 말씀드린 Biobase 제품군의 세 가지 데이터베이스에 대하여 한 주에 하나씩 좀 더 자세한 내용으로 소개해드릴 예정입니다.  

여러분들의 많은 관심 부탁드립니다.
감사합니다.






Posted by 人Co

2010/04/19 15:07 2010/04/19 15:07

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis


이번 연재에서는 Next Generation Sequencing의 첫 번째 Application인 Variation study 중에  다양하게 구축되어 운영되고 있는 SNP 및 variation 데이터베이스에 대해 알아보도록 하겠습니다.


2-1-4. Variation Database


 다양하게 얻어진 각종 variation 데이터들은 기존에 구축되어진 데이터베이스와 비교하거나 이미 알려진 유전자 구조 정보를 활용함으로써 조금 더 유용한 정보를 얻을 수 있다. 따라서 대량의 유전변이형 정보를 체계적으로 수집하고 일반 연구자에게 전달하기 위해서는 다양한 variation 데이터베이스를 구축하여 언제든 활용할 수 있는 시스템으로 서비스 되어져야 한다. 현재 다수의 연구기관 및 연구그룹에서 SNP 및 여러 variation 관련 데이터베이스가 만들어져 운영되고 있다(표 3).

사용자 삽입 이미지
dbSNP는 미국 NCBI에서 관리하는 세계 최대의 SNP 데이터베이스로 rs#를 부여받은 human의 SNP만해도 7,344,853개(build130, 2009년 12월)가 수록되어 있다. 따라서 이렇게 축적된 대량의 SNP 데이터가 연구자들에게 제공됨에 따라 새롭게 특정 후보 유전자의 SNP를 다시 발굴할 필요 없이 대부분의 SNP 정보를 데이터베이스를 통하여 쉽게 이용할 수 있다(그림 6).

사용자 삽입 이미지
또한 좀 더 나아가 HGMD는 문헌에 보고된 모든 생식세포내의 질병을 유발하는 돌연변이들과 질병관련/기능성 다형성들을 기록하고 있다. 사실상 이는 학계에서 이용 가능한 중추적인 질병관련 돌연변이 데이터베이스로써, 암호화 시의 단일 염기쌍 치환(예, 미스센스 돌연변이와 넌센스 돌연변이), 인간 핵 유전자의 조절 및 접합관련 부위, 미세결실과 미세삽입, 결실과 삽입(indels), 반복 확장, 그리고 심한 유전자 손상(결실, 삽입 그리고 복제) 및 복합적 유전자 재배열에 관한 자료들을 제공하고 있다. 학술적으로 또는 비영리적인 목적으로 사용자 등록 후 무료로 이용 가능하다. 단, 이 돌연변이의 정보들은 데이터베이스에 최초로 추가된 후 2년 6개월 후에 공용 웹사이트에서 제공되기 때문에 최신 버전을 이용하려면 BIOBASE GmbH사로부터 인증을 받아 상업적 및 학술적 이용자에게 제공된다. 최신 돌연변이 자료 이외에도, HGMD Professional은 공용 사이트에서 제공하지 않는 첨단 검색 도구와 유전자 및 돌연변이에 대한 특별한 정보를 부가적으로 제공하고 있다(그림 7). HGMD Professional은 3개월 단위로 업데이트된다.

그 외 variation 정보를 위한 데이터베이스는 앞서 소개한 몇몇 큰 데이터베이스와 수백 가지의 유전자 각각에 대한 특화된 데이터베이스로 다원화 하여 존재하고 있다. 이들 정보의 통합 필요성이 인식 되면서 2006년 6월부터 전 인류의 유전자 변이에 대한 정보를 모으고 이를 카달로그화 하여 제공하고자 하는 국제적인 Human Variome Project(HVP, http://www.humanvariomeproject.org)가 출범되었고, 이를 통해 variome 연구는 개인의 유전적 차이 및 질병과의 관련성이 더 정확하게 밝혀져 질병에 대한 개인 간 차이 발생에 대해 더 세밀하고 진보한 해답을 얻을 수 있을 것으로 전망하고 있다.



참고문헌

 1. 이종극 (2006) 질병유전체분석법(Genetic Variation and Diseases)
 2. Eck SH, Benet-Pagès A, Flisikowski K, Meitinger T, Fries R, Strom TM. (2009) Whole genome sequencing of a single Bos taurus animal for single nucleotide polymorphism discovery. Genome Biol. 10(8), R82.
 3. Ganal MW, Altmann T, Röder MS. (2009) SNP identification in crop plants. Curr Opin Plant Biol. 2, 211-217
 4. Xie C, Tammi MT. (2009) CNV-seq, a new method to detect copy number variation using high-throughput sequencing. BMC Bioinformatics. 10, 80
 5. Illumina : SNP Genotyping and CNV Analysis
  (http://www.illumina.com/documents/products/datasheets/datasheet_genomic_sequence.pdf)
 6. Bentley DR. et al. (2008) Accurate whole human genome sequencing using reversible terminator chemistry. Nature. 2008 456, 53-59
 7. Ng SB. et al. (2009) Targeted capture and massively parallel sequencing of 12 human exomes. Nature. 461, 272-276
 8. Koboldt DC, Miller RD, Kwok PY. (2006) Distribution of human SNPs and its effect on high-throughput genotyping. Hum Mutat. 3, 249-254.
 9. 박종화 (2009) 변이체학을 위한 생정보학 분석도구. Medical POSTGRADUATES. 3(37), 131-133
 10. 유향숙, 김선영 (2009) Variome 국제연구동향. Medical POSTGRADUATES. 3(37), 134-137
 11. 임선희, 정연준. (2009) 새로운 유전체 변이의 등장 : 유전자 복제수 변이. Medical POSTGRADUATES. 3(37), 149-153

Posted by 人Co

2010/02/21 19:19 2010/02/21 19:19
, , , , , , , , ,
Response
No Trackback , No Comment
RSS :
http://www.insilicogen.com/blog/rss/response/44