[구버전] 人Co BLOG

(주)인실리코젠 세계 최대규모 유방암 전장유전체 해독 연구 참여

Posted at 2016/05/03 16:50
Filed under 생물정보

<논문>

- Landscape of somatic mutations in 560 breast cancer whole-genome sequences
Nature (2016) doi:10.1038/nature17676
<관련기사>
- Breast cancer: Scientists hail 'very significant' genetic find BBC News
- ‘유방암 만드는 유전자’ 93개 밝혀졌다 경향신문
- 국내 연구진, 유방암 '전체 유전자 염기서열' 해독…네이처誌 발표 포커스뉴스

세계 최대규모의 유방암 전장유전체 해독 연구 결과가 네이처(Nature)를 통해 공개되었습니다. 이 연구는 한양대학교 의과대학 공구 교수팀과 영국 생어연구소(Sanger Institute) 암 유전체팀이 공동으로 주관하고, 12개국 48개 기관이 참여했습니다. 생물정보 전문기업 (주)인실리코젠의 김형용 수석개발자도 본 연구에 공동으로 참여했으며, 오랜 분석 기간과 리뷰 기간을 거쳐 오늘(5월 3일) 새벽 1시에 연구결과가 네이처 온라인판에 게재되었습니다.

이 연구는 최대규모의 암 전장유전체 분석(WGS, Whole genome sequencing)으로써, 국내외 유방암 환자 560명을 대상으로 암조직과 정상조직을 모두 전장유전체 해독하고, 정상조직과의 차이를 통해 암을 유발한 유전변이를 밝혔으며, 각 유전변이의 패턴을 규명하였습니다. 암은 발암물질, 자외선, 흡연 등 각종 원인으로 인한 유전변이의 누적으로 발생하는 질병이므로, 암을 일으키는 주요 유전변이의 완전한 해석은 발암 기전을 이해하고, 효과적인 치료방법을 제안하기 위해 매우 중요합니다. 또한, 암을 일으키는 유전변이는 환자 개인마다 매우 다양하게 나타나기 때문에 다수의 사례를 통해서만 종합적으로 이해할 수 있습니다. 이번 560 사례의 전장유전체 해독을 통해 유방암 유전변이와 발암 기전에 대해 좀 더 이해하고, 향후 암 정복을 위한 자세한 백과사전 역할을 수행할 수 있다는 점에서 그 의미가 크다고 할 수 있습니다.

(주)인실리코젠의 김형용 수석개발자를 주축으로 SD그룹의 연구진들은 해독한 유전체의 데이터 기본 분석에 함께 참여했으며, 영국 생어연구소에 방문하여, 암 유전체팀의 전체 분석과정을 함께 리뷰할 수 있었습니다. CaVEMan, Pindel을 이용한 SNV, Indel 탐지, ASCAT을 이용한 copy number 분석, BRASS를 이용한 구조변이(genomic rearrangement) 분석을 통해 암을 일으키는 유전변이를 찾고 이것의 통계적 유의성, COSMIC 등에 보고된 자료등과 종합하여, 발암 유전자(driver gene)로 확인하는 과정, 단백질 비 부호화(non-coding) 영역의 유전변이 확인, 기계학습 알고리즘(NMF)을 이용한 변이 패턴(mutational signature) 분석, 특정 유전자의 유전변이와 변이 패턴, 그리고 구조변이와의 상관관계 분석에 이르기까지 다양한 분석과정을 함께 할 수 있었습니다.

이번 연구의 가장 큰 의의라면, 그동안 알지 못했던, 단백질 비 부호화 영역, 즉 유전체의 95% 영역에서 의미 있는 발암 기전이 있는지 확인했다는 것입니다. 2001년 인간유전체 프로젝트 이후, 전장유전체 해독 분석이 증가하긴 했지만 비용, 분석 등 문제로 암 유전체까지 전장유전체를 분석하기 어려웠고, 주로 단백질 부호화 영역만 서열 결정(exome sequencing)하여, 유전변이를 확인해 왔습니다. 이번 전장유전체 분석으로 의미있는 유전변이가 단백질 비 부호화 영역에 있는지, 구조적으로 유전체가 어떻게 변화하는지(Structural variation)를 확인할 수 있었습니다. 분석 결과, 일부 높은 빈도의 유전변이 좌위가 있긴 하지만, 전체적으로 큰 영향을 주는 것은 아니라고 합니다.

<그림1> 발암유전자의 변이 종류

<그림1>은 이번 데이터의 암 유발 유전변이의 형태는 어떤 것인지 보여줍니다. SNV, Indel을 합쳐서 반이 좀 넘고, 44%가 구조적 변이에 의하여 암이 발생함을 알 수 있습니다. 암 맞춤의료를 위해 이 부분을 어떻게 대응해야 할지 고민이 필요함을 알려주고 있습니다.

<그림2> 유방암의 에스트로겐 수용체 타입별 발암 유전자 상위 40개

이번 연구를 통해 발암 유전자 93개에서 1,628개의 유전변이를 발견했습니다. 10개 유전자의 발암 변이(driver mutation)가 전체 발암 변이의 62%를 차지한다고 합니다. 위 그림은 이번 연구에서 발견한 발암 유전자를 에스트로겐 수용체 양성(ER+), 음성(ER-) 각각 나눴을 때 발견된 빈도를 순서대로 보여줍니다. 녹색으로 표시된 유전자 MLLT4, MED23은 이번 연구로 새롭게 발견한 발암 유전자입니다. 예전에도 많이 알려졌던 것 처럼 ER+에는 Oncogene PIK3CA 과발현과 변이가, ER-에는 Tumor suppressor gene TP53의 변이가 가장 많이 발견되었습니다.

연구팀은 치환 변이, 구조 변이의 패턴을 확인하기 위해 별도로 변이 패턴(mutational signature) 분석을 수행하였습니다. 얼굴인식에도 사용되는 기계학습 알고리즘 가운데 하나인 NMF(non-negative matrix factorization)을 이용하여, 전장유전체내 발견되는 유전 변이의 패턴을 구분하였고, 각 패턴이 특정 생물학적 원인과 관련되어 있음을 확인했습니다.

<그림3> 전체 암 유전체의 유전변이 패턴(mutational signature) 현황
- 12개의 변이 패턴을 확인함

이 가운데, 1, 2, 8, 13번 시그니처가 이번 연구에서 유의미하게 자주 발견되었으며, 각각 생물학적인 원인과 관련되어 있습니다.

- Signature 1 : CpG의 메틸기가 deamination되는 현상 때문에 생기며, 모든 암종에서 고르게 발견됩니다. 나이가 많을수록 늘어나기 때문에 생체 시계라고도 합니다.
- Signature 2, 13 : APOBEC deaminase 활성과 관련됩니다. 이 효소는 바이러스의 DNA/RNA에 변화를 만들어 감염을 억제하는 역할을 하지만, 변이가 있을 경우 발암 가능성이 높아집니다.
- Signature 8 : BRCA1/2 유전자의 고장으로 정상적인 DNA 수복(DNA repair)을 못할 때 이러한 패턴의 변이가 발견됩니다. 특히 다양한 구조변이와 관련됩니다.

<그림4> 유의한 유전변이 좌위를 Manhattan plot로 표시함

<그림4>는 전장유전체로 유의한 발암 영역을 Manhattan plot으로 확인한 결과입니다. 기존에 잘 알려져 있던 발암 유전자들과 함께, 새롭게 발견된 non-coding 영역의 변이도 함께 알 수 있습니다. 이 가운데 가장 특이했던 것은 PLEKHS1의 프로모터 영역으로, 저 영역의 변이가 있으면, Signature 2, 13번이 높아, APOBEC 효소 활성과 관련있음을 말해줍니다.

이번 연구 결과는 바로 EGA에 공개되어(EGAS00001001178) 전세계 연구자들에 의해 암 유전체를 더욱 상세히 연구하게 할 것이며, 암 맞춤의료의 기반 자료로 사용되어 인류의 암 정복을 위한 전환점이 될 것으로 기대되고 있습니다. 이러한 맞춤의료, 정밀의료의 시대에는 대규모 생물정보 데이터의 분석과 해석, 관련 데이터베이스와 지식베이스의 구축이 최고의 전문가들과 함께 이루어져야 합니다. 암 유전체의 충분한 해석과 이해, 그리고 맞춤치료에 대한 가능성은 이후, 모든 인간의 질병도 극복할 수 있게 할 것이며, 더 나아가 유전체 정보에 따라 미리 질병에 걸리지 않도록 예방할 수 있는 영역까지 확장될 것입니다.

(주)인실리코젠의 연구진은 본 연구의 노하우를 통해 앞으로 정밀의학, 맞춤의학 더 나아가 질병없는 인간의 미래에도 중요한 생물정보 가치를 만들 수 있도록 노력하겠습니다.

작성자 : 데이터사이언스센터 SD그룹
김형용 수석개발자

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/207

글로벌 바이오의 중심인 생물정보 데이터베이스에서 바이오 융합기술의 미래를 디자인하다

Posted at 2016/04/19 17:00
Filed under 생물정보

시약 전문기업 Qiagen과 IT 전문기업 Intel과의 전략적 제휴

Qiagen은 안정적인 전장유전체 분석(Whole Genome Analysis) 서비스를 위해 Intel과 제휴를 하였다.

유전자 분자 진단 분야의 성장은 지난 몇 년간 관련 기업들의 매출의 폭발적 성장을 보면 더 이상 의구심이 들지 않을 것이다. 분자 진단 시장을 단계적으로 나누어 보면 개체 시료에서의 샘플 준비(DNA, RNA) 단계, 유전 정보를 읽어내는 해독(Sequencing) 단계, 생성된 유전 정보를 분석하는(Data Analysis) 단계, 해당 데이터를 건강 정보 등으로 통합적으로 해석하는 해석(Data Integration)하는 단계로 이루어진다. 전반의 두 단계 시장을 독점하고 있는 기업들은 분명하게 드러나 있지만, 후반 단계는 아직 불분명하다.

그림1. 유전자 산업의 각 기업들의 포지션 현황 (출처 : 직접 작성)

바이오 산업의 시약 전문 기업 Qiagen은 분자 진단 단계의 전반부 프로세스인 샘플 준비과정(Sample Preparation) 시장을 가장 크게 확보하고 있다. Qiagen은 DNA, RNA 및 Protein 등 분자 진단, 제약 및 분자생물학 실험을 위한 기기 및 시약을 판매하는 기업이다. 독일에 본사를 두고 있고 현재까지 알려진 바로 20개국에 35개 이상의 오피스를 가지고 있는 다국적 기업이다. 시가총액 56억 원으로 미국 내 경쟁업체인 일루미나(시가총액 263억 원)와 써모피셔(시가총액 573억 원)에 비하면 절반 이하의 규모 밖에 되지 않는 작은 회사이다. 연매출은 총 1조 4,788억 원으로 일루미나(2조 1,485억 원)나 써모피셔(20조 원)에 비해 매우 적은 편이다.

그림2. Qiagen 2013~2015 총매출액 (출처 : Qiagen Finance)

하지만 Qiagen의 Bioinformatics 및 Clinical Genomics에 대한 행보가 예사롭지 않다. Qiagen은 2013~2014년 생물정보 데이터베이스 및 솔루션을 보유중인 Biobase, Ingenuity Systems 및 CLC bio를 인수하였다. 또한 2012년에는 직접 유전체를 해독하기 위해 해독 장비 기업 Intelligent Biosystems를 인수하였고, GeneReader 라는 NGS 장비 출시를 눈앞에 두고 있다. 더욱 주목할 것은 최근 안정적인 전장 유전체 분석(Whole Genome Analysis)을 위해 Intel과 협력하였다. Qiagen은 인텔과 함께 생물정보 산업을 이끌어갈 유전체 분석 도구를 저렴한 가격으로 제공하여 전장 유전체 분석이 가능한 세계적인 기반시설을 만들고 있다.

그림3. 생물정보 분석을 위한 Qiagen과 Intel의 협력(출처 : Qiagen Blog)

본 솔루션의 유전체 해독 파이프라인은 NGS 분야 과학자들이 효율적인 비용으로 생산성을 증대할 수 있도록 한층 더 자연스럽게 디자인 되었다. 전장 유전체 분석을 진행하는데 발생하는 비용은 22달러(한화 약 25,000원)만으로 가능하게 되었다.
이것은 일루미나 HiSeq X ten이 요구하는 컴퓨팅 성능과 분석의 수요를 만족시킬 수 있다. HiSeq X ten이 요구하는 컴퓨팅 파워는 85-node 클러스터이나, Intel의 혁신적인 기술력이 담긴 32-node 클러스터(28-core E5-2697 v3 @ 2.60GHz, 128 GB RAM)를 통한 BWA + GATK variant calling 파이프 라인은 연구자들로 하여금 굳이 85 node 클러스터를 구입하지 않아도 안정적인 전장 유전체 분석이 가능하도록 하여 1.3 백만 달러(한화 15억 원)를 절약할 수 있도록 하였다.

Qiagen 솔루션의 달라진 점은 아래와 같다.

서버에 설치된 분석 도구 : 이 시스템은 Biomedical Genomics Server 솔루션 사용
안정성 : 연구실의 컴퓨팅 성능, 네트워킹, 저장용량에 대한 요구에 적합하게 디자인 되어서 분석 용량에 대한 관리가 상당히 비용 효율적이고, 편리한 관리
신뢰할 수 있는 정확성 : NGS data 분석에 있어서 분석 효율과 비용 효율이 중요하지만, 본 솔루션은 Variant calling과 해석에 있어서 신뢰할 수 있음
사용자 편리성 : 본 솔루션은 클러스터 계산과 같은 복잡한 것들을 마스킹하여 Biomedical Genomics Workbench(BxWB)로 사용하기 편리함
신속한 데이터 연결성 : 대역폭이 포트당 최대 40 Gbps Intel True Scale Fabric 기반의 고성능 상호 연결 시스템으로 컴퓨팅 노드와 중앙 집중형 저장 공간과의 연결이 가능함
병렬 저장 능력 : 본 솔루션은 모든 컴퓨터의 노드(Node)와 코어(Core) 및 쓰레드(Thread)를 유지하면서도 높은 효율성을 띄는 병렬 저장 시스템인 Intel 엔터프라이즈 에디션으로 통합되었음

Intel의 혁신적 기술력이 담긴 32개 노드 시스템은 평균적으로 24시간 동안 일루미나 HiSeq X Ten이 생산 할 수 있는 48개의 genome을 생산하고 분석할 수 있다. 또한 24시간 안에 대략 1,440 인간 엑솜(Exome) 데이터를 분석 할 수 있다. 2016년 4월 Bio-IT World Conference에서 Qiagen과 Intel의 전략적 제휴를 통한 공동 솔루션을 발표하였다.

전장 유전체 분석에 고성능 CPU를 제공하는 인텔(Integrated Electronics) 은 세계에서 가장 큰 반도체 제조사로 본사는 캘리포니아 주 산타클라라에 있으며, 반도체 제조 공장은 같은 주의 새너제이에 있다. 1968년 7월 8일 고든 무어와 로버트 노이스가 인텔을 설립하였고, 1971년 최초 마이크로프로세서 인텔 4004를 만들었다. 1.5년마다 CPU 속도가 2배가 된다는 무어의 법칙도 인텔의 설립자인 고든 무어가 발표한 내용이다. 인텔은 반도체 뿐 아니라 메인보드 칩셋, 네트워크 카드, 집적회로, 플래시 메모리, 그래픽 프로세서 및 임베디드 프로세서 등 통신과 컴퓨팅에 관련된 장치를 만들면서 그 사업의 영역을 무한히 확장하였다. 2012년부터 지속적으로 매년 52,708 백만달러(한화 60조 원)이상의 매출을 내고 있으며, 2014년 64조 원이라는 사상 최대 매출액을 기록하였고 2015년은 63조원으로 전년대비 약 1% 감소하였다.

컴퓨터의 가장 핵심인 인텔 CPU의 급속한 발전은 유전체 해독기술의 발전 및 유전체 해독비용 감소에 큰 영향을 미쳤다. 앞서 열거한 IT 회사들과 같이 인텔도 기존의 IT 시장에서 벌어들인 수익으로 또 다른 미래 먹거리 발굴에 열정을 보이고 있으며, 그 중 스마트 헬스케어를 위한 IoT 기술 활용에 투자를 아끼지 않고 있다. 인텔은 2007년 헬스케어 부문을 성장 동력 중 하나로 보고 생명과학 부분에 투자하였고, 2015년 8월 암환자의 유전자 및 임상 데이터 공유가 가능한 클라우드 플랫폼인 CCC(Collaborative Cancer Cloud)를 발표했다. 이 시스템은 병원 및 연구기관에서 환자의 유전자 정보, 의학용 시각 자료, 임상 데이터 등을 공유한다. 또한 헬스케어 시장에 최적화된 제온(Xeon) CPU를 개발하였고, CareWork 라인을 만들어 워크스테이션 및 서버 제품을 전세계 각 의료기관에 공급하고 있다.

그림4. 인텔 헬스케어 전용 CareWork 제품 (출처 : Intel Hompage)

더욱 주목할 것은 인텔이 헬스케어 및 생명과학의 맞춤형 의료서비스 및 분석을 제공하고 있다는 점이다. 데이터 세트 관리 및 분석도구를 강화하여 헬스 및 생명과학 분야에 최적화된 진단과 진료의 제공을 위해 헬스케어 분야의 빅데이터 분석 플랫폼을 구축하고 있다. 심장 건강을 예측할 수 있는 플랫폼 개발을 통해 펜실베니아 대학 병원의 의료진들이 심장병 환자들의 치료법과 심장 건강을 개선하는데 큰 역할을 하고 있다. 또한 오레곤 보건대학과 공동 연구를 수행하여 개인 맞춤형 치료를 위한 클라우드 분석 등 끊임없이 생물정보분석을 향하여 투자하고 있다.

그림5. 인텔 헬스케어, 맞춤형 의료 서비스 및 분석 (출처 : Intel Healthcare)

생물정보 전문기업 (주)인실리코젠의 외길 열정

(주)인실리코젠은 다양한 생물학적 데이터 분석을 효과적으로 공유하고 소통할 수 있는 플랫폼을 제공하고 있다. Bionformatics, Deep in Big 이라는 기치아래 고객과 함께 정보의 축적을 넘어 새로운 가치 창조를 실현하고자 한다. 이를 위해 11년이라는 기간 동안 생물정보학이라는 한 길을 걸어오며 그 가치를 실현해 왔다.

필자는 대한민국에 생물정보학이 단순히 학문 또는 기초 산업인 시퀀싱에서만 그치지 않고 생물정보 산업 및 데이터베이스로 발전할 수 있었던 것은 많은 부분 (주)인실리코젠의 끊임없는 노력 때문이라고 본다. 본 기업의 지속적인 노력으로 인해 각 정부 기관에 다양한 생물 관련 데이터베이스가 구축이 되었고, 각 연구기관 및 산업현장에 고도의 생물정보 분석을 위한 시스템, 소프트웨어 및 분석 컨설팅이 제공 되어왔다. 이로 인해 생물정보라는 산업은 기초 산업을 넘어선 고급 산업의 영역으로 도약할 수 있었고, 이를 기반으로 다양한 기술과 융합을 통한 새로운 미래를 그릴 수 있는 BI 플랫폼을 창조할 수 있게 되었다. 생물정보 산업의 발전을 위해 (주)인실리코젠이 이뤄낸 결실은 실로 대한민국 생물정보의 산실이었다고 평가할 만하다.

전 세계의 IT 대기업들이 헬스케어, 생물정보 분야에 길게는 10년 전부터, 짧게는 2-3년 전부터 뛰어들고 있다. 시약 전문기업 Qiagen이 IT 전문 기업인 Intel과 손을 잡고, 국내 생물정보 전문 기업인 Insilicogen과 제휴 하는 이유 역시도 향후 바이오 산업 중 생물정보 분석이 모든 산업분야의 중심이 될 것이라는 것을 반증하고 있다. 지금까지는 바이오 기술 자체가 발전하는 과정이었다고 한다면 이제는 바이오가 ICT를 비롯한 다양한 기술과 융합하는 시대가 될 것이다. 따라서 생물정보 데이터베이스 기반의 바이오 기술은 대부분의 산업 분야에 적용 되는 미래의 융합기술을 실현하는 가장 구체적이고 실질적인 대안이다.

그림6. 바이오 생물정보 데이터 중심의 미래 디자인 (출처 : 직접 작성)

작성자 : 브랜드커뮤니케이션실 기획팀
이지현 주임

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/206

웹으로 계통수(Phylogenetic Tree) 그리기

Posted at 2016/03/04 16:08
Filed under 생물정보

웹으로 계통수(Phylogenetic Tree) 그리기
쉽게 따라 하는 계통수 웹 구현

이번 블로그에서는 생물정보에서 자주 쓰이는 계통수를 웹으로 그리는 법에 대해 포스팅 하겠습니다.

계통수(系統樹, phylogenetic tree)란 생물 진화의 결과, 여러 종이나 아종 등 분류군 사이에서 나타나는 표현 혹은 유전적 특징의 차이를 기반으로 친연 관계를 그림으로 나타낸 것으로, 이를 통해 생물의 진화 과정을 나무의 줄기(root)와 가지(node)의 관계로 도식화하여 표나 그림으로 표현하여 보는 사람에게 직관적으로 그 의미를 알 수 있게 합니다. 계통수의 알고리즘과 분석방법등 더 자세한 내용은 생물정보 분야 관련 wiki인 人CoDom에서의 찾아볼 수 있습니다.( http://www.incodom.kr/계통수 )

계통수를 그릴 때 보통은 파이썬(Python)이나 펄(Perl)을 이용하여 정적인 이미지로 표현합니다. 하지만 본격적인 어플리케이션을 만들려면 웹 환경에 더 최적화된 방법이 필요한데 생각보다 간단한 문제는 아닙니다. 그래서 이번에 "최대한 쉽게, 웹 표준에 맞추어, 웹 기술만으로" 구현 하는 것에 초점을 맞춰 일반적인 웹으로 계통수 구현이 어디까지 가능한지 알아보도록 하겠습니다.

<그림1: 계통수[phylogenetic tree,系統樹] (출처:계통수)>

우선 보통은 계통수를 어떻게 그리는지 찾아보았습니다. 아래 목록 <그림2>과 같이 다양한 소프트웨어들이 사용되고 있었습니다. 이중에서 웹(Web) 용이고 Open Source 이면서 특정 기술에 의존적이지 않은, 웹 표준에 근접한 컴포넌트로 범위를 좁히고 <그림3>, 그중 적절한 한개를 실습을 위해 선정했습니다. <그림4>

<그림2 : List of phylogenetic tree visualization software>

<그림3 : A Javascript Library for Visualizing Interactive and Vector-Based Phylogenetic Trees on the Web>

<그림4 : http://www.jsphylosvg.com>

이제 계통수를 그려보겠습니다. 준비물은 계통수를 그릴 데이터, 그리고 메모장 정도입니다. 웹서버도 필요 없고, 설치 할 어떠한 프로그램도 필요 없습니다. 메모장을 열고 다음과 같이 입력합니다. 기본 HTML 틀입니다.

다음은 위에서 작성한 <BODY> 영역에 다음의 3가지를 입력하고 확장자를 html로 하여 저장합니다. (ex. tree.html). ⁽¹⁾계통수를 그릴 데이터의 포맷 종류,⁽²⁾ 데이터 입력란, ⁽³⁾결과가 나타날 영역을 각각 Radio 버튼, TextArea, Div로 설정했습니다. 여기서 미리 알아두어야 할 사항은 계통수를 그릴 때 사용하는 데이터가 일정한 포맷을 가지며 각 포맷의 형식에 따라 약간씩 옵션을 맞춰줘야 한다는 것입니다. 이제 UI 부분은 마쳤습니다. 포맷에 대한 상세한 정보는 각각 사이트에서 확인할 수 있습니다.

Phyloxml(http://www.phyloxml.org)
Nexml(http://www.nexml.org)
Newick Format(https://en.wikipedia.org/wiki/Newick_format)

tree.html

다음은 실제 계통수를 표현 하기위한 작업을 합니다.www.jsphylosvg.com에 방문하여 사이트 우측하단에 위치한 최신 라이브러리를 다운로드 받습니다. 위에서 작성한 tree.html과 같은 폴더에 다운로드 받은 라이브러리를 압축을 풀어 함께 넣습니다. <그림5>
jsphylosvg 는 raphael.js를 기반으로 jsphylosvg.js를 구현한 라이브러리라는걸 파일 구조만 봐도 알 수 있습니다. raphael. js은 웹 환경에서 이미지나 그래픽을 표현하기 위해 고안된 javascript 기반의 라이브러리로써 우리가 지금 표현하고자 하는 기능에 가장 최적화된 라이브러리라고 생각됩니다. 무엇보다 웹 기반에서 벡터이미지를 핸들링하는 데 필요한 기능들을 제공해주고 있습니다.

<그림5 : tree폴더 구성>

이제 그리기 함수(drawTree())를 작성하고 버튼의 클릭 이벤트에 등록합니다.

드디어 계통도를 그리는 코드가 완성되었습니다. 문서를 저장하고 이 문서를 브라우저로 열어봅니다. 실행된 화면에서 데이터 포맷을 선택하고 계통수 데이터를 입력한 후 그리기 버튼을 클릭하면 계통수가 그려지게 됩니다.

<그림6 : Newick포맷을 이용한 Phylogenetic Tree 그리기>

기본 형태의 계통수 그리기는 완성되었습니다. 우린 방금 Newick 포맷의 데이터를 사용하여 단순한 구조의 계통수를 그렸지만, 현재 웹에서 추구하는 View는 좀 더 풍성한 표현을 요구합니다. 그렇다면 우린 다시 데이터 포맷부터 짚어 보아야 합니다. Newick은 계통수를 그리기 위한 기본 데이터로만 구성되어 있으므로 풍성한 표현을 위해서는 확장된 데이터를 가져야만 합니다. jsphylosvg에서는 phyloXML로 이 부분을 풀어갑니다.

추가 정보를 담은 phyloXML 포맷의 데이터가 jsphylosvg 에서 제시한 기본설정으로 얼마만큼의 표현이 가능한지 확인해 보았습니다. <그림7>

<그림7 : phyloXML포맷을 이용한 Phylogenetic Tree 그리기>

phyloXML로 추가적이 데이터를 설정한 후 동작해보니 tree 자체에는 주석, 웹링크, 폰트, 컬러 정도가 설정 가능했으며 각 항목별 tree node에 대한 표현은 chart 기능으로 확장되어 몇 가지 다른 차트와 각 차트에 대한 라벨, 컬러 등이 조정 가능했습니다.

처 음 작성을 시작할 때 찾았던 필요 요소를 모두 만족하는가 싶었지만, 실제 적용해 보니 아쉬운 부분이 많이 보였습니다. 이제 부족한 기능의 보완과 더 높은 수준의 기능확장은 jsphylosvg.js를 실제로 다루면서 활용하기에 달려있는 듯 합니다.

웹으로 계통수를 그려보려는 분들에게 응원을 보내며 저의 쉽게 따라 하는 계통수 웹 구현은 여기까지입니다.
감사합니다.

작성자 : BS실 SC팀 박준규 팀장

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/201

ISMB / ECCB 2015 학회 참석기

Posted at 2015/08/31 11:10
Filed under 생물정보

Introduction

다시 찾은 23회 ISMB, ECCB와 함께하다.

ISCB(International Society for Computational Biology)에서 주최하는 ISMB(The 23rd Annual International Conference on Intelligent Systems for Molecular Biology)가 2015년 7월 11일부터 14일까지 4박 5일 동안 아일랜드 더블린의 Dublin Convention Centre에서 개최됐다. 이번 ISMB는 ECCB(The 14th Annual European Conference on Computational Biology)와 함께 열려 더욱 풍성한 내용을 담은 교류의 장이었다. ISMB와 ECCB는 bioinformatics와 computational biology, genomics, computational structural biology는 물론 system biology를 포함한 공통의 관심사를 갖는 국제학회이기 때문에 2004년부터 매 2년 마다 학회를 함께하고 있다. 2017년에 열릴 ISMB/ECCB는 체코의 수도인 프라하에서 열린다고 하니 국내외 연구자들과 세계적으로 아름다운 도시에서 지식을 나눈다는 것이 기대된다. 이번 ISMB/ECCB2015가 열린 아일랜드의 더블린 또한 역사와 전통이 깊은 도시로 많은 기대를 품고 참석했다.

ISMB
- ISMB convenes an interdisciplinary group of scientists dedicated to the advancement of biological discovery through computation
- ISMB educates scholars at all stages of their career
- ISMB showcases state-of-the-art advances in the dynamic fields of computational biology and bioinformatics
- ISMB is the forum for introducing new directions and for announcing technological breakthroughs
ISCB
- Leading professional society for computational biology and bioinformatics
- Connecting, Training, Empowering, Worldwide

Motivation
세기의 과학자 진 마이너의 예언 적중

작년(2014년) 미국 보스턴에서 열린 ISMB에서 진 마이너(Eugene Myers, Director and Tschira Chair of Systems biology, Max Planck Institute of Molecular Cell Biology and Genetics)는 "앞으로는 너희가(Bioinformatican) 직접 de novo assembly 할 필요 없는 시대가 올 것이다. 곧 시퀀싱 머신이 이 부분을 수행 할 것" 이라고 선언한 바 있다. 그런데 이와 맞물려 올해(2015년) 초 PacBio의 P6-C4 Chemical 기술발전과 더불어 전 세계적인 인기 상승이 시작됐다. 진 마이너가 PacBio의 개발상황을 알고 있었는지 모르겠지만, 이 선언은 실제로 현재 체감되고 있고 이 부분에 대한 자신의 견해를 Key note에서 공유한 것이다. (물론, de novo assembly 기술이 필요 없다는 것도 아니고 bioinformatican으로써 공부할 필요가 없다는 것도 아니다. 다만, 시퀀싱머신에서 이를 수행할 것이라는 예견일 뿐이다.) 진 마이너의 정확한 안목을 확인하며 개인적으로 엄청난 도전의식을 받았고 국제학회의 중요성을 인식했다. 따라서 이번 ISMB2015에서도 이러한 동향을 확인하는 것에 초점을 맞추고, 최신 분석 pipelines과 tools을 공부해 직접 적용이 가능한 최신의 그 무언가를 얻고자 하는 마음가짐으로 이번 학회에 참석했다.

Attendance
ISMB를 즐기는 방법

5일 동안 진행되는 이번 ISMB/ECCB2015의 일정은 크게 pre-conference(July 10-11, 2015)와 main-conference(July 12-14, 2015) 두 가지로 나뉜다. Pre-conference 기간 동안에는 SIGs(Special Interest Groups) 미팅이 진행되며 이 미팅은 총 9개의 세부 모임으로 구성된다(Table 1). 각각의 모임은 등록기간 내에 신청하고 일정량의 금액을 미리 지불해야한다. 이번 학회의 SIGs 모임은 BioVis와 HiTSeq을 신청해 참가했는데 BioVis에서는 주로 pathway, GO, comparative genomics에 대한 visualization을 다뤘고, HiTSeq 에서는 NGS를 통한 다양한 응용연구분야에 대한 톡이 주를 이뤘다.

Table 1. Contents of Special Interest Groups meeting

대망의 main-conference 기간 동안에는 세션발표와 포스터발표 등 다양한 이벤트가 진행된다. 모든 세션은 KN, TP, OP, WK, SS 4개의 타입과 H, L, P3개의 속성으로 설명된다 (Table 2). KN을 제외한 나머지 세션은 학회 main-conference 기간 중 동시다발적으로 진행된다 (Figure 1).

Table 2. Types and attributions of all sessions

Figure 1. Example of conference schedule

또한, 각 세션마다 테마를 설정해 학회 참석자들에게 선택의 편의성을 제공한 점은 작년(2014년)과 다른점이다. 테마는 GENES, DISEASE, PROTEIN, SYSTEMS, DATA, OTHERS로 구성되어 있다.

DATA : Includes data and text-mining, ontologies, databases and machine learning approaches that do not fit in other categories.
DISEASE : Includes analysis of mutations, phenotypes, drugs, epidemiology and other clinically relevant areas.
GENES : Includes work in genes (including non-coding RNA), transcriptomes, genomes and variation.
PROTEINS : Includes analysis of proteins and their structures and proteomics.
SYSTEMS : This theme includes higher level systems such as cells, tissues, whole organisms and ecosystems. Includes systems biology, molecular interactions and genetic regulation.
OTHERS : Research areas that do not fall within the five (5) main thematic areas. The organizers may, at their discretion, move submissions to other thematic areas.

July 12-13 저녁시간에는 저자와 학회 참석자가 함께 자유로운 토론을 할 수 있는 포스터리셉션이 진행됐다. (주)인실리코젠도 non-model species analysis를 주제로 두 편의 포스터와 함께 참가했다. ISMB/ECCB 학회의 특성상 system biology 분야가 주를 이루기 때문에 non-model species analysis에 대한 큰 관심을 기대하지 못했다. 하지만 많은 국외연구자들이 non-model species에 대한 관심을 갖고 있었고 non-well model species의 re-annotation에도 큰 관심을 갖고 있었다. 질의 중 새로운 관점을 느꼈는데 transcriptome analysis에서 de novo assembly와 expression abundance를 계산할 때 샘플링 단계에서 total mRNA를 취할 것이냐, single cell을 취할 것이냐에 대한 것이었다. 최근 분석 트렌드는 single cell에서의 development 등을 확인하는 것인데 그것을 염두한 의견같다. Single cell이 pooling cell을 커버할 수 있을 것인가와 pooling cell에서 missing point가 생기지 않을까에 대해 나눴고, 보고자 하는 연구 목적에 따라 다르다는 결론을 내렸다.

참가 포스터 1

제목 : An integrated pipeline and monitoring system for de novo genome analysis [F09]
저자 : Junhyung Park, SeungJae Noh, Kyuyeol Lee, Yeonkyung Kang, Myunghee Jung

참가 포스터 2

제목 : De novo transcriptome assembly and in silico expression PROFILES of Sebastes schlegeli [E41]
저자 : Seung Jae Noh, Sathiyamoorthy Subramaniyam, Seungil Yoo, Jehee Lee, Jae-Koo Noh, Bohye Nam

Main-conference 기간 중에는 booth exhibitors를 통해 정보를 얻을 수 있었다. (주)인실리코젠의 국내외 협력업체 중 하나인 QIAGEN Bioinformatics도 이번 ISMB/ECCB2015에 참석해 자리를 빛냈다. QIAGEN은 미국 메사추세스주 비벌리에 위치해 있으며 NGS를 이용한 bioinformatics software tools을 서비스하고 있다. 최근 CLC bio, Ingenuity, BIOBASE 사를 합병해 더욱 다양한 분야의 분석과 우수한 DB를 바탕으로 통합분석의 발판을 마련하고 있는 중이다.

Figure 2. Exhibitors of ISMB/ECCB2015

Figure 3. With Qiagen

Trend and methods
ISMB에서는 현재...

최신분석기법 및 도구

LINKS

ABySS로 유명한 GSC에서 이번 ISMB/ECCB2015를 통해 새로운 scaffolding tool인 LINKS를 소개했다. LINKS는 Long Interval Nucleotide K-mer Scaffolder의 약자로 Oxford의 Nanopore Technologies Ltd. 등을 통해 얻을 수 있는 long reads를 이용해 scaffolding한다. 이는 scaffolding이나 re-scaffolding을 수행하기 위한 새로운 방식의 유전체 조립도구다.

현재까지 공개된 scaffolding 도구들과 비교를 했을 때도 mis-assemblies가 적고 contiguity나 NG50길이가 긴 것을 확인 할 수 있다.

LINKS는 메모리 효율성이 매우 뛰어나다. 그 이유는 scaffolding algorithm에 있다. long reads를 짧은 k-mer pairs로 추출하고 scaffolding의 대상이 되는 contigs도 k-mer pairs를 추출한다. 각각에서 추출된 k-mer pairs의 서열상동성이 같은 위치정보와 paired-end information을 통해 scaffolding을 수행한다. 또한 iteration 수를 높게 조절함으로써 정확도를 향상할 수 있다는 장점도 존재한다.

BactoGeNIE

BactoGeNIE는 NGS의 application인 comparative genome analysis를 large-scale로 수행하는 도구다. 단순한 visualization일지 모르는 이 도구는 ‘comparative gene neighborhood analysis'를 모토로 개발됐다.

위 사진은 E.coil의 700 strains에 대해서 neighborhood around a hypothetical protein을 확인하는 장면이다. Display는 at 21.9 by 6.6 feet and 6144 by 2304 pixcels이다.

각각의 genome은 한 행에 하나씩 배열되며 배열된 모든 genome의 alignment를 통해 comparative genome analysis를 수행한다. 각각 유전체의 특징적 단위가 화살표로 표시되며 breaks, deletions, insertions, gaps 등을 확인 할 수 있다.

Clustal Omega

1988년 첫 Clustal이 소개되고 나서 1994년 ClustalW, 1997년 ClustalX, 2007년 ClustalW2에 이르기까지 Clustal 시리즈는 Multiple Sequence Alignment(MSA) Bioinformatic tools로써 많은 사랑을 받아왔다. 이번 ISMB/ECCB2015에서는 Clustal Omega의 새 버전을 소개했다.

Clustal Omega는 최초 guide-trees를 생성하기 위해 mBed (Blackshields, 2010) calculates distance matrix를 채택했다. 이로써 기존에 large (N > 10,000) alignments distance matrix가 갖는 bottleneck을 해결했다. Fabian Sievers(University College Dublin)의 말에 따르면, Clustal 시리즈의 고질적 문제였던 ‘any size'의 alignment가 가능해졌고, 퍼포먼스 또한 크게 좋아졌다.

데이터베이스

UniProt

UniProt은 protein sequence와 그 functional information을 담고 있는 데이터베이스로 bioinformatics 연구에서 없어서는 안 될 존재가 됐다. UniProt을 관리하고 있는 EMBL-EBI는 최근 UniProt 데이터베이스의 대용량화에 대비해 “Proteome redundancy reduction" 프로젝트를 진행했다. 실제로 데이터베이스가 방대해짐에 따라 연구자의 컴퓨팅 환경조건이 높아지는 실정에 대해 불만의 목소리가 많았다. 이 프로젝트를 통해 92 million (2015_03 release)에서 46 million (2015_04 release)으로 감소했다.

데이터의 내용을 보호하면서 사이즈만을 어떻게 줄일 것이냐? 라는 질문에 가장 중요한 단계는 sequence comparison이라 답했다. CD-Hit-2D를 사용해 두 세트의 서열을 비교했으며 90%이상의 sequence identity threshold와 90%이상의 proteome similarity threshold로 서열상 redundancy를 제거했다.

매우 많은 entry가 줄어서 데이터베이스의 크기 자체는 줄었지만 훨씬 specific하고 meaningful한 데이터베이스가 탄생했다. 줄어든 데이터베이스는 ordering을 통해 여러 개의 component로 merge되어있다. 현재 UniProt site에 released database는 proteome redundancy removal 버전이다.

EVA는 European Variation Archive의 약자로 EMBL-EBI에서 만든 genetic variation resource이다. EVA의 지향점은 모든 타입의 종과 분포를 반영하는 변이를 담는 것이 목적으로, germline은 물론 cancer genomes의 변이 또한 포함하는 것이다. 최근까지의 EVA는 13종에서 4억개의 unique variation을 담은 1TB의 데이터를 제공하고 있다. Open-access database로 서비스 중이며, variation browser를 통해 knowledge-base search가 가능하다.

주요 관심사 및 최신동향

Single cell RNAseq studies

일반적인 RNAseq profiles은 약 100,000개 이상 세포 풀링(pooling)을 통해 얻는다. 이번 연구에서는 single cell RNA-sequencing technologies를 사용하여 single cell들 간에 RNA abundance 차이를 확인했다. Single cell analysis의 다양한 applications 중 novel variation studies는 cell type composition, differentiation에 적합하며, additional (confounding) expression heterogeneity는 cell cycle, apoptosis를 분석함에 적합하다.

국내 연구동향 및 시퀀싱 회사의 single cell analysis는 아직 걸음마 단계에 불과하다. Single cell에서 DNA와 RNA를 분리해 시퀀싱하고 그 안에서 일어나는 생물학적 이벤트는 epigenomics 연구는 물론, cell cycle에 따른 cell-to-cell correlations, T cell 연구 등 다양한 분석에 적용이 가능하다.

Genotyping By Sequencing (GBS)는 차세대 시퀀싱 기술을 바탕으로 새롭게 개발, 발전하고 있는 NGS 분석법 중에 하나이다. 유전체 전체를 시퀀싱하는 WGS에 비해 저렴한 비용으로 빠르고 쉽게 genome-wide 분석을 가능하게 한 테크닉이다. 제한효소를 처리하여 유전체 서열에서 그 제한효소에 의해 잘리는 영역 주변의 서열만을 시퀀싱하게 된다. 제한효소를 처리한다는 점에서는 RAD-seq과 근본적으로 원리가 같지만 효소절단 후 사이즈 선별을 하지 않는다는 점에서 시퀀싱 라이브러리 제작이 보다 간단한 편이며 GBS 시퀀싱 데이터가 RAD-seq에 비해 low coverage로 얻어진다.

GBS는 아래와 같은 applications이 있다.

Marker discovery
Phylogeny/Kinship
Linkage mapping of QTL in a biparental cross
Fine mapping QTL (Quantitative trait loci)
Genomic selection
GWAS (Genome wide association study)
NAM-GWAS (Nested association mapping GWAS)
Improving reference genome assembly

GBS는 이번 ISMB2015에서도 소개됐으며, 포스터 중 눈에 띄는 분석법으로 많은 관심을 받았다. 기존 GBS 분석법/도구로 알려진 Stacks과 TASSEL을 이용하지 않고, Bowtie와 GATK를 연계한 분석법을 소개했다.

Impression
이젠 국내에서도 bioinformatics의 인식이 달라져야 한다.

작년 ISMB2014에서는 de novo assembly 나 expression analysis, GO, KEGG, COG, pathway 연구와 같은 전반적이고 일반적인 연구가 상당수를 차지했다. 하지만 올해의 ISMB학회는 ECCB와 함께했기 때문인지 그런 비율이 많이 줄었고 좀 더 세분되고 집중적인 연구가 주를 이뤘다. 특히 암과 같은 특정 질병의 원인 판별과 치료법 개발에 초점이 맞춰져 있었다. 세션들의 주제가 GENES, PROTEINS, SYSTEMS, DATA 이외에 DESEASE도 있다는 것은 이를 반증하고 있으며, DESEASE 세션의 개수도 상당하고 그 연구수준도 점진적으로 발전되고 있어 보인다. 특히 연구방법들이 한가지 방향으로 모이지 않고 다양한 시도를 통한 기초연구에 힘쓰는 것에 놀랐다. 이는 한국의 연구풍토와 유럽, 미국의 연구풍토가 많이 다르기 때문으로 생각한다. 언제쯤인지 퇴근길에 읽은 어느 연구자님의 문구에 따르면, 정확한 메커니즘의 이해보다는 응용성을 강조하는 우리나라의 스타일과는 다르게 유럽이나 미국은 정확한 원리를 이해하고 그것을 수학적인 도구를 통해 분석해야 하며 실험의 결과들이 높은 재현성을 나타냄과 더불어 각각의 결과들이 강한 유기성을 가질 때 비로소 올바른 결과로써 인정한다고 한다. "블루오션은 찾아내는 것이 아닌 만드는 것이다.", "소비자는 자신이 무엇을 원하는지 모른다."는 명언들이 말하는 창조적 사고의 연구풍토가 선진국이 될 한국에도 자리 잡을 때가 아닌가 생각한다.

NGS의 도입과 함께 전체를 아우르는 분석이 가능해졌고 새로운 그 무언가를 찾을 기회가 많아졌다. 작년까지는 이런 NGS의 장점과 특성을 살린 연구추세였다면 점차 NGS의 응용범위가 좁은 범위까지 확대되어가는 중이다. Iontorront에 이어 nanopore와 같은 소형 시퀀싱머신의 개발과 보급이 일반화되기 시작했다. 앞으로는 국내의 실험실에도 많은 변화가 있을 것이며, 그 중심은 또 한 번 NGS가 될 것이다. 이젠 국내에서도 bioinformatics의 인식이 달라져야 한다.

작성자 : (주)인실리코젠 Codes사업본부 Research실
유승일 컨설턴트

Impression

Introduction
- https://youtu.be/q8cXo8ZCu_E (A Welcome from Des Higgins)
- https://en.wikipedia.org/wiki/European_Conference_on_Computational_Biology
- http://www.iscb.org/about-ismb'
Clustal omega
- http://clustal.org/omega/
Uniprot
- http://www.uniprot.org/help/proteome_redundancy
EVA
GBS
- http://www.incodom.kr/GBS
Single cell analysis
- https://en.wikipedia.org/wiki/Single_cell_sequencing

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/188

후대를 위한 생물정보 유산

Posted at 2015/06/25 20:02
Filed under 생물정보

제가 살고 있는 곳 가까이에 두 곳의 유네스코 등재 문화유산이 있습니다. 이 두 곳은 모두 한 사람과 관련이 있는데, 드라마로도 많이 알려진 정조대왕이 그 주인공입니다. 한 곳은 '융릉과 건릉'이고 다른 한 곳은 '화성'입니다. 오늘은 그 중에서 '화성'에 대해서 이야기하고자 합니다.

<그림 : 수원화성 화서문 (출처 : 위키피디아)>

다른 조선 시대 성곽과는 달리 화성은 벽돌로 축조를 하고 거중기, 녹로 등 새로운 기계를 이용하여 축성되었습니다. 방어 기능과 상업적 기능을 함께 할 수 있는 구조로 동양 성곽의 백미로 알려져 있습니다(출처: 수원문화재단).

유네스코 문화유산 등재의 숨은 공신
『화성성역의궤(華城城役儀軌)』

매주 주말이면 다양한 문화행사가 있는 화성 행궁을 아이들과 처음 둘러보고 즐거운 시간을 보냈습니다. 집으로 돌아오는 길에 '일제강점기, 한국전쟁 등 격동의 19세기와 20세기를 거치면서 어떻게 화성이 온전히 보존되어 세계적으로 인정 받는 인류 유적으로 남아 있을 수 있었을까?' 라는 생각이 들었습니다.

유네스코 공식 홈페이지에서 그 사정을 조금 알 수 있었습니다.

수원 화성 축성과 함께 부속 시설물로 화성행궁, 중포사, 내포사, 사직단 등 많은 시설을 건립하였으나 전란으로 소멸되고 현재 화성행궁의 일부인 낙남헌만 남아 있다. 수원 화성은 축조 이후 일제강점기를 지나 한국전쟁을 겪으면서 성곽의 일부가 파손되어 없어졌으나 1975년~1979년까지 축성 직후 발간된 『화성성역의궤』에 의거해 대부분 축성 당시 모습대로 보수, 복원되어 현재에 이르고 있다.
… 중략 …
축성 후 1801년에 발간된 『화성성역의궤』에는 축성 계획, 제도, 법식뿐 아니라 동원된 인력의 인적사항, 재료의 출처 및 용도, 예산 및 임금 계산, 시공 기계, 재료 가공법, 공사일지 등이 상세히 기록되어 있다. 이 책은 화성이 성곽 축성 등 건축사에 큰 발자취를 남기고 있음을 증명하고 있으며 동시에 기록으로서 역사적 가치가 크다.

출처 : 유네스코와 유산 <http://heritage.unesco.or.kr/whs/hwaseong-fortress/>

조선 시대에는 큰 행사를 치르고 나면, 의궤청이라는 임시기관을 세우고 그 곳에서 행사에 대한 소상한 전말을 보고서로 작성하도록 하였습니다. 『화성성역의궤』는 그 의궤중의 하나로, 정조가 화성의 성곽을 축조한 뒤에 그 공사에 관한 일체의 내용을 기록한 것입니다. 이 의궤들도 2007년에 세계기록유산으로 유네스코에 등재되었습니다(유네스코와 유산).

특히,『화성성역의궤』는 다른 의궤 보다 분량이 많다고 합니다. 화성을 축조하기 전부터 제대로된 의궤를 작성하기 위해서 사전조사 자료 및 모든 송수신 공문 들도 모두 정리되어있고, 상세한 도면까지 정리되어 있다고 합니다.

『화성성역의궤』를 보면 그 내용이 매우 상세하고 치밀하다. 그 안에는 화성을 축조하는 과정이 그대로 묘사되어 있어 화성이 어떻게 축조되었는지의 과정을 모두 알 수 있다. 또한 화성이 소실된다고 할 지라도 복원할 수 있을 정도로 정밀하게 묘사하고 있다.

출처 : 이영학 <18세기『화성성역의궤(華城城役儀軌)』에 나타난 조선의 사회상>

1975년에 정부에서 화성을 복원을 시작하여 3년만에 원형에 가깝게 복원할 수 있었고, 현대 기술로 복원한 건축물을 유네스코의 세계유산으로 등재할 수 있게된 원천은 의궤라는 치밀한 기록 유산이 있었기 때문이였습니다.

<그림 : 『화성성역의궤(華城城役儀軌)』의 수원 화성 (출처 : 第8期實錄學校 : 正祖實錄)>

<그림 : 현대의 수원 화성 (출처 : 화성안내도)>

우리시대의 생명자원의 기록과 전승

이 시대를 살고 있는 우리 생명과학도들에게도 많은 시사점이 있습니다. 기후 변화와 인류의 무분별한 개발이 매일 270종의 생물을 지구상에서 사라지게 하고 있다고 합니다. 이 추세로 온난화가 지속되면 100년 뒤에는 한반도는 난림대로 바뀌게 되고, 소나무나 금강초롱 등은 더 이상 자연상태에서 볼 수 없게 된다고 합니다. 그리고, 현대 의학의 난제들과 왜 인류가 질병에 걸리는 가라는 근본적인 질문도 진화의학(위키피디아)이라는 방법으로 해결하는 노력이 나타나고 있습니다. 이런 이야기들은 공통적으로 지금 이 시대의 생명자원에 대한 충실한 정보를 후세대에 전승해야, 우리세대는 풀 수 없는 문제라 할지라도 후세대에게 해결할 수 있는 기회가 됩니다.

배경에서 생명과학계에서 중요한 일이 무엇일까? 당면 문제를 해결하기 위한 맞춤의료, 분자육종, 첨단진단기기 등 각 연구 주제와 더불어 동시에 현 시대의 생물정보의 수집, 보전, 공유를 통한 자산화 기반을 마련하는 것 또한 중요합니다(이런 연구 주제는 좋은 논문을 내기 어려워 기피하는 분야이다). 수 백년전의 시간을 거슬러 복원할 수 있었던 의궤의 기록 만큼 충실한 생물정보 원천자료의 기록이라는 비전이 있습니다.

제가 근무하고 있는 (주)인실리코젠에서 이런 일들을 시작할 수 있었고, 나름 지속적인 사업이 되고 있습니다. 아래는 저희 회사에서 개발하여 납품하고 유지관리를 지원하고 있는 주요한 생물정보자원 시스템입니다.

<그림 : 다부처유전체사업과 생물정보자원>

각 시스템 마다 다양한 현안과 정부 전산시스템 개발의 형식에 얽혀 생각대로 만든다는 것이 아주 어렵지만, "의궤"만큼 충실한 정보를 만들어 보겠다는 다짐으로 개발하고 있습니다. 국립농업과학원의 농생명바이오정보시스템(http://nabic.rda.go.kr/)은 농업과 축산 분야의 산학연 연구자들로부터 NGS와 유전체 데이터를 등록 받고 분양하는 절차를 갖추었습니다. 거기에 80코어 2테라 메모리의 고속컴퓨팅 환경과 연계된 분석 기능을 제공하여, 여러 유관 기관에서 견학하고 참조하고 있는 시스템입니다. 이 시스템을 구상하고 개발하는 과정을 함께했던 연구사가 대한민국공무원상(농촌진흥청 블로그)을 받았을 때는 개발진 모두가 자신들의 일처럼 뿌듯했던 기억도 있습니다. 의과학지식센터의 임상/오믹스데이터아카이브(http://coda.nih.go.kr/)는 NGS나 오믹스 데이터를 임상 정보와 충실하게 엮어서 기록하고 공유하는 것을 목표로 개발되고 있습니다. 다양한 임상 연구와 오믹스 기술 기반의 질병 연구에서 사용된 시료, 실험, 해석 정보를 연계하는 것과 일반 연구자들의 편의성을 동시에 만족시키는 것이 매우 어려워 다양한 도전을 하고 있는 프로젝트입니다(시범운영중).

여러 시스템을 개발하면서 항상 느끼는 것은 우리가 만든 시스템이 후세대에 활용될 정보를 보존한다는 그 무게감입니다. 100년 뒤에도 활용할 수 있는 생물정보로 보존하기 위해서 무엇이 필요할까? 생명과학의 실험 현장에서는 항상 새로운 기술을 적용하고자 하기 때문에, 그 데이터를 형식화/규격화 시키는 시스템 개발도 매번 새로운 것과 예전 것을 통합해야하는 어려움을 겪습니다. 다양한 유형의 생명자원을 정보화하면서 느꼈던 현장 경험을 요약하면 다음과 같습니다.

원천자료 : 인위적으로 첨삭된 정보가 아닌, 분석기기에서 생성된 원천자료가 중요하다 (예, 염기서열: ab1, fastq 등).
실물자원과의 연결정보 : 생명자원을 기탁해 두었거나 은행에 보존되어 있는 경우, 그 정보를 꼭 연계해야 한다.
메타정보의 충실도 : 원천자료를 생성하는 과정을 설명하는 메타정보가 충실해야 한다. 실험 모델, 플랫폼, 참조정보 등을 명확히 정리해야 후세에도 재활용 할 수 있다.
온톨로지 : 표준화가 되면 좋겠지만, 빠르게 변화하는 기술에 맞추다 보면 표준화는 쉬운 주제가 아니다. 따라서, 적어도 메타정보를 설명하고 데이터간의 상호 관계를 규정하는 용어집은 필수이다.

실제 정보를 제공하는 어플리케이션 기능을 고려하면 더 많은 고민이 필요하겠지만, 정보라는 무형의 자산을 지속적으로 활용하는데 필요한 최소의 요소라고 생각합니다.

에필로그

이 글을 쓰기위해 의궤를 조사하면서 당시 의궤를 작성하던 사람들의 마음가짐에 감동을 받았습니다.『화성성역의궤(華城城役儀軌)』는 이미 화성의 완공보고서 같은 것인데, 수 백년이 지난 후에도 완벽히 재현될 수 있도록 치밀하게 작성했던 것입니다. 요즘은 하루가 다르게 과학과 기술 관련 새로운 소식이 인터넷을 타고 전해옵니다. 트렌드에 뒤쳐져서는 안된다는 강박증이라도 있는 듯 새 것을 따르기에 분주한 과학기술인들도 많습니다. 이런 시대에 백 년 뒤를 고민하는 것은 寓公이 山을 옮기려 하는 듯 어리석어 보일지 모릅니다. 거대한 조직도 아닌 강소기업의 연구소에서 이런 고민을 한다는 것이 이루기 어려운 꿈처럼 들릴지도 모르겠지만 지난 10여 년간 불모지였던 "생물정보 시장"을 창출해왔고, 人Co라는 100년의 비전을 갖고 한 걸음 한 걸음씩 나아가는 우리에겐 이루기 힘든 꿈이 아닌 조금씩 이루어갈 수 있는 현실이라고 믿고 있습니다. 그렇기 때문에 저는 우리 (주)인실리코젠이 "백년기업"이 될 수 있다는 또 다른 꿈을 가져 봅니다.

작성자 : 데이터사이언스센터장 강병철

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/183

R/Bioconductor를 활용한 Pathway 맵 그리기

Posted at 2015/04/03 18:02
Filed under 생물정보

RNA-seq(발현분석) 후 관심 있는 유전자 발현에 따른 증가/감소한 유전자들이 어떤 Pathway에 속하는지 알아보고자 할 경우 Pathway 맵핑을 통하여 확인할 수 있다. Pathway 맵핑과 시각화를 지원하는 무료 프로그램은 KEGG Mapper 와 같은 웹 어플리케이션과 Blast2GO , Cytoscape 같은 맵핑 및 네트워크 분석 프로그램이 알려져 있다. 그 중에 Bioconductor에서 패키지로 제공하는 R로 작성된 Pathview 도구의 설치 및 활용법에 대해 알아보겠다.

<그림1> Pathview Bioconductor 메인페이지

Pathview는 KEGG 맵의 원하는 유전자 위치를 직관적으로 확인할 수 있도록 지원하는 시각화 프로그램으로 발현분석 후 특정 유전자의 Pathway를 확인하는데 유용한 프로그램이다. Pathview와 기존에 알려진 다른 시각화 프로그램과의 다른점은 발현정보의 반영이다. 기존의 시각화 프로그램은 Pathway 상에서 원하는 유전자의 위치 및 군집 등의 정보를 확인 할 수 있는 반면에 Pathview를 이용하면, Pathway 맵을 통하여 실제 발현이 증가하였는지 감소하였는지를 확인할 수 있고, 그 발현정도의 차이도 확인이 가능하다. 다만 R 소스 기반이라서 프로그램 언어에 대한 장벽이 있으나, 이번 시간에는 예제를 통해 비교적 간단히 사용할 수 있는 활용법을 정리해 본다.

설치시 필요한 라이브러리
R/Bioconductor 팩키지이므로 사용하기 위해서는 R을 설치하여야 한다. 최신 버젼은 설치시 기존에 사용하는 라이브러리와 충돌이 발생할 수 있기 때문에 버젼에 맞게 설치해야 한다. 이번 테스트는 R3.1.1을 기준으로 진행하였다. 또한 pathview 를 포함한 추가적인 라이브러리가 필요하기 때문에, 총 4개의 라이브러리를 설치 후 진행해보도록 한다.

줄 번호 보이기/숨기기

   1 #library 'annotate' 설치
   2 >source("http://bioconductor.org/biocLite.R")
   3 >biocLite("annotate")
   4 
   5 #library 'R2HTML' 설치 - 통합 package 'ArrayTool'로 대체(또는 
     R 내부 라이브러리 이용)
   6 >source("http://bioconductor.org/biocLite.R")
   7 >biocLite("ArrayTools")
   8 
   9 #library 'pathview' 설치
  10 >source("http://bioconductor.org/biocLite.R")
  11 >biocLite("pathview")
  12 
  13 #library 'KEGG.db' 설치
  14 >source("http://bioconductor.org/biocLite.R")
  15 >biocLite("KEGG.db")

Pathway map 그리기 초급편
설치가 다 되었다면 간단한 소스코드를 이용하여, 맵정보를 그려보자.

줄 번호 보이기/숨기기

   1 library(pathview)
   2 data(gse16873.d)
   3 pv.out <- pathview(gene.data = gse16873.d[, 1], pathway.id =
      "04110", species = "hsa", out.suffix = "gse16873")

위 코드를 실행해보면 아래 <그림2>와 같이 Pathview 라이브러리를 불러오고, KEGG를 통하여 맵정보를 다운받은 후 테스트 데이터의 발현정보를 Pathway(KEGG04110 - Cell cycle - Homo sapiens) 맵정보에 반영하여 새로운 맵정보를 만들어 파일로 출력한다.

<그림2> Pathview 실행 및 맵 그리기

Pathway map 그리기 응용편
이번에는 직접 데이터를 만든 후 입력해보자, 데이터는 그림3과 같이 엑셀형태로 만들 수 있다.

<그림3> 발현정보를 반영한 입력데이터 만들기

데이터를 만든 후 아래의 소스코드로 R 커맨드 창에서 실행해보자.

줄 번호 보이기/숨기기

   1 library(annotate)
   2 library(R2HTML)
   3 library(pathview)
   4 library(KEGG.db)
   5 re.datas = read.table("test.txt", sep="\t", header=T)
   6 re.data = tapply(re.datas[,2], re.datas$transcript_ID, mean)
   7 FC  = as.numeric(re.data)
   8 names(FC) = names(re.data)
   9 kegg.id = names(as.list(KEGGPATHID2NAME))
  10 kegg.name = unlist(as.list(KEGGPATHID2NAME))
  11 kegg.name = sub("/", "_", kegg.name)
  12 setwd(paste(getwd(),sep=""))
  13 for(i in 1:length(kegg.id)){
  14   pv.out = pathview(gene.data = FC, pathway.id = kegg.id[i], gene.idtype = "ENSEMBLTRANS", species = "hsa", out.suffix = kegg.name[i], kegg.native = T, same.layer=F)
  15 }

아래 그림4와 같이 소스코드를 실행하면, 입력한 발현정보에 대한 Human 종 전체를 대상으로 한 새로운 Pathway맵이 만들어지고 자동으로 이미지로 출력된다.

<그림4> Human 종을 대상으로 Pathway 맵 시각화 진행

Pathview - KEGG map 연결정보
Pathview는 KEGG 내의 맵정보를 이용하기 때문에 KEGG에서 제공하지 않는 종들에게는 적용이 쉽지 않지만, 모듈에서 제공하는 19개의 모델종에 대해서는 적용이 잘된다. 또한 지원가능한 ID 형태가 제한적이기 때문에 사용시 ID를 적절히 변환하여야 한다.

<그림5> pathview에서 활용가능한 모델종 정보 및 ID 타입

Pathview를 잘 활용할 수 있는 노하우
Pathview를 활용한 pathway 맵 그리기는 19개의 모델종으로 제한적이기에 NGS 기반의 de novo transcripts 등에는 적절하지 않다. 그러나 상동성기반으로 ID를 맵핑하거나 변환하면, 19개 모델종의 근연종에도 적용이 가능하기에 원하는 특정 기작연구에 가이드로 활용될 수 있을 것이다.

작성자 : 데이터사이언스센터 통합개발실
주임 개발자 홍지만

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/176

분자진단 시장의 발전

Posted at 2015/03/03 13:48
Filed under 생물정보

“시퀀싱은 클리닉으로 이동 중”

분자진단 시장은 임상의학에서 유력한 플랫폼이 되고 있으며 진단 시장 중 급성장하고 있는 부문 중 하나이다. "글로벌 기업인 GE가 막강한 자본력을 바탕으로 M&A, 브랜드 파워를 앞세워 암 분자 진단 시장에 진출하다.“, "급성장하는 질병 분자진단 산업…로슈가 장악했던 세계 시장에 씨젠·랩지노믹스 등 도전장" 등 최근의 뉴스를 통해서도 그 내용을 확인할 수 있다. 이는 맞춤형 의료 수요가 증가 하고 있다는 것을 반증하며 분자 진단 시장이 뜨고 있음을 알리고 있다. 현재 분자진단 시장은 선진국의 일부 업체들이 독점시장을 형성하고 있는데 최근 국내 바이오기업들도 새로운 기술을 바탕으로 진단 시장에 뛰어 들고 있다. 바이오니아, 진매트릭스, 씨젠 등은 분자진단 시장에서 성과를 내기 시작했으며 해외 진출도 진행하고 있다. 개인에 있어 신약의 치료 효과를 높이고 부작용을 최소화하는 맞춤형 의료에 대한 수요 증가로 분자 진단 시장이 급속히 발전하고 있다.

< 분자 진단 출처:http://advameddx.org >

“환자의 몸에 특정 유전자의 존재 유무를 통해
질병 또는 병원균의 감염여부를 판단 ”

진단을 맞춤형의학에 적용하기 위해서는 민감도가 높아야 하고 진단을 하는데 걸리는 시간도 짧고 비용이 낮아야 하는데 분자 진단은 이를 만족시킬 수 있는 방법이다. 분자 진단은 DNA, RNA, Protein을 기반으로 유전자와 대사 기능, 의약품의 대사 반응, 질병 관계를 평가하는 검사로 면역 조직 진단검사, 유전자 진단 검사 등을 포함한 광대한 영역이다. 분자 진단은 글로벌 제약사를 중심으로 정확한 설계와 선별을 통해 연구 생산성을 높이고 임상에서의 성공률, 시간 단축, 비용 절감을 위해 연개 개발에 집중 투자하고 있다. 특히 바이오의약 업계의 핵심 과제인 백신치료제, 유전자 치료 등 효과적인 개발을 위하여 바이오마커를 활용하는 것이 필수적이며 마커의 특징을 통해 개인맞춤형 치료제 개발이 향후 의약 업계의 패러다임이 될 것으로 예측된다. 향후 개인별 분자 표적 항암제가 항암제 치료의 핵심 기술이 될 것으로 추정되는 만큼 각종 분자 표적 항암제의 투여 여부 및 대사 반응성, 적정 용량의 결정을 위해 분자 진담 검사의 이용이 급속히 증가될 전망이다.

* IVD : In Vitro Diagnostics

분자진단 장비 및 분석시장은 세계적으로 30억 달러의 시장을 형성하고 있으며 년평균 성장률은 13%로, 유전자 분석기, 단백질 분석기, 메타볼로믹 및 휴대형 진단기 등 장비 및 도구산업을 중심으로 발전하고 있다. 한편 세계 분자진단 시장은 2004-2010년까지 연평균 10.9% 성장하여 2010년 31억 달러 규모이지만 2010-2016년까지 연평균 9.5% 성장하여 2016년 53억 달러 규모로 성장할 것으로 예상된다.

< 분자 진단의 영역별 시장 규모 >

분자 진단은 지금까지 숙련된 전문가와 고가의 시험장비가 필요했으나, 비용 절감, 자동화, 첨단 기술 도입에 의해 분자 진단 검사의 사용이 확대되고 있다. 원내감염 발병률 상승, 고령화, 환자 의식 향상 등 다양한 요인에 의해 시장은 향후에도 계속 성장할 것으로 예측된다. 또한 임상의학에서 유력한 플랫폼이 되고 있으며 진단 시장 중 급성장하고 있는 부문 중 하나이다. 수많은 분자검사가 CE 마크와 FDA 승인을 획득하고 있는것이 이를 반증하고 있다.

분자진단기술(PCR, Next Generation Sequencing, Microarray, Infectious diseases, Genetic disease, Oncology testing, Blood donor screening)은 급속히 진화하고 있는 분야로 새로운 기술과 응용이 차례로 등장하고 있다. 분자 진단에 포함되어 있는 기술에는 1세대 PCR 증폭, DNA Probe, 형광 In-situ Hybridization, 2세대 바이오칩과 마이크로 유체, 차세대 신호 검출, 바이오센서, 분자마커, 유전자 칩을 이용한 유전자 발현 프로파일링 등이 있다. 이들 기술은 암의 치료 분자를 발견하고, 환자의 스크리닝과 진단, 분류, 투약 치료의 최적화에 크게 기여하고 있다.

< 분자 진단 기술 출처: http://en.wikipedia.org/ >

최근 수년간 분자 진단 분야에서는 몇가지 획기적인 개발이 진행되고 있다. 그 중에서도 염기서열분석은 염기서열 이상으로 발생된 유전질환을 진단하기 위한 표준 검사로 분자 진단 검사에서는 핵심 진단기술로 발전했다. 1977년 Sanger에 의해 개발된 이후 약 25년간 널리 사용되다 최근에 더욱 빠른 속도로 발전하여 전혀 새로운 개념의 기술인 차세대 염기서열 시퀀싱(NGS)이 등장하였다.

< NGS 서열 분석 출처: http://bioinf.comav.upv.es >

유전체는 유전자의 전체를 의미한다. 유전체 기반의 분자 진단이라 하면 유전자 전체를 읽어 분자 진단에 활용하는 기술이다. 유전체 시퀀싱 비용이 감소하면서, 유전자 한 두 개를 읽어서 분자 진단을 하던 방법에서 벗어나 전체 유전체를 읽어 분자 진단을 해도 비용 대비 상당 효과를 볼 수 있는 시대가 되었다. 단 한 번의 분자진단을 통해 기존의 다양한 분자 진단들을 한꺼번에 처리할 수 있어 매우 효율적이다.

개인 유전체 분석을 통한 중증 난치성 질환 및 퇴행성 질환의 조기 발견은 생명 연장 및 삶의 질 향상과 직결된다. 유전자 변이, 유전자 SNP(Single Nucleotide Polymorphism), 유전자 CNV(Copy Number Variation)가 질병에 미치는 상관 관계가 불명확함에도 불구하고 특정 질환 발병 가능성을 예측하여 발병 위험도를 알리는 스크리닝 지표로 사용되고 있다.

Human Genome Project가 끝나고 난 이후, 유전체 연구를 통해 얻어진 지식을 기반으로 유전자를 기반으로 하는 분자 진단 방법들이 속속 개발되었고, 이들 중 몇몇은 상업화 되어 크게 성공하기도 하였다. 분자 진단은 빠르고 값싼 유전체 시퀀싱 기술로 가장 먼저 효과적으로 산업적인 진보를 이뤄낼 수 있는 분야이고, 자연스레 분자 진단에 접목된 제품들이 하나 둘 시장에 출시되고 있다.

< Myriad genetics사의 BRACAnalysis 출처: https://www.myriad.com >

대표적인 성공 사례는 유방암과 관련된 상품으로 Myriad genetics사의 RACAnalysis(매출액: 7,000억)와 Genomic Health사가 출시한 OncotypeDX(매출액: 2,000억)가 있다. Myriad Genetics의 BRAC Analysis는 BRCA1 및 BRCA2 유전자 변이를 분석하는 유전자 진단 제품이다. 질병 예측을 위한 유전자 검사는 미국에서 DCT(Direct to Consumer Genetic Test)로 상업화되어 있다. 23andMe, deCODE Genetics, Navigenics 등은 유전체 분석을 통해 당뇨, 심근경색, 전립선암 등 20-90개 질환에 대한 유전적 형질을 분석하여 질병 예측 진단 서비스를 제공하고 있다.

< DCT 서비스 : 23andMe >

유전자 진단을 통한 질병 진단 검사는 개인 및 환자별 특정 유전자 유무에 따라 특정 질환에 대한 발병 가능성을 예측함으로써 질병 조기 진단, 생활 습관 조정 및 예방 요법을 통해 질병 발병 시기를 늦추어 줄 것으로 기대된다. 또한 상당수의 약물 부작용 사례에서 보듯이 동일한 질환을 가진 환자가 동일한 의약품에 대해 서로 상이한 반응을 보이듯 환자별 유전적 차이로 인해 특정 유전자 변이가 특정 치료제의 안전성, 유효성, 약물 용량에 미치는 영향 평가 등을 위한 주요 도구로써 활용될 수 있다. 유전자 진단을 통한 약물사전 검사는 환자별 특정 유전자 유무에 따라 특정 치료제의 안전성, 유효성, 약물 용량을 결정함으로써 약물 요법 최적화 및 약화 사고를 줄 일 수 있을 것이다.

유전체 해독 기술 발달로 유전체 해독 데이터 생산량은 천문학적으로 증가하고 있으나 방대한 정보를 저장하고 분석하여 의미있는 결과를 이끌어 내기는 상당히 어렵기 때문에 바이오 빅 데이터(Bio-Big Data)를 저장, 분석하여 유의미한 정보를 도출하는 바이오정보학의 발전이 시급하다.

진단 목적의 검사로 지금 당장 상용화하기에 기술적, 분석적 어려움이 존재하지만 NGS 기술은 조만간 분자진단시장에서 가장 중요한 검사 기술이 될 것이다.

작성자 : DX팀 조관희 팀장

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/173

ISMB 2014 참석 후기

Posted at 2014/09/03 17:54
Filed under 생물정보

어느덧 22번째 ISMB2014

하버드와 MIT로 유명한 미국의 대표적인 교육 도시, 랍스터의 천국, 미국 보스턴에서 생물정보학자들의 큰 축제, ISMB(International Conference on Intelligent Systems for Molecular Biology)가 진행되었습니다. 이번 ISMB2014는 어느덧 22번째를 맞이했습니다. (세계에서 가장 큰 생물정보학/전산생물학 관련 학회)

ISMB는 Intelligent Systems for Molecular Biology 라는 주제로 매년 개최되고 있습니다. 2014년 7월 11일 부터 15일까지 4박 5일 동안 열린 이번 ISMB2014는 미국 보스턴의 John B. Hynes Memorial Convention Center 에서 진행되었습니다. ISMB는 ISCB (International Society for Computational Biology)에서 주최하는데, 70개의 나라에서 모인 3,000 명 이상의 멤버들이 꾸려나가는 모임으로 바이오인포메틱스(Bioinformatics) 저널과 PLoS(Public Library of Science) 라는 오픈 엑세스 저널을 통해 편찬 작업을 진행하고 각종 미팅과 컨퍼런스 교육 등 다양한 활동을 합니다.

총 5일 동안 진행된 이번 학회는 11~12일 이틀 동안은 교육자, 학생을 위한 프리-컨퍼런스, 13~15일까지는 메인 컨퍼런스로 구성되었습니다. 메인 컨퍼런스는 총 8개의 프리젠테이션 타입이 있고, 키노트를 제외한 나머지 7개 타입이 동시다발적으로 진행되었습니다. 키노트는 ISCB 멤버중 당해 년도에 가장 업적이 좋은 6분이 나와서 발표를 하였고, 페이퍼 프리젠테이션은 ISCB를 통해 발표된 논문 중 선별된 내용이었습니다. 이번 학회의 주요 주제는 다음의 내용과 같습니다.

Sequence analysis
Comparative genomics
Gene regulation and transcriptomics
Systems biology
Databases and data integration
Text mining and information extraction
Human health

"생명은 유전자가 아니라 정보의 흐름으로 이해해야 한다"

먼저, 컨퍼런스의 시작을 알리는 키노트의 주제는 Good things come in small packages – replicators and innovators 입니다. 연사는 이스라엘 예루살람에 있는 히브루대학에 생화학 전공으로 재직 중인 Michal Linial 박사입니다. NGS 분야 논문을 자주 접하시는 분들은 아시겠지만, 문두에 항상 나오는 "오늘날 NGS의 발달로 많은 데이터가 쏟아진다"라는 어쩌면 이젠 굳은 살처럼 박혀버린 멘트로 발표가 시작됐습니다. 이 멘트로 인해 식상한듯 했지만 이내 지속된 스토리는 굉장히 도전적인 내용이었습니다. Michal Linial 박사의 연구 특성상 UniProt Database를 주로 이용하는데 시간이 지남에 따라 데이터베이스는 점차 거대해지고 데이터 핸들링이 어려워졌다고 합니다. 거대화의 주된 요인 중 데이터의 중복이 가장 큰 문제였는데, 동일한 정보에 비슷한 서열을 가진 데이터가 굉장히 많았습니다. 실제로 짧은 길이의 서열 조각을 공통으로 가진 단백질들 묶음을 발견할 수 있었습니다. 처음엔 이러한 데이터의 중복을 제거하기 위해 Protein classification algorithm 제작을 팀에서 함께 시작했지만, 이것이 다른 방향으로 확장되어 ProtoNet 이라는 툴을 만들게 됩니다. 처음 의도와 다르게 발전한 ProtoNet은 결국 하나의 맵을 만들고 연관된 단백질을 묶어 네비게이터를 만들어 단백질 레벨에서의 계층구조와 진화구조를 연구하는 툴이 됐습니다. 실제로 자신의 단백질 서열을 집어넣으면 트리를 그려주는 것을 확인할 수 있었습니다.

두번째로는, 이쪽 생물정보 분야의 연예인인 Eugene Myers 입니다. 서열을 다루는 생물학자라면 누구나 한번은 사용해봤을 법한 NCBI의 BLAST가 이분을 통해서 만들어졌습니다. 그것만으로도 대단한데 Human Genome Project 당시 셀레라 지노믹스의 샷건 시퀀싱 기술을 Eugene Myers 가 만들었다고 합니다. 물론 다국적팀이 3일 먼저 완료했다는 보고 덕에 과학계에서는 큰 의미없는 아쉬운 2등을 했지만, 굉장히 짧은 시간에 지놈을 완성할 수 있는 알고리즘을 개발했다는 측면에서 다국적팀의 Jim Kent 보다 더 유명해지지 않았나 싶습니다. DNA assembly 라는 주제로 긴 시간동안 많은 고견을 들을 수 있었습니다. 앞으로는 low fold 의 시퀀싱을 가지고 어셈블리를 할 것이고, PacBio 같은 long read 를 가지고 퀄리티가 좋은 어셈블리를 하는 시대를 예견했습니다. Long reads 를 준비하는 이유는 먼 훗날 언젠간 어셈블리가 필요 없어질 것이라는 이야기도 했는데 PacBio에서 이번에 새로 출시되는 시퀀서에서는 한방에 complete transcripts가 시퀀싱 된다고 합니다. 현재의 난제인 지놈도 언젠간 가능하지 않을까라는 생각을 해봅니다.

더불어 생물정보학의 중요성을 다시 한 번 깨닫게 해 주었던 키노트 중 하나는 스탠포드 대학교의 Russ Altman 박사가 발표한 " Informatics for understanding drug response at all scales " 입니다. 그는 분자, 집단, 종 등 다양한 drug response 에 대해서 발표했습니다. 약에 대한 연구에서 가장 중요한 것 중 한 가지는 다양한 레벨에서의 반응을 이해해야 한다는 것입니다. 한두 가지 특정 상황이 아니라 성질, 반응, 상호 작용, 구조, 유전자와의 상호 반응, 3차 구조 등 모든 다양한 분야에서의 정보 융합이 필요하다고 제창하였습니다. 즉, 가용할 수 있는 모든 정보가 개인 맞춤의학에 대해서 도움을 줄 수 있으며, 이제 "생명은 유전자가 아니라 정보의 흐름으로 이해해야 한다" 라는 큰 틀을 이야기했습니다.

Good things come in Small Packages – Replicators and Innovators – Michal Linial
DNA Assembly : Past, Present, and Future – Eugene(Gene) Myers
Biomedical Quants of the world Unite! We only have our disease burden to lose – Isaac(Zak) Kohane
Biomaterials and biotechnolgy: From the discovery of the first angiogenesis inhibitors to the development of controlled drug delivery systems and the foundation of tissue engineering – Rober Langer
Informatics for understanding drug response at all scales – Russ Altman
Multidimensional single cell approach to understand cellular behavior – Dana Pe’er

생물학자들을 위한 생물정보 어플리케이션

또한, 기술적인 부분에서는 생물학을 연구하는 다양한 학자들을 위하여 많은 어플리케이션이 소개되었습니다. 일본의 리켄에서 제공하는 가루다 시스템과 NGS 분석에서 한 번쯤은 사용해 본 적이 있는 Bioconductor 패키지에 대한 자세한 설명과 사용법에 대해서도 소개하는 세션이 있었습니다. BioConductor에서는 800여개가 넘는 다양한 분석 모듈을 제공함으로써 손쉽게 생물데이터를 다룰 수 있도록 했고 교육, 메뉴얼, 동영상 등 초보자도 쉽게 따라서 할 수 있도록 많은 정보를 제공하고 있다는 것을 소개해주었습니다. 그리고 웹에서 NGS 데이터를 분석할 수 있는 환경을 만들어 주는 Galaxy에서는 기본 설치에서부터 사용법, API 등의 사용법 다양한 정보를 제공해주었습니다. 특히 그들 그룹에서는 현재 제공되는 Galaxy 뿐 만 아니라 다양한 주요 분석 패키지를 취합해 하나의 어플리케이션으로 제공할 계획을 세우고 있다고 합니다. 그런 부분에서 그들의 도전 정신을 깊이 배울 수 있는 계기가 되었습니다.

메인컨퍼런스의 한 꼭지인 포스터 발표장입니다.

Human & Disease & Bioinformatics

이번 학회의 포스터장에서는 총 515개의 포스터가 등록됐습니다. 역시나 학회장의 전체적인 분위기를 대변해 주듯 Bioinformatics of disease and treatment 분야의 포스터가 가장 많은 14%를 차지하고 있습니다. 그 뒤로는 Systems biology and networks, Protein structure and function prediction and analysis 가 각각 14%, 12%로 많은 비중을 보였습니다.

각 분야에서도 특히 human 쪽의 연구가 많이 진행되고 있는 것을 확인할 수 있었습니다. 이에 발맞춰 human에 특화된 RNA-seq normalization 방법을 소개한 포스터도 있었습니다. 펜실베니아 대학의 한 연구팀은 서로 다른 샘플간 같은 feature에 대한 비교에 사용된 기존의 normalization 방법의 8가지 문제점을 나열하고 이를 반영한 새로운 normalization 방법을 고안했습니다. 대부분의 문제점은 분석 목적에 맞는 RNA-seq normalization 방법에 분명 필요한 것들이고, 당사의 RNA-seq normalization 방법에도 반영되고 있는 부분이었습니다. 하지만 한가지 눈길을 끄는 새로운 방법이 눈에 띄었습니다. 앞서 말씀드린 대로 다른 샘플간의 같은 feature를 보고자 한다면 그 비교의 범위를 좀 더 명확하게 볼 필요가 있습니다. 이를 위해서 dominant gene 을 제거합니다. 이러한 gene들은 house keeping gene 이나 special case gene 을 말하는데 이와 같은 very high expressed gene 을 제거함으로써 보고자 하는 대상을 좀 더 세밀하게 관찰할 수 있도록 합니다. 또한, transcript 단위가 아닌 exon 단위별 mapped reads 개수를 categorization 하여 RPKM 편차를 줄이는 방법을 사용하는데 이를 통해 좀 더 유의한 비교가 가능하다고 설명합니다. 이런 방법들은 연구의 목적에 따라 개연성에 맞게 적용되어야 하는 부분이지만 새로운 normalization 기법을 생각해 볼 수 있었습니다.

미국에서 개최된 학회라서 그런지 많은 연구자의 소속이 미국소재지였습니다. 물론, 다양한 국가출신의 연구자들이 함께한 학회였지만, 그들이 자리한 자유와 기회의 땅으로 불리는 미국의 기운을 받아 자유로운 생각과 창의적인 아이디어로 연구를 진행하고 리드한다는 느낌을 받았습니다. 미국문화의 내면과 외면에는 많은 차이가 있겠지만, 이런 공부와 연구에 대한 환경을 제공하는 시스템은 우리가 본받을 점이라고 생각합니다.

이번 ISMB에서는 학회 주제에 맞는 다양한 주제들을 접할 수 있었습니다. 특히 휴먼에 대한 질병과 치료연구들이 많이 진행되고 있었고 BIOBASE와 EMBL 쪽에서도 cancer 연구에 특화된 데이터베이스를 준비하고 있었습니다. 한편 제 2의 genome이라 불리는 microbiome 연구 또한 탄탄한 펀드를 기반으로 활발히 연구되고 있습니다. NIH에서 2007년부터 시작된 HMP (Human Microbiome Project)뿐만이 아니라 유럽에서는 개개인의 microbiome 을 이용한 치료를 목적으로 5,000명의 데이터베이스를 준비하고 있다고 합니다. Microbiome 연구는 앞으로 전 세계적으로 확장될 분야라는 확신을 얻었고 앞으로 국내에도 많은 연구결과 소식을 접할 수 있기를 기대합니다.

작성자 : Codes 사업본부 Development팀 이규열 팀장,
Research실 유승일 컨설턴트

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/160

Circos를 이용해 유전체 데이터 시각화하기

Posted at 2014/08/04 14:30
Filed under 생물정보

Circos(http://circos.ca/)는 데이터를 시각화하는 Perl 기반의 소프트웨어 패키지로써 circular layout을 이용한다는 특징이 있습니다. 다양한 track과 plot 타입을 사용할 수 있어 변이나 genomic interval간의 관계를 표현하는데 유용하기 때문에 근래 유전체 분석 및 비교 유전체 분석 논문에서는 필수 피겨로 자리매김하고 있습니다. [그림 1]은 염색체 간 서열의 유사성을 두 가지 map으로 표현하고 있는데 왼쪽은 일반적인 genetic map의 형태로써 모든 염색체를 하나의 그림에 표현하기 어렵고 1:1 비교만 표현할 수 있다는 단점이 있는 반면 오른쪽의 Circos map은 1:1 비교뿐만 아니라 모든 염색체 간 서열의 연관 관계를 표현할 수 있다는 장점이 있습니다.

그림 1. Genetic map과 Circos의 비교

또한 Circos는 [그림 2]에서 보는 것처럼 line, scatter plot, histogram, text, heat map, tile 등 다양한 형태의 plot type을 제공하고 있고 online tutorial (http://circos.ca/documentation/tutorials/) 페이지에서 각각의 예제 및 사용법을 보여주고 있습니다. 따라서 연구자는 자신이 가지고 있는 데이터의 속성에 따라 가장 잘 맞는 plot type을 지정하여 사용하면 됩니다. 예를 들어 유사한 genomic region 및 유전자의 관계를 표시하고자 할 때는 link type으로, 각 유전자는 tile 또는 text type을 이용하여 표현할 수 있습니다. 또한 expression value, frequency, coverage와 같이 각 위치에 대한 값을 다르게 갖는 경우에는 histogram이나 line plot을 이용하시면 좋습니다.

그림 2. Circos의 다양한 plot types

이처럼 그림으로는 너무 친근한 Circos, 말로도 쉬운 Circos, 그러나 막상 그리려니 막막한 Circos, 친해지기는 어려웠던 Circos에 대해서 직접 사용해본 결과 간단하게나마 정보를 드리고자 합니다. Circos map을 그리기 위해서는 [표 1]과 같이 4 단계의 과정을 수행해야 합니다.

표 1. Circos 분석 워크플로우

1. Circos 설치

Circos의 설치는 비교적 간편한 편으로 홈페이지 (http://circos.ca/documentation/)에서 압축 파일을 다운로드 받은 뒤 압축을 풀어주기만 하면 완료됩니다. 그러나 Circos가 Perl 기반의 소프트웨어이므로 Perl 프로그램 (버전 5.8 이상) 및 분석에 필요한 Perl 모듈 설치가 선행되어야 하고, 그리고자 하는 데이터 각각에 대해 input file 및 별도의 configuration 파일을 작성해 주어야 하므로 처음 접하시는 분들께는 조금 막막할 수 있습니다. 하지만 온라인 tutorial 및 별도의 tutorial 파일을 통해 example data 및 configuration 파일을 함께 제공하고 있으므로 적절히 값을 변경하기만 하면 충분히 응용이 가능하여 조금만 살펴보시면 누구나 쉽게 따라할 수 있을 것입니다.

2. 그리고자 하는 데이터의 정보를 담고 있는 입력 파일 생성

데이터를 어떻게 보여줄 것인지에 따라서 plot type이 결정되고 이것은 Circos map에서 하나의 데이터 트렉을 형성합니다. 데이터 트렉의 위치는 사용자가 직접 지정해줄 수 있으며 여러 데이터 트렉이 중첩되어 더욱 정교한 map을 형성할 수도 있습니다. Circos input file은 이 데이터 트렉에 따라 포맷이 조금씩 달라질 수 있으나 대부분 chromosome (sequence) name, start position, end position, values (color나 값 지정) 순으로 Circos map 상 위치 정보를 가지고 있습니다. 주의할 점은 동일한 plot type을 갖는다 할지라도 데이터 트렉 위치 및 기타 시각화 속성 값이 다르면 데이터 트렉을 따로 생성해야 한다는 점, 즉 input file을 분리 생성해야 한다는 것입니다. 자세한 데이터 설명 및 input file 포맷은 Circos tutorial(http://circos.ca/documentation/tutorials/configuration/data_files/)을 참고하세요.

2-1. Karyotype 설정
Circos를 그리기 위해서 가장 필요한 것은 각 데이터 트렉의 범위를 지정하는 backbone을 설정하는 것입니다. 이는 하나의 염색체일 수도 있고 여러 염색체로 구성된 genome 서열이거나 또는 sequence contig 및 clone일 수도 있습니다. 이러한 backbone에 대한 정보를 담고 있는 것이 Karyotype 파일이며 그리고자하는 genome이나 chromosome의 이름, 크기, 색 등을 지정해 줍니다. 앞으로 그리게 될 모든 데이터는 이 Karyotype 파일이 지정하는 범위 내에서 허용되므로 잘 설정해 주어야 하며 human, mouse, rat, drosophila genome에 대해서는 이미 tutorial에서 제공하고 있으니 쉽게 이용할 수 있습니다. Karyotype 파일에 입력한 모든 서열 정보가 Circos map에 표현되는 것은 아니고 3의 configuration 파일에서 지정해 주어야 표현이 됩니다. 이때 일부 서열만 지정하여 보여주거나 반지름의 크기, 선의 두께 등 일부 속성을 지정해 줄 수 있습니다.

# Karyotype 파일 포맷
chr - ID LABEL START END COLOR (chromosome의 경우)
band hs1 p36.33 p36.33 0 2300000 gneg (Cytogenetic bands의 경우)

3. 데이터의 시각화 속성을 지정해주는 configuration 파일 생성
Configuration 파일은 Circos 프로그램 실행을 위한 명령문들을 정의한 파일로써 앞서 준비한 Karyotype 파일 및 기타 data input file들을 지정해주고 각 데이터 트렉의 위치 및 크기, 색상, 테두리 선 등 다양한 시각화 방법에 대한 지침을 포함하고 있습니다. 색상이나 글꼴과 같이 쉽게 바뀌지 않는 값들은 기존에 셋팅된 configuration 파일이 있다면 <<include ...>>를 이용하여 import 후 이용할 수 있습니다.
(http://circos.ca/tutorials/lessons/configuration/configuration_files/ 참고)
링크된 페이지 (http://circos.ca/documentation/tutorials/configuration/configuration_files/images)에는 Circos가 제공하는 다양한 색상 및 글꼴 정보가 있으니 참고하시면 map의 퀄리티를 한층 업그레이드하실 수 있습니다. 물론 해당 정보를 가지고 있는 configuration 파일이 별도로 존재하므로 import해 주어야 프로그램이 인식할 수 있겠죠?

그림 3. Configuration file 예시

4. Circos 실행하기
Circos 프로그램의 실행은 아래와 같이 configuration 파일만 지정해주면 됩니다.

$ cd circos-x.xx/bin
$ ./circos -conf circos.conf

데이터를 어떻게 시각화할 것인지에 대한 깊은 고뇌와 manual을 살펴보며 만든 여러 input file들, 그리고 시키는 대로 한 것 같은데 자꾸만 에러를 뱉고 죽어버리는 야속한 configuration 파일 때문에 포기하고 싶을 수많은 순간들을 이겨낸다면 결국에는 완성된 Circos map (PNG/SVF format)을 얻을 수 있습니다. 그러나 노력의 결과와 달리 막상 완성된 Circos map을 열어 보면 색상 배열이나 plot size가 적절하지 않아 기대했던 만큼 예쁜 그림을 얻기 어렵습니다. 다시 값들을 변경하고 실행하기를 여러 차례 거친 후에야 원하는 최적의 map을 완성할 수 있을 것입니다. 최종적으로 논문화하기 위해서는 별도로 범례 등을 추가해 주어야 한다는 함정이 있습니다.

Case I. Genome visualization

[그림 4]는 약간의 표현형 차이를 보이는 10개의 샘플에 대해서 26개의 타겟 유전자 좌위를 비교한 결과 동일한 유전자를 가지고 있으면 link로 표현한 Circos map입니다. Karyotype은 10개의 genome에 대한 정보를 가지고 있으며 동일한 종이므로 genome size를 같게 표현하였습니다. 각 유전자는 tile type으로, 유전자 간 연결선은 link type으로 나타냈는데 이때 구별이 용이하도록 각각 다른 색상을 지정해 주었습니다. plot의 색상은 input file에서 추가해 주면 됩니다. 만약 유전자 별로 트렉 위치 (radius)나 크기를 다르게 표현하고자 했다면 각각의 input file을 만들어 configuration 파일에 지정해 주어야 합니다.

그림 4. 10개 샘플의 표현형 관련 유전자 비교 분석

이해를 돕기 위해 분석시 사용했던 input file (일부) 및 configuration file을 덧붙이자면 다음과 같습니다. external configuration file의 경우 웬만하면 아래와 같이 모두 import 후 시작하는 것이 정신 건강에 유익합니다. 이때 Circos 프로그램의 실행 위치와 각 파일들의 위치를 잘 파악하여 필요시 full path로 적어주셔야 한다는 점~ 기억해 주세요.

1. Configuration file
# External configuration file 지정하기
<<include etc/colors_fonts_patterns.conf>>
<<include etc/colors.brewer.conf>>
<<include ideogram.conf>>
<<include ticks.conf>>
<<include housekeeping.conf>>

# Karyotype 파일 지정 및 나타낼 chromosome 지정하기
karyotype = karyotype.txt

<image>
<<include etc/image.conf>>
</image>

chromosomes_units = 1000000
chromosomes_order = Sample1,Sample2,Sample8,Sample5,Sample3,Sample9,
Sample10,Sample4,Sample6,Sample7
show_ticks* = no

# etc/colors.brewer.conf 파일에 선언되어 있는 color alias를 이용하여 
각 chromosome의 색 지정하기
<colors>
Sample1  = lum80chr1
Sample2  = lum80chr3
Sample3  = lum80chr7
Sample4  = lum80chr9
Sample5  = lum80chr11
Sample6  = lum80chr13
Sample7  = lum80chr15
Sample8  = lum80chr17
Sample9  = lum80chr19
Sample10 = lum80chr21
</colors>

# link type으로 유전자간 연결 선 지정하기
<links>
<link>
file = gene_link.txt
radius = 0.7r
thickness = 3
</link>
</links>

# plot type으로 각 유전자 나타내기
<plots>
<plot>
type = tile
file = gene.txt
orientation= center
label_size = 3 
r0 = 0.73r
r1 = 0.99r
padding  = 20p
rpadding = 20p
stroke_thickness = 1
stroke_color     = black 
<backgrounds> 
<background> 
color = vvlgrey
</background> 
</backgrounds>
</plot>
</plots>


2. Karyotype file
chr - Sample1 Sample1 0 251057686  Sample1
chr - Sample1 Sample2 0 251057686  Sample2


3. gene_link.txt file
Sample1 37664116        37667348        Sample2 37664116        
37667348    color=lum80chr1
Sample1 37664116        37667348        Sample5 37664116        
37667348    color=lum80chr1

4. gene.txt file Sample1 32664117 42667349 color=lum80chr1 Sample2 32664117 42667349 color=lum80chr1 Sample5 32664117 42667349 color=lum80chr1

Case II. Comparative genome visualization

하나의 genome에 대해서 structural annotation 분석을 수행 후 얻어진 유전자 좌위를 표현한 것이 [그림 5]입니다. Case I과 마찬가지로 유전자는 plot type으로 지정해 주었고 유전자의 functional category에 따라서 다르게 색을 부여하였습니다. 이때 forward strand 유전자의 경우 바깥쪽에, reverse strand 유전자의 경우 안쪽에 배치하여 유전자의 방향성을 표현하였습니다. 이를 위해서 각 strand 별로 input file을 달리하여 configuration 파일에서 plot의 radius를 조정하였습니다. 그림에서 볼 수 있는 범례는 다른 툴을 이용하여 추가해 준 것으로 Circos에서 이 기능이 포함된다면 좀더 유용하게 이용할 수 있을 것 같습니다.

그림 5. Circos로 표현한 genome browser

작성자 : Codes사업부 Research실
정명희 컨설턴트

Posted by 人Co

Tag: Circos
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/159

Omics Technologies와 효과적인 in silico 테스트가 질병 치료를 위한 분자적 타켓 발굴을 가깝게 하고 있다?

Posted at 2013/12/11 16:45
Filed under 생물정보

지난 4월, Computational and structural biotechnology 저널에서 Pathway Studio 9.0 외 다양한 생물학적 툴(DAVID, IPA등)을 이용한 파킨슨병 네트워크 뷰가 발표되었습니다[1]. 대표적인 노인성 질환인 파킨슨병은 뇌의 유전적 요인과 환경적인 요인의 상호작용을 인해 발병된다는 가설이 보편적입니다. 그리고, 파킨슨병은 치매 다음으로 흔해서 100명당 1~2명 꼴로 발생하고, 조기 진단이 매우 중요하다고 합니다.

연구팀은 파킨슨병에 관한 네트워크 뷰가 대표적인 신경퇴행성 질환인 치매 (Alzheimer)나 헌팅턴 무도병 (Huntingtun)과 같은 질병등에 광범위한 유전적 네트워크를 형성하는 기반이 될 수 있을 것이라고 발표하였습니다. 또한 분석을 통해 선별된 유전자들이 대표적인 신경퇴행성 질환의 공통적인 메카니즘과 관련이 있음을 확인하였습니다. 따라서 향후 이러한 네트워크 분석을 기반으로 하여 연구가 진행된다면, 파킨슨병과 같은 복잡한 신경 퇴행성 질환을 치료하기 위한 새로운 타겟이 될 수 있을 것이라고 발표하였습니다. 다만, 이러한 네트워크 뷰가 한정적이며, 부분적이어서 신경 퇴행성 질환과 같은 매우 복잡한 생물학적 pathway를 설명하기에는 부족하고, 또한 빙산의 일각에 불가하다고도 덧붙였습니다.

실제로 복잡한 생물학적 경로를 가지고 있는 다양한 질병들의 원인과 치료방법에 관한 수많은 연구가 진행되고 있는 현 시점에서 기존의 공개 정보들을 모아 잘 구성된 분석 프레임(well-made in-silico framework)에 적용한다면, 질병 치료를 위한 자체적인 파이프라인을 구축할 수 있지 않을까 하는 기대로 짤막하게 리뷰 하고자 합니다.

우선 논문에서는 파킨슨병 네트워크 뷰를 형성하기 위해 아래와 같이 워크플로우를 제시하고 있습니다 (그림 1).

그림1.Study Workflow

Step1. 유전자 발현 데이터 셋 확인 (Identify microarray gene expression datasets): NCBI GEO 데이터 셋에서 diseased/control 상태의 원하는 샘플의 유전자 발현 정보 수집 [2].
Step2. 주요 DEGs 선별(Detection of significantly deferentially expressed genes): 데이터의 일관성을 위해서 동일한 방법으로 pre-preprocessing, normalizing, post-normalizing을 한 데이터를 선별하고, GEO데이터 셋에서 CEL 파일의 raw 데이터를 다운받아 R 프로그램으로 분석. 단, 선별된 모든 데이터들은 RMA(Robust Multi-array Average)[3], eBay(empirical Bayes)[39]통계 처리하여 주요 DEGs를 선별. (p-value<0.05)
Step3. "Seed genes" 생성: 연구팀은 GEO에서 3개의 데이터 셋 (GSE8397 HG-U133A, GSE8397 HG-U133B, GSE20295 HG-U133A)를 선별하여 중복되는 SDEGs들을 제거하고 각 조직별, 그리고, 조직에 상관없이 diseased/control 대비 DEGs 간의 공통 SDEGs 선별. (267개 선별, p<0.01)
Step4 . 파킨슨병과 관련된 새로운 유전자와 타겟 약물을 확인하기 위해 다양한 신경 퇴화질환 네트워크를 구축: PathwayStudio9.0 ResNet 9.0(2011.10.15 released) DB를 이용하여 신경퇴화 cell process와 관련된 direct interaction(DI), shortest-path(SP), common targets, 다양한 regulator를 분석하고, 분석된 정보로부터 신경퇴화 관련 유전자들과 선별된 267개 SDEGs 상관관계를 분석.
Step5. GO 분석: DAVID, IPA를 이용해서 GO 분석: Pathway Studio의 Pathway enrichment analysis를 통해 파킨슨병 pathway 분석
Step6. 기계론적 분석: DAVID 분석에서 얻어진 결과를 KEGG와 GO카테고리로 분석해서 공통으로 관련하고 있는 최종 46개의 유전자를 이용하여 질병 네트워크를 통합적으로 분석 [4].

선별된 유전자들 검증하기 위해서 워크 플로우를 통해 선별된 유전자들(267개)과 OMIM DB에 알려진 기존의 파킨슨병 주요 유전자 리스트를 비교한 결과, 누락된 몇몇 유전자들를 제외하고, 선별 유전자들이 기존 파킨슨병 주요 유전자들을 커버하고 있음을 확인하였습니다. 그리고, Pathway Studio외 DAVID, IPA 분석 등으로 최종적으로 46개의 유전자를 선택해서 파킨슨병 네트워크 뷰를 그렸습니다 (그림2).

그림 2. Parkinson's disease regulatory network (blue(17): the genes of potential interest, green(7): miRNA)

특별히 더 주목할 만한 사항은 이러한 분석을 통해 새롭게 17개의 유전자들이 파킨슨병과 관련된 주요 유전자임을 확인할 수 있었다는 것과 이 17개의 유전자들이 질병 메카니즘 조절에 주요 역할을 하는 가장 근접한 pathway에서 발견되었다는 것입니다. 더불어, 기존에 밝혀진 miRNA[5]외에 추가적으로 7개의 microRNA를 더 확인할 수 있었고, 새롭게 밝혀진 miRNA와 mRNA와의 상관관계도 네트워크를 통해 확인할 수 있었다는 것입니다. 그리고, 이렇게 확인된 17개의 유전자들이 파킨슨병 뇌조직 뿐만 아니라, 치매 (Alzheimer), 헌팅턴 무도병 (Huntingtun)의 signal pathway에도 관여하여 모든 신경 퇴행성 질환에 공통적인 메카니즘을 설명하는 근거를 제시하고 있다는 것입니다. 그리고, 결론적으로는 연구팀이 발표한 파킨슨병 네트워크 분석을 통해서 파킨슨병을 촉발하는 분자 메카니즘(신경보호, 질병유발 등)에 관여하는 3개의 유전자(CX3CL1, SEMA6D, ILI2B)를 찾았으며, 최종 선별된 3개의 유전자가 관여하고 있는 신경보호, 질병 유발과 같은 분자 메카니즘의 향후 연구가 새로운 질병 치료를 위한 타겟이 될 수 있다고 제안하였습니다.

물론 이러한 in silico 상의 결론들은 많은 검증 절차가 필요하기 때문에 우리가 추구하는 최상의 결과를 제공하진 않지만, 이러한 분석적 시도는 다른 질병치료를 위한 연구에 적용할 만한 충분한 가치를 가진 듯 하였습니다. 그리고, 블로그 제목처럼 오믹스 정보들과 in silico 테스트가 질병 치료를 위한 해답에 점점 가까워지게 하는 것 같아 보이기 합니다. 빅데이터 시대에 수많은 불치병과 난치병이 이렇게 치료 방법을 찾아 가고 있지 않을까하고.....

모두가 그렇진 않지만, 저를 비롯한 많은 생물학자들은 각자가 가지고 있는 나무들을 모아 숲이 우거지길 기대하며 연구에 주력하는 듯합니다. 그러나, 포스팅한 논문과 같이 먼저 숲이 얼마나 우거져 있는지를 확인하고, 분류한 후, 가장 실한 나무를 찾는 연습과 훈련을 반복해서 더 효율적인 연구 결과를 얻는데 더 많이 주력해야 할 것 같습니다. 그리고, 그 중심에 생물정보가 있는 게 아닌가 하고 이 글을 쓰며 새삼 다시 생각하게 됩니다.

참고문헌

[1] Sreedevi Chandrasekaran a, Danail Bonchev, (2013) A Network View on Parkinson’s Disease, Computational and structural biotechnology J. 7(8)
[2] Groettrup B. Boeckmann M, Strephan C., Marcus K., Grinberg LT, Meyer HE, Park YM (2012) Translational protemics in neurodegenerative diseases-16th HUPO BPP workshop Sep. 5, 2011, Geneva, Switzerland. Proteomics 12: 356-358
[3] Irizarry RA, Hobbs B, Collin F, Beazer-Barclay YD, Antonellis KJ, et al (2003) Explorarion, normalization, and summaries of high density oligonucleotide array probe level data. Biostatistics (Oxford England) 4: 249-264
[4] Kanehisa M. Goto S(2000) KEGG:kyoto encyclopedia of genes and genomes. Nucleic acids research 28:27-30
[5] Mouradian MM (2012) MircoRNAs in Parkinson's disease. Neurobiology of disease 46: 279-284

Codes사업부 Consulting팀
신가희 팀장

Posted by 人Co

2013/12/11 16:45 2013/12/11 16:45

Response

No Trackback , No Comment

RSS :

https://post-blog.insilicogen.com/blog/rss/response/143

Trackback URL : 이 글에는 트랙백을 보낼 수 없습니다

Search Results for '생물정보'

80 POSTS

(주)인실리코젠 세계 최대규모 유방암 전장유전체 해독 연구 참여

글로벌 바이오의 중심인 생물정보 데이터베이스에서 바이오 융합기술의 미래를 디자인하다

웹으로 계통수(Phylogenetic Tree) 그리기

ISMB / ECCB 2015 학회 참석기

후대를 위한 생물정보 유산

R/Bioconductor를 활용한 Pathway 맵 그리기

분자진단 시장의 발전

ISMB 2014 참석 후기

Circos를 이용해 유전체 데이터 시각화하기

Case I. Genome visualization

Case II. Comparative genome visualization

Omics Technologies와 효과적인 in silico 테스트가 질병 치료를 위한 분자적 타켓 발굴을 가깝게 하고 있다?

참고문헌

Categories

Recent Posts

Archives

Tag Cloud

Site Stats