지난 3월 23~24일, 차세대바이오그린 21 동물유전체육종사업단 내의 연구자들을 대상으로 두번째 "오믹스 정보 분석시스템 활용" 워크샵을 개최하였습니다. 작년 10월에 진행되었던 NGS 데이터의 분석 응용에 대한 첫번째 워크샵에 이어서 두번째 워크샵은 타겟 유전자의 네트워크 분석에 대한 내용으로 준비하였습니다. 한경대학교 산학협력관에서 진행된 이번 워크샵은 Pathway Studio 프로그램을 활용하여 참석자 모두가 준비한 노트북으로 실습도 교육도 함께 진행되었습니다.

사용자 삽입 이미지

첫째날 진행된 교육은 Pathway Studio 프로그램의 기본적인 구성에 대하여 이해하고 관심 유전자 등을 검색하여 유전자 리스트의 Pathway 분석방법을 배웠습니다. 돼지 등지방 두께를 조절하는 13개 유전자 중에서 fam73a, negr1, ttll7 등 3개의 유전자가 흥미롭게도 사람의 복부 및 견갑골 피하지방의 원인 유전자임이 밝혀진 연구결과를 바탕으로 해당 유전자를 예제 데이터로 활용하여 분석하니 더 유용한 결과를 확인할 수 있었습니다.

사용자 삽입 이미지

둘째날 교육은 MedScan을 이용한 텍스트마이닝과 expression 데이터 분석에 대한 주제로 진행되었습니다. PubMed에 서 원하는 논문들을 텍스트마이닝을 통하여 그 관계를 pathway로 분석할 수 있었으며, 1000편이 넘는 논문의 abstract를 짧은 시간 안에 읽어내는 기능에 모두가 감탄하였고 microarray 데이터의 발현량과 네트워크 정보와의 맵핑을 통하여 타임코스별 네트워크 양상도 확인하는 분석도 함께 수행하였습니다.

사용자 삽입 이미지

이 번 워크샵을 통하여 1차원적인 염기서열 분석 이후에 최종적으로 관심유전자의 네트워크 분석은 앞으로 더욱 그 중요성이 높게 평가되기에 더 뜻 깊은 시간이었고 바쁜 시간 내어주신 참석자분들께도 하시는 연구에 조금이라도 도움이 되셨길 바랍니다.

Posted by Quipu

2012/03/30 11:18 2012/03/30 11:18
Response
No Trackback , 1 Comment
RSS :
http://insilicogen.com/blog/rss/response/104


Next Generation Sequencing?

                                                                                                                           DNA 염기서열의 정보는 그 동안 sanger에 의해 개발된 방법을 자동화하여 DNA 가닥에서 A, T, G, C의 순서를 빠르고 정확하게 읽어내는 캐필러리 장비(Sanger sequencing, 1세대 시퀀싱)를 이용하여 분석하였고 유전자의 발현, 다양성 및 상호작용 등의 정보로서 활용할 수 있어 굉장히 중요합니다.

따 라서 많은 염기서열을 저렴한 비용에 수행할 수 있는 기술의 필요성이 증가되면서 차세대 염기서열 분석 기술(Next Generation Sequencing, 2세대 시퀀싱)을 이용한 플랫폼들이 소개되어, 생명과학 분야에 있어서 특히 유전체학 분야에 큰 영향을 끼치고 있습니다.

또 한 현재 염기서열 분석 기술은 더 짧은 시간에 더 적은 비용으로 더 많은 염기서열을 결정할 수 있는 플랫폼 장비들이 계속적으로 탄생되어 시퀀싱 chemistry 차이에 따라 차세대(2세대), 3세대, 4세대로 분류하여 부르기도 하면서 비약적인 발전을 하고 있습니다.

NGS 데이터 분석 도구

                                                                                                                               현재 생산되는 NGS 데이터는 장비가 점점 발달함에 따라 한 번 플랫폼을 run하여 얻는 데이터양만 해도 어마어마합니다. 따라서 이러한 데이터를 한꺼번에 분석하려니 그에 맞는 메모리 및 스토리지 등의 하드웨어 사양의 고려와 또한 생물정보를 알고 있지 않는 이상 명령어 방식의 커맨드라인의 툴을 이용하기란 쉽지 않습니다.

NGS 데이터의 분석 단계는 크게 pre-processing, assembly 그리고 assembly를 이용한 이차 분석으로 나누어집니다. Pre-processing 단계에서는 다양한 플랫폼으로부터 single reads, long reads, paired-end reads 등 시퀀싱된 reads의 정보를 assembly 단계에 적용하기 위한 작업을 수행하고, 분석의 방향과 목적에 맞는 assembler를 선택하여 assembly를 수행하게 됩니다. 이 후 assembly 결과를 이용한 variation 분석, expression 분석, binding site 분석 및 전체 정보에 대한 브라우저 구축 등 다양한 이차정보를 분석하게 됩니다.

이 러한 분석 단계들을 하나의 툴에서 모두 진행하고 그 결과를 그래픽하게 확인할 수 있다면 NGS 데이터를 다루는 생물학자들이 무척이나 수월하게 연구를 수행할 수 있을 것입니다. 이러한 목적으로 개발된 NGS 데이터 분석 도구 중의 하나인 CLC Genomics Workbench를 소개하고자 합니다.

CLC Genomics Workbench의 응용

                                                                                                                            CLC bio사의 CLC Genomics Workbench는 그래픽 인터페이스 기반의 NGS 데이터를 분석하기 위한 데스크탑 솔루션입니다. 현재 Roche 454, Illumina, Applied biosystems, Helicos, Ion torrent 등 다양한 회사의 NGS 플랫폼 장비에서 생성되는 모든 시퀀싱 데이터의 분석을 지원합니다. 또한 기존 sanger 데이터를 비롯하여 각 플랫폼에서 제공하는 다양한 데이터 셋을 hybrid하여 assembly를 수행하고 그 결과를 그래픽한 결과로 확인할 수 있습니다.
                                                                                                                  
사용자 삽입 이미지

또한 annotation 정보가 있는 reference 서열을 기준으로 하여 assembly를 수행할 경우, 해당 유전자 구조도 함께 확인할 수 있습니다.


사용자 삽입 이미지

CLC Genomics Workbench에서 제공하는 assembly는 SIMD(Single Instruction Multiple Data) 기술을 적용하여 병렬연산으로 막대한 양의 NGS 데이터를 빠른 속도로 분석할 수 있어 유전체 크기에 관계없이 분석이 가능합니다. 단 많은 데이터를 분석할 시 고사양의 하드웨어 성능도 필요합니다.

이 렇게 NGS를 통하여 전체 염기서열 결정 및 re-sequencing을 통한 유전체 상의 여러 가지 변이 연구가 활발해졌으며 보통 NGS를 이용한 variation 연구는 유전체 시퀀싱을 진행하여 reference 서열에 정확한 맵핑과 정렬을 통하여 비교하고 있습니다. CLC Genomics Workbench는 일차적으로 assembly를 수행하고 이 후 서열 간의 비교 분석을 통한 SNP 및 small Indel 분석을 진행할 수 있습니다.

사용자 삽입 이미지

또한 NGS는 transcriptome 분야를 포함하여 많은 부분에서 PCR이나 microarray 기술을 대체하고 있으며 특히 RNA-Seq은 한 번의 시퀀싱으로 수 많은 reads를 얻는 높은 coverage를 가지기 때문에 단 시간에 적은 비용으로 전체 transcriptome 서열을 결정할 수 있는 이점이 있습니다. CLC Genomics Workbench는 annotation된 reference 유전체 서열과 mRNA 시퀀싱 reads들을 바탕으로 새로운 엑손의 발굴뿐만 아니라 유전자 발현 레벨을 계산할 수 있습니다.

사용자 삽입 이미지

그리고 CLCL Genomics Workbench에서는 단백질에 binding된 DNA서열을 분리하여 NGS 방식의 시퀀싱을 통해 binding site를 동정하는 방법인 ChIP-Seq 분석을 통하여 genome wide epigenetic study가 가능할 수 있도록 지원하고 있습니다.

사용자 삽입 이미지

이 블로그에서는 컴퓨터를 잘 모르는 생물학 연구자도 쉽게 사용 할 수 있는 소프트웨어인 CLC Genomics Workbench를 이용하여 NGS 데이터 분석 방법을 소개하고자 합니다. 아래 이메일 주소로 연락 주시면 CLC Genomics Workbench의 모든 기능을 사용할 수 있는 데모 라이센스를 제공해 드리오니 많은 이용 바랍니다.

codes@insilicogen.com

많은 생물학 연구자 분들에게 NGS 분석 방법에 대한 이해를 도울 수 있으면 좋겠습니다.

Posted by Quipu

2012/03/29 17:22 2012/03/29 17:22
Response
No Trackback , No Comment
RSS :
http://insilicogen.com/blog/rss/response/103

2004년에 설립된 (주)인실리코젠은 수많은 생물정보 데이터들의 상호간 의미를 연결하고, 이를 통해 새로운 지식을 창출하는 흐름에 부응하기 위해 세워진 회사입니다.

사람을 중시하는 ‘人Co’의 비주얼 아이덴티티는 2012년에 등장하였지만, 의미는 이미 회사의 로고 제작 컨셉안에 숨겨져 있었습니다.

Green컬러와 Blue컬러로 BT와 IT분야의 융합을 뜻하였으며, 심벌의 모양은 염색체(chromosome)를 형상화하여, 인간의 근원을 상징함으로써, 사람을 중시한다는 의미를 내포하였습니다.

2007년부터 기업 아이덴티티 정립을 위한 노력은 시작됩니다. 비즈니스의 약진과 경쟁우위를 확보하기 위해 디자인팀을 신설하고 디자인적 사고를 통한 비즈니스 전략을 펼치는 디자인 경영을 적극 도입하게 됩니다. 그 시작은 시각매체의 컨셉을 일관성있게 작업하는 것이었습니다. 온라인 매체와 오프라인 매체의 시각적 표현구도와 표현방법을 통일하였습니다. (초창기의 기업 슬로건: Bioinformatics leads your way)





2009년에는 Bioinformatics is Insilicogen. Insilicogen is Bioinformatics 라는 슬로건 아래 회사명을 다시 한번 강조하여 생물정보 컨설팅 전문기업으로서의 의지를 다졌습니다. VI의 목적을 생물정보 컨설팅 기업의 이미지를 부각시킴과 동시에 고객에게 친근감과 차별화된 감성을 전달하는 것에 두었습니다.

질감을 살린 배경과 2007년에 이어 픽셀을 상징하는 Square 모양을 2.5D로 표현하고, 생물정보와 관련된 오브젝트를 조합하여 인실리코젠의 I를 강조하였습니다.

설립 초창기엔 낮은 인지도를 감안하여 신뢰감 상승을 위한 Blue계열의 color를 주로 사용하였으나, 2009년에는 회사소개 부분에서는 Green을 사용하여 보다 따뜻하고 친근감있는 기업이미지를 부각시켰고, 제품소개 부분에서는 Blue컬러를 사용함으로써 인실리코젠의 컬러는 두가지임을 인지시키고자 하였습니다.



2010년에는 좀 더 친숙하게 다가가면서도 동종업계와의 차별화를 위해 일러스트를 종이에 그리는 수작업으로 표현하였습니다.