지난 1월 3일, (주)인실리코젠과 숭실대학교 의생명시스템학부는 맞춤형 생명정보 인재 양성을 위한 MOU를 체결하였습니다.

사용자 삽입 이미지

(왼쪽부터 (주)인실리코젠의 최남우 대표이사님, 숭실대학교 의생명시스템학부 김상수 교수님)

이번 MOU 체결식에는 (주)인실리코젠의 최남우 대표이사님, 숭실대학교 의생명시스템학부의 학부장님이신 김상수 교수님이 참석하셨으며, 양해각서 체결로 인해 (주)인실리코젠은 5억원 규모의 실습용 생물정보 솔루션과 최신의 생명정보 기술교육 및 현장실습을 지원하기로 하였으며, 숭실대는 최첨단의 하드웨어 시스템과 다양한 인적네트워크를 제공하기로 동의하였습니다.

이번 협정은 국내 기업과 연구기관에서 요구하는 생명정보 실무 교육을 통해 바이오 연구개발에 필요한 현장중심의 인재를 양성하는 것이 목적이며 이러한 산학협동 과정은 국내 최초로 시도되는 사업이라고 생각됩니다. 또한 생명정보 교육을 한 단계 성숙할 수 있는 계기를 마련하였으며, 빠르게 변화하고 있는 생명정보의 지식과 졸업 후 산업현장에서
활용할 수 있는 전문 능력을 갖출 수 있게 되었습니다.


Posted by 人Co

2011/01/04 19:50 2011/01/04 19:50
, , , , , , ,
Response
No Trackback , 1 Comment
RSS :
https://www.insilicogen.com/blog/rss/response/89

Posted by 人Co

2010/08/26 17:55 2010/08/26 17:55

BIOBASE 소개

인 맞춤 의학시대를 가능케 한 NGS(Next Generation Sequencing) 기술로 인해 이제는 더 이상 유전자 서열정보만을 밝히는 것이 큰 의미를 내포하지 않는다. 생명과학 분야의 궁극적인 목표인 생명현상의 이해를 위해서는 쏟아지는 서열정보를 잘 꿰어 그들의 매우 정교한 세포내 역할을 규명해야 한다. (주)인실리코젠에서는 이러한 연구를 위해 필수적으로 요구되는 몇 가지 데이터베이스를 소개하고자 한다.

 최근 nature에 발표된 Ancient human genome project에 이용된 전사 조절인자 데이터베이스로 유명한 TRANSFAC을 서비스하고 있는 Biobase는 전문가 리뷰에 의한 생물학적 데이터베이스와 소프트웨어 및 생명과학분야의 분석 서비스에 뛰어난 세계적 선두 기업이다.

사용자 삽입 이미지
1986년 시작되어 1997년 German Research Center for Biotechnology에서 파생되어 설립된 이후로 전사조절인자를 비롯한 유전자 조절 메카니즘 데이터베이스 분야에서 독보적인 위치를 차지해 오고 있다. 의학을 비롯한 제약회사 및 연구기관을 포함한 전세계 수많은  고객에게 서비스를 제공하고 있으며, 생명과학 분야의 다양한 논문에서 현재의 데이터가 인용되고 있다.

 Biobase 제품군의 가장 큰 특징은 생물학 전문가들에 의한 데이터의 검토와 수정을 통해 지속적으로 업데이트된다는 것이다. 날마다 논문을 통해 쏟아지는 생명과학 분야의 다양한 데이터를 전문가의 리뷰를 통해 BIOBASE Knowledge Libray(BKL)로 재탄생 시켜 제공하고 있고 이들 데이터의 이해를 극대화 시킬수 있는 ExPlainTM을 서비스 함으로써 drug 혹은 biomarker 개발에 많은 연구자들이 효율적으로 활용 할 수 있도록 하고 있다. 그 서비스 목록은 크게 세 가지로 분류 된다.

1) BKL TRANSFAC

2) BKL PROTEOME

3) HGMD professional


 첫 번째,  TRANSFAC은 유전자 조절분야에서 세계 유일의 데이터베이스이며 표준이 될 정도의 고품질 데이터를 보장하고 있다. 이러한 평가는 The U.S. Bioinformatics Market의 보고에서도 TRANSFAC®을  주요 생물정보 툴 중 하나로 꼽는 등 세계적으로 높은 평가를 받고 있다. TRANSFAC suite에는 전사 조절인자와 관련된 모든 정보를 담고 있다.
Transcription factor, transcription factor binding site, 그리고 composite elements의 총체적인 정보로 구성되어 있으며, 유전자 돌연변이와 유전자 돌연변이에 관련된 질병에 관한 데이터베이스인 PathoDBTM 그리고 regulatory chromatin domain 정보를 담고 있는 S/MARtDBTM도 포함하고 있다.

사용자 삽입 이미지

 두 번째, PROTEOME은 단백질 수준의 조절, 즉 pathway정보를 제공하고 있다. 6개의 데이터베이스로 YPD(s.cerevisiae), HumanPSD, GPCR-PD, WormPD, MycoPath PD 그리고 PombePD(s.pombe)로 구성되어 기능이 밝혀진 최대한의 단백질을 활용하여 세포내에서의 pathway 조절 메카니즘을 총체적으로 이해 할 수 있도록 정보를 제공하고 있다. 이들 데이터는 관련 질병정보를 비롯한 참조논문과 데이터의 품질 정보를 모두 제공함으로써 다양한 생명과학 분야에서 인용되고 있다.

 마지막 HGMD는 human의 유전자 돌연변이 데이터베이스로 유전에 의한 질병관련 정보를 서비스하고 있다. Germ-line 돌연변이 데이터를 중심으로 주어진 유전자와 관련된 돌연변이 정보를 제공하고 있다. 2006년 이후 꾸준한 데이터베이스의 축척으로 2009년 3월 95,000건에 달하는 돌연변이 정보를 보유하고 있으며, 병변을 비롯한 서열정보, 유전체에서의 위치정보, 본래 특성 정보등 상세한 관련 정보를 제공 하고 있다.

 앞서 밝힌 내용과 같이 Biobase 제품군은 세포내 발현 조절과 관련된 총체적인 데이터베이스를 제공한다. 전사 수준의 발현조절인 promoter 분석(TRANSFAC), 단백질 수준의 pathway 분석(PROTEOM), 이후 phenotype과 관련된 유전적 질병 정보(HGMD) 등을
제공하며 다양한 생명과학 분야에 고품질의 데이터를 제공하고 있다.

다음 주부터 앞으로 3주 동안, 오늘 간략하게 말씀드린 Biobase 제품군의 세 가지 데이터베이스에 대하여 한 주에 하나씩 좀 더 자세한 내용으로 소개해드릴 예정입니다.  

여러분들의 많은 관심 부탁드립니다.
감사합니다.






Posted by 人Co

2010/04/19 15:07 2010/04/19 15:07

[Quipu Issue Paper] Variation study Ⅰ

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 주 Quipu Issue Paper 기술 소식지에서는 Next Generation Sequencing의 첫 번째 Application인 Variation study에 대해 5번에 걸쳐 연재될 예정입니다.  다양한 variation study에 대한 소개에 앞서 오늘은 NGS reads를 이용한 assembly에 기반을 둔 variation 분석은 어떻게 이루어지는지 알아보도록 하겠습니다.  

2. Application of Next Generation Sequencing


 2-1. Variation Study


 Next Generation Sequencing 기술은 이제 유전체 연구의 밑바탕이 되고 있다. 수백 Mega base에서 Giga base에 이르기까지 엄청난 양의 염기서열 분석을 수행해내면서 전체 염기서열 결정 및 re-sequencing을 통해 유전체 상의 여러 가지 변이 연구를 활발히 하게 하였다. 이는 시간과 가격적으로 효과적인 마커를 개발할 수 있을 뿐만 아니라 개인 맞춤 의학에 빠르게 다가갈 수 있도록 하고 있다. NGS를 이용한 variation 연구는 대부분 양쪽 말단 서열을 동시에 해독하는 방법인 paired-end 시퀀싱을 사용하고, 평균 시퀀스 배수를 유전체의 20~40X로 시퀀싱을 진행하여 reference 서열에 정확한 맵핑과 정렬을 통해 비교하는 것이 보통이다. 이 후 분석된 막대한 양의 정보들 가운데 의미 있는 SNP나 CNV 분석을 위한 이차적 분석에 전문적 수준의 생물정보학적 도구가 필수적으로 이용되고 있다.

 NGS reads를 이용한 variation 분석은 기본적으로 assembly에 기반을 둔다. 특정 원하는 영역의 서열만을 골라 시퀀싱 하는 amplicon 시퀀싱 방법과 유전체 서열 전체를 대상으로 시퀀싱하는 두 가지 방법 모두 일차적으로 assembly를 수행하고 이후 서열간의 비교 분석을 통해 variation 분석을 진행한다. 따라서 대부분의 assembler는 assembly 뿐만 아니라 이후 SNP와 같은 variation 분석이 가능하도록 추가 기능을 제공하고 있다. 그러나 서열 하나 정도의 variation이 아닌 넓은 범위에 걸쳐 발생하는 variation은 single reads 혹은 짧은 fragment의 paired-end 시퀀싱으로는 한계가 있다. 이를 극복하기 위해 분석 목적에 따라
시퀀싱 타입을 다양하게 디자인하고 있다.

사용자 삽입 이미지
그림 1. NGS reads를 alignment를 이용한 genome 서열 내의 variation 탐색.
다양한 fragment size 설정으로 SNP, CNV 및 구조적 variation 탐색이 가능하다.

 일반적으로, variation 분석에는 fragment size를 다양하게 구성한 paired end 시퀀싱을 추천한다. SNP 뿐만 아니라 CNV와 같은 넓은 지역에서의 variation과 구조적 변화까지 분석하기에는 길이에 제한이 있는 single reads 보다는 다양한 길이로 구성된 paired reads를 이용하여 기준이 되는 reference 서열에 모두 alignment가 수행될 수 있도록 하는 것이 효율적이기 때문이다. 그림 1에서 보여 지는 것과 같이 reference 서열과 비교했을 때 1.5kb의 insertion이 존재하는 경우 500bp fragment의 paired-end 서열은 한쪽만 alignment 되고 다른 한쪽은 alignment가 수행되지 않을 것이다. 그러나 2kb fragment paired-end 서열의 경우  양쪽 서열이 모두 reference 서열에 alignment 되면서 1.5kb의 insertion이 일어났음을 인지할 수 있게 된다. 또한 양쪽 서열의 alignment 방향을 체크하여 inversion이 일어났는지도 확인이 가능하다[7]. 표 1에서는 분석 목적에 따른 최적화된 NGS reads 타입을 소개하고 있다[5]. 현재 paired-end의 fragment size는 200bp에서 5kb 까지 가능한 수준이다. 그 중 2-5 kb의 long fragments의 시퀀싱은 fragment 양 끝 말단을 ligation 하여 circular 형태로 만들고 이후 다시 circular 형태의 서열을 400-600bp 길이로 절편을 만들어 그중 양쪽 끝 말단의 서열을 포함하고 있는 fragment만을 선별하여 시퀀싱을 수행한다[5]. 이러한 방법은 긴 서열 중 필요한 양쪽 끝 말단만을 추출하여 시퀀싱의 샘플로 이용하는 것으로 ‘mate paired ends’라 하며, 시퀀싱의 품질을 높이는 하나의 방법이 된다.

사용자 삽입 이미지
결론적으로, ‘1-2. Assembly’ 에서도 언급 하였듯이 variation을 목적으로 분석하는 경우에는 분석하려는 서열들 간의 차이를 인지하고 이를 반영한 assembly가 수행되어야 한다. 따라서 reference assembly 수행에서도 reference 서열과 시퀀싱 된 reads간의 차이는 SNP와 같은 서열하나일 수도 있고 CNV나 구조적 변형 같은 넓은 범위의 variation도 있기 때문에 표 1에서 언급한데로 다양한 길이의 fragment size로 분석하는 것이 언급된 모든 variation을 분석하기에는 가장 적합하다[5].

다음 연재에서는 다양한 variation study 중에 SNP(Single Nucleotide Polymorphism) 분석법에 대해 알아보도록 하겠습니다.

많은 관심 부탁드립니다.

참고문헌

 1. 이종극 (2006) 질병유전체분석법(Genetic Variation and Diseases)
 2. Eck SH, Benet-Pagès A, Flisikowski K, Meitinger T, Fries R, Strom TM. (2009) Whole genome sequencing of a single Bos taurus animal for single nucleotide polymorphism discovery. Genome Biol. 10(8), R82.
 3. Ganal MW, Altmann T, Röder MS. (2009) SNP identification in crop plants. Curr Opin Plant Biol. 2, 211-217
 4. Xie C, Tammi MT. (2009) CNV-seq, a new method to detect copy number variation using high-throughput sequencing. BMC Bioinformatics. 10, 80
 5. Illumina : SNP Genotyping and CNV Analysis
  (http://www.illumina.com/documents/products/datasheets/datasheet_genomic_sequence.pdf)
 6. Bentley DR. et al. (2008) Accurate whole human genome sequencing using reversible terminator chemistry. Nature. 2008 456, 53-59
 7. Ng SB. et al. (2009) Targeted capture and massively parallel sequencing of 12 human exomes. Nature. 461, 272-276
 8. Koboldt DC, Miller RD, Kwok PY. (2006) Distribution of human SNPs and its effect on high-throughput genotyping. Hum Mutat. 3, 249-254.
 9. 박종화 (2009) 변이체학을 위한 생정보학 분석도구. Medical POSTGRADUATES. 3(37), 131-133
 10. 유향숙, 김선영 (2009) Variome 국제연구동향. Medical POSTGRADUATES. 3(37), 134-137
 11. 임선희, 정연준. (2009) 새로운 유전체 변이의 등장 : 유전자 복제수 변이. Medical POSTGRADUATES. 3(37), 149-153














Posted by 人Co

2010/02/16 14:19 2010/02/16 14:19
, , , , , , , , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/40