여러분의 직장생활, 행복하신가요?

직장인이라면, 인생 1/3 이상의 시간을 회사에서 보낸다 해도 과언이 아닌데요, 표정이 어둡고, 열의가 보이지 않는 상태로 오랜 시간 직장생활을 하고 있다면, 행복하지 않은 삶으로도 연결되는 것이죠.

조직 내에서 인정받는 일원이 되고, 리더가 되며, 전문가가 되는 방법… 각종 직장생활 처세술서에 나오는 행동양식은 결론적으로 모두 유사합니다. 회사의 원리와 원칙부터 이해하고 행동하는 공통점이 있습니다. 적응력, 조정력, 소통, 열정과 역량 등도 빠지지 않는 키워드들이죠. 중요한 건 신뢰와 진정성이 빠지면 금세 들통 나기 마련이라는 것!
 
이번 기회에 소개하고자 하는 (주)인실리코젠 R&D Center 4인은 제가 입사해서 오랜 시간 人Co인으로 함께한 분들이며, 굳건히 각 분야의 리더로 성장하신 분들입니다. 이분들의 생각을 짧게나마 들어보는 시간을 가졌습니다. 자, 그럼 살짝 들어볼까요? ^^



사용자 삽입 이미지
학창 시절부터 시베리아나 몽골 초원과 같은 가보지 못한 곳에 대한 동경이 있습니다. 기계공학에서 출발하여 생물정보학이라는 분야로 옮겨오면서 생소하고 처음 길을 걷는 것이라 즐겁게 받아들였습니다. 이러한 경험을 과학자와 나누면서 그 대가를 받는 것도 고객과 저, 서로가 생소했던 것 같습니다. 이제는 산업의 한 분야로 인정받아 많이 자연스러운 환경이 된 듯합니다.

사용자 삽입 이미지
대학 복학생 때(1997년 즈음), 처음 생물정보학이라는 단어를 접하고는 나를 위한 분야라고 생각했습니다. 컴퓨터에 관심이 많으면서, 동시에 분자생물학을 좋아했던 사람이라면 당연히 생각했을 겁니다. 당시 학교에서 배울 수 없었기 때문에 학회, 세미나 등을 찾아 들으러 다녔던 것이 이 분야로의 시작이었던 것 같습니다. 지금이 2017년이니까 20년은 됐네요. 그동안 생물정보학 분야가 정말 넓음에 막막하기도 했고, 돈 벌기 어려운 분야인데 할 수 있을까 두렵기도 했습니다. 요즘은 그 응용, 실무 분야가 확실히 많아졌다고 느낍니다.


사용자 삽입 이미지
다른 사람보다 생물정보라는 분야에 더 늦게 합류하였고, 생물정보라는 분야라기보다 데이터 과학이라고 생각되는 이 분야에 BIT가 아닌 BT 전공자로서 심각한 적응기를 겪었다 할 수 있습니다. 2008년부터 특별히 비정규화되어 있고, 개별 데이터가 많이 존재하는 식품 분야의 데이터 세상에 발을 디디면서 그야말로 혼돈과 혼란의 시간을 겪었습니다. 그럼에도 불구하고, 뒤돌아 가지 않고, 10년이 지난 지금까지 데이터 과학이라는 이 분야에 서 있는 것을 보면, 이 길을 가야만 해서 이곳에 발을 디디게 된 게 아닌가 생각됩니다.

사용자 삽입 이미지
분자생물학을 전공하고 animal cell culture를 하던 저에게 우연한 전화 한 통이 생물정보를 시작하게 했습니다. 프로모터 연구를 했다는 잊고 있던(브릭에 올려진) 저의 이력서를 보시고 금요일 자정을 넘기던 그 시각, 갑자기 생물정보를 함께 해보지 않겠느냐는 권유로 큰 기대도 망설임도 없이 그냥 그렇게 생물정보를 접하게 됐습니다. 생각해보면, 통계나 프로그래밍에 전혀 문외한이었던 그때부터 15년이 지난 지금까지도 저는 행운이 따랐던 것 같습니다. 늘 주변엔 함께 공부하던 친절하고 똑똑한 분들이 계셨고, 데이터가 쌓여 있었던 터라 크게 다른 생각을 하지 않고 지금까지 오고 있는 듯합니다.


사용자 삽입 이미지
환경부의 연구과제가 기억에 남습니다. 당시에는 거의 최초로 시맨틱스(Semantcis, 意味論)를 적용하여 환경유해물질에 대한 유전체 데이터베이스를 구축하는 주제였습니다. 연구진 중에서 저희에게 데이터를 잘 정리해서 주시던 분이 계셨습니다. 그분이 주신 단편 자료를 차곡차곡 모으고 시맨틱스 모델로 뽑아서 그린 유전자-화학물질-생리활성 네트워크 그림을 논문 초안에 넣어서 보내드렸습니다. 그러고 나서 그분에게서 전화가 왔는데 자기가 중요한 저널에 준비하는 개념을 어떻게 알았느냐고 놀라움과 걱정을 전해주셨습니다. 결국, 그 그림은 중요한 심볼을 모두 제거하고 간략한 현황만 보여주는 식으로 변경되어 논문으로 출판되었습니다. 당시에 그 교수님은 해당 주제로 5년 이상 하면서 찾은 내용이고, 그 아이디어는 저희에게 노출하고 싶지 않았는데, 단편적 데이터의 의미적 연결(시맨틱스)이라는 기술로 동일한 결과를 얻을 수 있었던 것입니다. 이후에 그 교수님은 저희 회사 제품을 꾸준히 사용하는 고객이 되고 저희도 시맨틱스의 잠재성에 확신을 하는 계기가 되었습니다.

사용자 삽입 이미지
2011년 구제역 사태가 가장 기억에 남습니다. 당시, 축산과학원 정보시스템 유지관리 사업 중이었는데, 구제역이라 출입이 통제됐었죠. 급하게 시스템 점검해야 할 일이 있어 전산실에 들어가야 했는데, 그러기 위해서는 정문 옆 임시 샤워시설에서 샤워하고, 자외선 소독하고, 속옷도 갈아입고, 방역복을 입은 채 작업해야 했습니다. 긴급 위급 상황을 절감하면서 서버 앞에서 작업하던 때가 기억나네요. 리눅스 명령 하나하나가 무게감 있던 기억이네요. 전산 관련 업무 하는 분 가운데, 이런 경험 하신 분은 얼마 없을 것 같습니다.

사용자 삽입 이미지
최근 인실리코푸드 시스템이라는 개인의 유전정보에 맞는 식단을 추천해 주는 프로젝트를 수행한 적이 있습니다. 현재 자신의 생활방식, 식습관 등 외형적인 기준에 따라 식단을 추천해 주는 프로그램과 앱 등이 많이 나와 있긴 하지만, 유전정보를 기반으로 사람의 속까지 들여다보며 맞춤 식단을 추천해 주는 프로젝트는 처음이지 않을까 생각됩니다. 다양하고 정리되지 않는 자신의 개인 데이터를 잘 정리할 뿐만 아니라, 최신의 과학적 정보까지 추가하여 최적의 맞춤 식이 정보를 제공할 수 있는 프로젝트를 성공적으로 수행한 뿌듯함과 동시에 아마도 향후에는 더 발전된 시스템으로 확장될 수 있을 것이라는 기대감, 식품 빅데이터라는 키워드를 연상하게 하는 미래를 내다보는 프로젝트인 것 같아 가장 기억에 남습니다.

사용자 삽입 이미지
언론에도 소개됐던 한우 유전체 프로젝트가 기억에 남습니다. 2009년 당시만 해도 국내에 NGS를 이용한 연구가 이제 막 소개되던 때라 데이터를 구경할 기회조차 잘 없던 때인데, 운이 좋았었습니다. 국내에서 처음으로 대용량 데이터를 바탕으로 한우의 단일 염기 변이를 유전체 전반에 걸쳐 분석했고, 그 결과는 논문으로 정리됐는데, 재밌는 사실은 연구분야가 늘 그러하듯 대용량 데이터를 분석해 내기 위해 들인 그 많은 노력이 단순한 호기심을 해결하기 위해 시작됐고 그것으로 귀결된다는 것을 알게 됐다는 것입니다. 당시, 저는 한우의 그 누런 털이 어떤 유전자에 기인해서인지를 찾던 중 CORIN이라는 유전자를 만났고, 그날 옆자리의 동료는 한참을 저에게 꽉 안겨 있었던 기억이 납니다.


사용자 삽입 이미지
생물정보학은 여러 학제간의 경계학문이라고도 합니다. 경계에 있다는 것은 어느 쪽에도 포함되지 않는다는 것으로 해석되기도 하지만, 동시에 경계에 있기에 두 영역의 결합자 역할이기도 합니다. 사람과 사람, 사람과 일에 있어 결합자 또는 풀(glue)과 같은 역할을 하고 싶다고 생각합니다.

사용자 삽입 이미지
어려운 질문이네요. 그렇게 잘하고 있지 못하다고 생각합니다. 다만, 나의 진심과 열정이 드러나도록 대화하고, 이것이 서로 통할 때 이것이 바로 중요한 관계의 진전이 아닐까 느낍니다. 서로 간에 감정적으로 잘 챙기는 부분은 제가 잘하지 못하는 영역이기도 합니다만 늘 잘하고자 노력합니다.

사용자 삽입 이미지
특별히 다른 이들에 비해 인간관계를 잘 관리하고 있다 생각되진 않지만, 인실리코젠의 기본 모토 중 하나인 사람에 대한 진심이 가장 큰 부분이 아닌가 생각됩니다. 진심은 통하고, 그 진심과 진실은 상황과 사람을 변화시킨다는 마음이 아마도 현재까지 함께하는 사람들과 쌓여 온 신뢰가 아닌가 합니다.

사용자 삽입 이미지
저는 아마도 배려를 하기보다는 받는 쪽이었던 것 같습니다. 입사해서 애도 둘이나 낳고, 근근이 지내와서 특별히 뭔가를 하려 하지 않고 감사한 마음으로 지내왔던 것이 비결이라면 비결일 수 있을 것 같습니다. 오히려, 이번 기회를 빌려 주변 지인들에게 다시 한 번 감사하다고 전하고 싶네요.


사용자 삽입 이미지
걱정의 80%는 절대 일어나지 않는 것들이라는 말이 있다고 합니다. 결정의 순간 걱정보다는 도전과 희망에 가중치를 줍니다.



사용자 삽입 이미지
얼마 전부터 자신에게 묻고 있습니다. 이 회사가 내 회사고, 내가 리더이고, CEO라면 어떻게 선택하겠는가. 이 질문에 대한 고민은 우리 회사의 발전과 우리 모두의 성장에 도움이 될 것이라 생각합니다.



사용자 삽입 이미지
지금 현재 가장 하기 힘들고 어려운 것을 선택하는 편입니다. 쉽고 유리한 것은 누구나 할 수 있기에 선택과 결정의 순간이 왔을 때 기회가 아닌 위기가 될 수 있음을 인지하고, 결정하려고 하는 편입니다. 이런 경우를 몇 번 겪으면서 느낀 건 아마도 이런 선택의 기준에 “가장 기본적인 것이 가장 중요하다”는 원칙이 있었던 것 같습니다.

사용자 삽입 이미지
제가 지나온 시간은 대부분 답이 정해져 있었던 것 같습니다. 크게 고민의 기로에 서서 있었던 시간보다는 얼른 해내야 하는 시간이 많았습니다. 생물정보를 처음 시작하고 할 수 있었던 건 그저 빨리 프로그래밍을 공부하는 것이었고, 둘째를 낳고 할 수 있었던 것은 집에서는 아기를 업어주고, 회사에서는 빨리 데이터의 속성을 파악해서 문제를 해결하는 방법밖에 없었습니다. 지금 생각해 보니, 고민하기 보다는 지금의 문제를 신속히 해결하고자 하는 방식이었던 것이 아닌가 합니다.


사용자 삽입 이미지
빠르게 변화하는 기술 유행어를 붙여서 무늬만 새로운 것들이 많습니다. 옥석을 가리고 우리 고객에게 제대로 된 가치를 돌려드릴 수 있는 것이 무엇인지 항상 고민하고 있습니다. 그 외 시간은 아직 아이들이 어려서 주말이라도 아이들과 시간을 보내고 있습니다.

사용자 삽입 이미지
하루가 다르게 새로운 기술이 소개되고 있습니다. 특히 기계학습, 딥러닝 등 유전체 정보에 접목했을 때 더욱 가치 있을 분야에 관심이 많습니다. 최근 유전체 정보와 일부 설문 정보를 결합하면, 훌륭한 맞춤 질병 예측 모델을 만들 수 있을 것 같은 기대감이 있습니다. 새로운 IT 지식을 생물학적 고려하에 응용하는 것에 높은 관심이 있습니다.

사용자 삽입 이미지
데이터 산업이라는 말이 많이 떠오릅니다. 물건을 만들 때 어떤 모양으로 어떻게 만들어서 얼마나 많은 사람이 사용하게 할 것인가를 고민하는 것처럼, 이미 만들어진 데이터를 어떻게 포장하고, 만들고, 정리하면 잘 사용할 수 있을까에 대한 고민은 많이 하게 됩니다. 지금은 식품에 많은 관심을 가지고 식품 데이터를 보고 있지만, 아마도 앞으로는 환경 데이터가 한 걸음 더 나가야 할 데이터 산업의 한 분야가 아닐까 하고 관심을 가지고 있습니다.

사용자 삽입 이미지
'어떻게 하면 쉬지 않을 수 있을까?' 입니다. 토끼와 거북이 이야기에서 빠른 토끼보다 쉬지 않는 거북이가 더 빠른 것을 얘기하는데, 사실 쉬지 않는 시간보다 빠른 것은 없다고 생각하고 있거든요. 조급한 마음일 수 있겠지만, 일정 궤도에 얼른 올려놓고 싶은 것들이 한둘이 아니다 보니, 이것들을 한꺼번에 해결하려면 일차적으로 그 일들을 쉬지만 않고 갈 수 있으면 된다고 생각했습니다. 근데, 그게 참 어렵습니다. 하루를 보내고 한숨 한 번인데, 그렇게 일주일이 금세 지나가고 벌써 7월을 넘어서서, 무서움도 가끔 느껴집니다. 시간이 간다고 그냥 해결되는 일은 많이 없으니까요. 아무튼, 현재는 쉬지 않고 갈 수 있는 현실적인 방법을 찾는 중입니다.


사용자 삽입 이미지
앞에서 언급한 환경부 연구과제에서부터 발표할 때 자주 사용하던 말이 있습니다. “데이터 규모가 문제가 아니라 그 데이터 간의 연결이 문제다”. 4차 산업혁명은 초(超; super)연결의 시대가 될 것으로 생각합니다. IoT 기술과 같이 불편한 정보의 연결을 편리하게 도와주는 것, 빅데이터 분석처럼 사람의 행동에서 숨어 있는 연결고리를 찾는 일들이 많이 생길 것으로 예상합니다. 그중에서 생물정보학을 기반으로 한 바이오 빅데이터는 초연결과 함께 그 인과관계도 동시에 제공할 수 있는 핵심 콘텐츠라고 생각합니다.

사용자 삽입 이미지
우리는 좀 더 건강해질 것이고, 수명은 더 늘어날 것입니다. 이를 가능하게 하는 것이 인실리코젠이 하고 있는 생물정보 연구라고 봅니다. 물론 기초 과학 연구도 중요하지만, 머지않아 실질적 가치로 드러나게 될 것이라고 봅니다. 그 과정에 이바지하고 싶은 욕심이 있습니다.

사용자 삽입 이미지
획기적인 유전체 기반 기술의 발달과 다양한 IT적 활용기술의 접목은 미래 4차 산업혁명의 핵심이 될 것으로 생각됩니다. 특별히 더 많은 유전정보를 확보하여 머신러닝, 인공지능까지 포함한 빅데이터 분석은 국가나 기업에 가장 큰 미래경쟁력이 될 것으로 생각합니다.

사용자 삽입 이미지
작년까지만 해도 유전체 어셈블리를 두고 큰 고민을 했는데, 지금은 PacBio를 비롯한 Hi-C 기술로 고민의 대상에서 제외됐습니다. 많은 문제를 제시하고 빠르게 해결하면서 놀라운 발전을 보이는 생물정보는 빅데이터 생산에도 크게 이바지하고 있지만, 이렇게 쌓인 빅데이터가 다시 생물정보 분야를 발전시키고 있습니다. 인간의 호기심이 사라지지 않는 한 데이터와 생물정보는 늘 앞서거니 뒤서거니 하며 함께 발전할 텐데, 중요한 것은 질문을 던지는 쪽은 항상 빅데이터가 아닌 생물정보를 활용하는 소수의 사람이 될 것이라는 겁니다. 그때를 위해서라도 쉬지 않고 가야겠네요.


사용자 삽입 이미지
많은 바이오 정보 중에서 접근성과 연결성을 갖춘 것들만 미래 산업에 활용될 것으로 생각합니다. 따라서 다양한 접근 경로와 연결 방법에 대한 준비와 경험을 갖추고 예상되는 시나리오와 애플리케이션을 시도하는 것이 중요하다고 생각합니다. 최근에 회사에서 준비하는 식품 바이오 빅데이터 기반의 애플리케이션이나 유전체 연관 분석 플랫폼 등도 그 일환입니다.

사용자 삽입 이미지
기업 운영을 위한 조직력을 갖추고, 기본 연구 역량을 꾸준히 향상하다 보면 곧 건강증진과 수명 연장이라는 실질적 가치를 만들어내는 역할을 할 수 있으리라 봅니다. 지속적인 조직력 강화, 연구 역량 강화를 진행하다 보면 기회가 올 것이고, 그 기회를 잘 이용하면 중요한 가치 생산의 최전선 기업이 될 수 있을 것으로 생각합니다.


사용자 삽입 이미지
인실리코젠은 이미 10년 전부터 데이터의 가치를 알고 데이터의 축척, 연결 그리고 이들을 통합하는 미래 산업인 데이터 산업을 준비해 왔습니다. 이러한 과정을 겪으며, 미래에는 각자가 생산한 파편적 데이터는 하나의 통로가 될 데이터 공장을 통해 다시 꾸려져 우리의 의식주를 관리할 것으로 생각됩니다. 이를 대비하기 위해서는 분야와 경계를 뛰어넘는 한 단계 업그레이드된 데이터 통합을 위한 준비와 데이터의 폭넓은 이해와 의미를 찾는 인재를 발굴하고, 기술을 개발하는 것이 필수적이라 할 것입니다.

사용자 삽입 이미지
사실 제가 하는 분야는 다양한 분야에서 과학적 호기심으로 제기된 문제를 푸는데 생물정보학적 기술로 도움을 드리는 역할을 하고 있습니다. 그래서 전적으로 개개인의 시각이 같을 수 없고, 관심사가 같을 수 없어 같은 방법으로 일괄처리하기 힘든 부분이 있습니다. 따라서 개인의 관심도와 몰입도가 매우 중요한 요소로 작용했는데, 미래에는 예외 처리라고 생각되는 많은 부분이 개인 맞춤이라는 이름으로 자동 처리되도록 할 것입니다. 모든 생물 시스템을 비롯하여 이와 상호작용하는 환경과의 연계에서도 대부분 질문에 빅데이터는 답을 줄 것입니다. 곧 누구에게나 잘 맞춰진 쉬운 데이터가 놓이게 될 텐데, 이런 현실 속에서도 끊임없는 문제를 제기할 수 있고 재밌는 발상이 가능한 인재가 미래를 이끌 것으로 생각합니다.


지금까지 (주)인실리코젠 R&D Center 4인에 대한 인터뷰였습니다. 오랜 시간 함께 하여 호흡도 척척! 정말 훈훈한 분위기로 빅데이터의 심연을 탐구하고 있습니다.
2016년 다보스 포럼(세계경제포럼, World Economic Forum)에서 본격적으로 제기된 제4차 산업혁명! 지금 맞고 있는 이 시대의 일과 직업에 대한 전망 보고서에 의하면, 전문적 기술과 컴퓨터 및 관련 장치를 통한 커뮤니케이션과 정보처리 작업이 능숙한 소수의 ‘스타’들에게 큰 보상을 주게 될 것이라고 합니다.
이러한 추세는 새로운 아이디어와 비즈니스 모델, 상품과 서비스를 제공하는 등 혁신이 주도하는 생태계에 완벽한 적응 능력을 갖춘 사람들이 승자가 된다는 멱 법칙(冪法則, Power Law)의 양상을 띠고 있습니다.
성공신화는 적절한 기술과 가치관을 가진 사람, 즉 자발적으로 동기를 부여하고 노력하는 특성이 있으며 새로운 기술을 보완할 능력이 있는 사람에게만 주어질 이야기입니다. (4차 산업이 이끄는 일의 미래, Design Issue Report, Vol.14)
앞서 인터뷰한 네 분은 한 가지 분야에 충분한 소양을 갖추고 다양한 지식을 두루 겸비한 통섭형 인재! 자기 존중과 타인에 대한 겸손을 갖추고, 융화를 통해 함께 성장하고자 하는 人Co의 핵심 원동력이라 믿어 의심치 않습니다.

작성자 : 브랜딩 이사 정은미

Posted by 人Co

2017/08/04 07:39 2017/08/04 07:39
, , ,
Response
No Trackback , No Comment
RSS :
http://www.insilicogen.com/blog/rss/response/253

식품 빅데이터, 그 의미와 가치

식품 빅데이터, 그 의미와 가치
우리 생활 모든 정보가 빅데이터이다

최근 온라인 뉴스 기사에 하루도 빠지지 않고 등장하는 용어가 빅데이터이다. 선뜻 보면 빅데이터가 최근에 떠오른 핫한 용어라 생각할 수 있지만 사실 오래전부터 우리는 이미 빅데이터를 생산하고 있었지만, 그것이 보이지 않아 빅데이터라 부르지 않았을 뿐이다. 생활 빅데이터를 예로 들어보자. 우리는 삼시 세끼 밥을 먹고 잠을 자고 운동도 하고 아프면 병원을 가는 이런 일상들을 반복하면서 라이프로그 정보들을 생산하고 있다. 하지만 생산한다고 해서 데이터가 되는 것이 아니고 그걸 기록하고 축적이 되었을 때 비로소 빅데이터라고 말할 수 있다. 다양한 센서기술들이 탑재된 휴대전화기는 우리 생활 데이터들을 빅데이터 화 시키는 일을 가능케 하고 있으며, 이렇게 축적된 빅데이터를 활용한 산업들이 계속해서 진화하고 있다. 이번 포스팅에서는 수많은 생활 데이터 중에서 먹고 사는 것에 관한 식품 빅데이터에 대해 적어보고자 한다.

식품은 어떤 정보와 가치를 가지고 있나?
식품의 맛 정보

기본적으로 우리가 식품정보라 하면 맛과 영양성분 정보들을 들 수 있다. 맛은 굉장히 주관적인 정보이지만 우리가 맛집을 검색할 때 특정 음식점의 음식 맛을 평가한 블로그 정보들을 보고 찾아가는 경우가 많다. 필자도 맛집 탐방을 취미로 하고 있어서 각종 포털의 블로그 정보들을 활용하고 있다. 이렇다 보니, 많은 음식점에서 블로그 마케팅을 내세워 판매수익을 올리기도 한다. 2013년 외식 트렌드 조사에 따르면, 소비자의 대다수(84.2%)는 모바일기기가 보편화된 후로 외식 생활이 변화했다고 생각하고 있는 것으로 나타났다. 응답자의 53.5%는 모바일 기기를 이용하여 방문할 음식점의 맛 정보들을 수집하여 방문하는 것으로 조사되었다(그림1). 외식문화가 변화하면서 스타트업과 대기업을 막론하고 다양한 기업들이 맛집 앱 시장에 문을 두드리고 있다. 대표적인 애플리케이션으로는 포잉, 다이닝코드, 식신, 망고플레이트들이 있으며 누적 다운로드 10만 이상을 기록하는 성과를 거두고 있다. 이처럼 식품의 맛 정보는 주관적인 정보임에도 불구하고 외식 산업적으로 활용가치가 높은 정보라 할 수 있다.

그림1. 식품의 맛 정보, 변화하고 있는 외식 트렌드
(출처 : 한국농수산식품유통공사, 외식 트렌드 조사, 2013)


식품의 영양성분 및 생리활성 정보

식품의 영양성분 정보에 대해 크게 관심이 있는 일반인들은 드물다. 고작 식품에 강조표시되어 있는 sugar free와 low fat 등의 정보만 가지고 본인의 기호에 맞게 구매하는 정도일 것이다. 하지만 식품을 구성하는 영양성분 정보야말로 건강한 삶을 추구하는 인간에게 근본적인 답을 줄 수 있는 정보이고, 구매자는 식품 영양성분 정보에 대해 알 권리가 있다. 모든 식품에 대해 영양성분을 표시할 필요는 없으나 식약처에서는 식품 영양성분 표시에 대한 기준을 제시하고 식품위생법 시행규칙 제6조 제1항에 따라 영양성분을 표시해야 하는 식품의 종류를 정해놓고 있다. 표시 대상 성분은 열량, 탄수화물, 단백질, 지방, 콜레스테롤, 나트륨, 그 밖에 강조표시를 하고자 하는 영양성분으로 크게 7가지를 표시하도록 되어있다.


그림2. 식품 영양성분 예시(출처 : 서울특별시 어린이 식품안전)

국내외적으로 식품의 영양성분 정보는 정부의 식품 데이터베이스에서 제공받을 수 있다. 우리나라의 경우는 식약처에서 구축한 FANTASY DB(http://www.foodsafetykorea.go.kr)에서 확인할 수 있다. 식품별 영양성분 함량과 영양학적 조언 등의 정보들을 포함하고 있으며(그림3), 현재 약 13,713건의 정보가 등록되어 있는 것으로 확인된다.
미국은 USDA DB(https://ndb.nal.usda.gov/ndb)를 만들어 농업과 식품에 대한 정보들을 제공하고 있으며, 유럽의 경우도 EUROFIR DB(http://www.eurofir.org)를 구축하여 유럽 27개국의 식품정보들을 확인할 수 있는 플랫폼을 제공하고 있다. 국가 차원에서 이러한 식품 데이터베이스를 구축하는 이유는 여러 산업과의 연계뿐만 아니라, 신규 사업을 융성하기 위한 취지로 식품정보들을 제공하고 있다. 실제, 미국 기업 중 일부는 USDA DB를 활용하여 헬스케어, 다어어트, 질환 개선을 위한 다양한 애플리케이션을 개발하고 되고 있으며, 대표적으로 HealthWatch 360, CaloryGuard Pro, Nutrition complete 등이 있다.


그림3. 국내 식품 데이터베이스 (http://www.foodsafetykorea.go.kr)

영양성분 정보가 중요한 이유 중 하나는 대사체 정보를 중심으로 생리활성 정보들과의 연결이 가능하다는 점이다. 예를 들어, 우리나라 전통식품인 김치에 vitamin, carotene, ascorbic acid 등과 같은 성분들이 함유돼 있다고 했을 때, 이러한 정보들을 텍스트마이닝 기법을 활용하여 논문의 생리활성 효능 정보들과 연결하게 되면, 체내에서 식품이 특정 질병에 얼마나 효과적인지를 판단할 수 있는 정보가 될 수 있다(그림4). 이러한 정보들은 건강 기능성 식품 개발에 있어, 건강증진에 도움이 될 수 있는 물질을 효율적으로 탐색하고 선별하는데 활용될 수 있다. 또한, 자신의 질환 감수성에 따라 선별적으로 식품을 섭취할 수 있는 과학적 근거자료를 제시할 수 있다는 점에서 푸드케어 서비스 산업과의 연계가 가능하다.


그림4. 텍스트 마이닝 기법을 이용한 김치의 생리활성 정보 수집예시 (출처:직접 작성)


식품 영양유전체 정보
 
많은 연구자들이 식품의 영양성분과 유전자 간의 상호작용에 대하여 관심을 두기 시작했다. 과거의 식품 영양학은 각종 영양소의 구조 및 기능을 밝히는데 초점을 맞췄다면 영양 유전체학은 개인의 유전적 특성과 상관관계가 높은 식품을 권장할 수 있는 개인별 맞춤영양학 시대로 접어들고 있다. 이러한 배경에는 사람들이 가진 유전자의 다양성에 따라 영양소 대사가 개개인의 유전적 차이에 따라 다르게 나타난다는 것이 밝혀지고 있다. Cell지에 게재된 한 논문에서는 18~70세 800명을 대상으로 같은 음식 섭취를 하게 하고 혈액 내에 glucose양을 측정한 결과에서 개인별로 glucose를 흡수하는 정도가 다르게 나타나는 것을 보고한 바 있다(그림5). 이러한 결과들은 개개인의 타고난 유전적/표현형적 특성에 따라 식품이 대사되는 정도가 다르게 나타나는 예시라 하겠다.


그림5. 개개인의 특성에 따른 glucose 흡수량 변화 연구 결과
(출처 : Cell, Personalized Nutrition by Prediction of Glycemic Responses 2015)

식품 영양 유전체 정보는 앞으로 유전자와 표현형 그리고 영양성분과의 상관관계가 더욱 과학적으로 규명됨으로써 양질의 정보가 될 것으로 예측하고 있다. 이처럼 축적된 정보들은 건강유지와 질병 예방을 향상할 수 있는 맞춤 의료와 식품 산업을 계속해서 가속하고 있다. 최근 habit이라는 회사는 개인 유전자 검사를 통해 자신에 맞는 식품들을 컨설팅 및 판매하는 서비스를 런칭하였으며 점차 개인 유전자 맞춤화 식품정보를 활용한 헬스케어 서비스들이 증가할 것으로 예측된다.

그림6. 식품 영양 유전체 정보와 맞춤 식품
(출처: R&D 동향, '영양 유전체학의 이해 및 연구동향' 재구성)

영양 유전체 정보를 바탕으로 맞춤형 식품 정보를 제공한 국내 사례로는 한국식품연구원과 (주)인실리코젠에서 개발한 비만 인실리코푸드시스템(http://insilicofood.co.kr)을 들 수 있다. 비만 인실리코푸드 시스템은 개인의 표현형 정보(키, 몸무게, 허리둘레, 신체활동, 컨디션등)와 유전자형 정보를 기반으로 맞춤 식품 정보를 제공하는 시스템이다. 특징적인 부분은 목표 몸무게를 설정하면 현재 표현형 정보를 기반으로 이를 달성하기 위한 식단 구성이 가능하다는 점과 개인 유전자형 정보를 입력하면 유전적으로 비만에 얼마나 위험한지 확인하고 유전자형 정보에 맞는 식품 정보를 제공한다는 점이다. 또한, 한국식품연구원 오믹스 연구결과와 식품 정보를 연결시켜 제공해주기 때문에, 과학적 근거기반의 개인 맞춤 식품 정보 시스템 구축 사례라 하겠다.



그림7. 개인 유전체 정보기반 맞춤 식품 제공 시스템
(출처 : 비만인실리코푸드 시스템 웹사이트)


식품 이력 정보

갑자기 식품 이력 정보가 왜 나오지 하고 의아해할지 모르겠지만, 필자는 식품 빅데이터가 식품 정보의 생산부터 식탁에 올라오기까지의 정보를 포괄하는 의미를 식품 빅데이터라 정의하고자 한다. 식품의 이력 정보는 식품의 생산부터 유통까지의 일련의 정보들을 의미한다. 이러한 정보들은 안심하고 먹을 수 있는 먹거리를 만드는 데 필요한 정보이다. 우리나라는 현재 정부에서 축산물에 대한 이력제 정보 시스템을 운영하고 있다. 해당 시스템을 통해 소의 출생에서부터 도축, 포장처리, 판매에 이르기까지의 정보를 확인할 수 있다. 확인방법은 축산물 상품의 이력제 번호를 모바일/웹 애플리케이션에 검색하면 이력에 대한 정보들을 확인할 수 있다. 이러한 정보들은 위생과 안전에 문제가 발생하면 그 이력을 추적하여 신속하게 대처하기 위한 유용한 정보라 할 수 있다.


그림8. 쇠고기 이력 정보 활용예시

필자는 첫 도입 부분에 식품 데이터를 먹고사는 일이라고 표현했다. 식품 데이터는 단순한 정보의 개념에서 벗어나, 다양한 산업적 활용가치가 많은 정보기 때문이다. 중요한 것은 이렇게 많은 정보들로부터 우리는 어떤 가치를 만들어 낼 것인가이다. 식품빅데이터가 미래에 가져올 파장을 기대하며 이 글을 마무리하려고 한다.


Reference

  • 한국농수산식품유통공사, 외식트렌드 조사, 2013
  • 서울특별시 어린이 식품안전
  • Cell, Personalized Nutrition by Prediction of Glycemic Responses, 2015
  • R&D 동향, 영양 유전체학의 이해 및 연구동향



작성자 : R&D센터 DS그룹
이상민 주임 연구원

Posted by 人Co

2017/03/10 11:10 2017/03/10 11:10
, , , , ,
Response
No Trackback , No Comment
RSS :
http://www.insilicogen.com/blog/rss/response/237


관련기사
고추 매운맛 유전자, 국내 연구진이 밝혀냈다 2014.01.22 티브이데일리
고추 유전체서열 국내 독자 기술로 완성 2014.01.21 정책브리핑
고추 유전체서열 국내 독자 기술로 완성 2014.01.20 아시아투데이
고추 표준 유전체 염기서열 국내 기술로 완성 2014.01.20 연합뉴스
좀 더 맵고 맛있는 고추 나온다 2014.01.20 동아사이언스

논문바로보기
http://www.nature.com/ng/journal/vaop/ncurrent/full/ng.2877.html

'고추' 하면 떠오르는 친근감은 비단 우리나라 뿐만이 아닐 것입니다. 고추는 세계적으로 사랑 받고 있고 영양학적인 가치 또한 우수하여 토마토, 감자와 함께 대표적인 작물 중 하나로 꼽히고 있습니다. 그러나 생물학자들에게는 대중적인 선호도 이외에 토마토, 감자와 함께 고추에서 밝히고자 하는 흥미로운 관심 거리가 있습니다. 서로 닮은 듯 아닌 듯 한 이들 세 작물은 모두 가지과 (Solanaceae)에 속하는 것으로 진화와 육종을 통해 얻어진 공통된 특성과 특이적인 특성을 각각 분자적으로 밝히기에 좋은 모델이 되기 때문인데요, 특히 토마토와 고추의 경우 흥미로운 연구거리가 가득합니다.
첫번째, 토마토의 경우 사과나 바나나와 같이 에틸렌 가스에 의해 후숙성이 촉진되는 climateric fruit 인 반면, 고추는 포도와 같이 후숙성이 촉진 되지 않는 non-climateric fruit으로 같은 가지과 작물로써 서로 비슷한 유전자 세트를 가지면서도 서로 다른 형태의 숙성과정을 거치게 되는 메카니즘은 무엇일까?
두번째, 토마토의 유전체는 약 900Mb정도인데 반해 고추는 약 3Gb에 달하는 거대한 유전체 사이즈를 갖는 이유는 무엇일까?
세번째, 고추의 대중적인 인기의 근간이 되는 매운맛 성분인 캡사이신의 생합성 경로는 어찌 될까? 이 런 모든 질문에 대한 해답이 최근 생물정보 컨설팅 전문기업인 (주)인실리코젠에서도 참여한 서울대 최도일 교수님 연구팀에서 Nature genetics 에 발표한 논문 Genome sequence of the hot pepper provides insights into the evolution of pungency in Capsicum species http://www.nature.com/ng/journal/vaop/ncurrent/full/ng.2877.html 에서 모두 해결되었습니다.


논문에 많은 내용들이 있지만 그 중 후숙성 과실인 토마토와 그렇지 않은 고추와의 과실 숙성 메카니즘의 차이를 보여주는 마지막 메인 figure를 살펴보면, ripening 관련 유전자는 두 종 모두에서 보존되어 있으나 그림에서 보여지는 것과 같이 mRNA상의 발현의 차이로 (group I) 표현형의 차이가 유발된 것으로 나타났습니다. 이 중 주요 유전자는 ethylene이 생성되는 과정에 수반되는 유전자들의 발현이 고추에서 모두 저하되어 ethylene 생성이 저하되고 그로 인해 ethylene에의해 repression되는 CCS(capsanthin-capsorubin synthase)의 발현이 tomato에 비해 월등히 높게 나타나고, 결국 pepper-specific carotenoids인 Capsanthin, capsorubin의 합성이 높아 tomato와는 다른 표현형을 나타냈습니다. 반면, tomato에서는 CCS와 ortholog 관계를 갖는 CYC-B(chromoplast-specific lycopene beta-cyclase) 유전자의 발현이 ripening 과정 동안 ethylene의 높은 합성으로 인해 억제됨을 나타냄으로써 그 메커니즘을 밝혔습니다.


Comparative fruit ripening



이 외에도 고추에 많은 비타민 함량의 메커니즘이라던가, 토마토와 고추의 과실이 물러지는 차이의 원인 메커니즘과 같은 유전체 전문가가 아니더라도 흥미를 가질 만한 많은 내용이 담겨 있습니다. 물론 유전체 전문가(?)의 입장에서도 소중한 정보가 가득합니다. 사실 제가 마지막 figure만을 소개한 이유는 이 하나의 figure를 위해 수행되어야 하는 genome assembly(유전체 서열 완성), gene structure분석(유전자의 서열 및 구조, 유전자 기능, 유전체내 전체 유전자 세트), gene family분석(ortholog, paralog분석) , genome expansion분석( repetitive sequence분석), gene expression 분석(transcription factor분석, RNAseq 분석, pathway 분석), genome variant 분석(SNP, indel 분석), phylogeny 분석과 같은 많은 분석이 수반되어야 하고, 이러한 정보는 supplementary information에서 제공하고 있는 table 54개, figure 49개에 고스란히 담겨져 있음을 알려드리고 싶어서 입니다. 이들 데이터는 마지막 figure와 같은 많은 생물학자들에게 실마리를 제공할 리소스 데이터로 제공이 될 것이기에 그 잠재력이 더욱 큽니다.

Gene structure분석 파이프라인

유전자 구조 분석 파이프라인으로 고추 유전체 분석을 위해 고추의 mRNA(RNAseq, ESTs)서열,  단백질 서열, 토마토 및 감자의 단백질 서열, 애기장대, 포도 및 가지과 작물의 단백질 서열을 이용한 Evidence gene modeling과 여러개의 ''ab initio'' gene modeling (gene prediction)이 함께 수행되어 이들의 공통된 유전자 모델을 선정하는 combined gene modeling이 수행되었습니다. - (주)인실리코젠 지원


마지막으로 이번 연구의 가장 큰 성과라면, 순수 국내 연구진의 기술로 이뤄졌다는 점과 생물정보의 학문적 발전입니다. 식물의 유전체에는 유전자 영역 이외에 repeat 영역이 포유류나 균류, 미생물에 비해 매우 많이 존재하기 때문에 실제 유전체 서열을 완성하기에 매우 까다로운 조건을 갖고 있습니다. 단적으로 토마토, 감자의 경우 국제 컨소시엄을 통해 전세계 연구진의 협업에 의해 이뤄진 점만 보더라도 고추 유전체의 완성은 의미가 크다고 할 수 있습니다. 더욱이 유전체 크기가 토마토에 비해 3배이상 커지고 커진 대부분이 repetitive sequence에 해당하는 LTR retrotransposons 임을 감안하면 유전체 서열 어셈블리만 보더라도 많은 노력이 수반됐음을 알 수 있습니다. 실제, 오픈 소스 프로그램(SOAPdenovo, SSPACE, FLAKE)과 상용 프로그램(CLC Assmebly Cell; CLCbio사, 서울대, (주)인실리코젠의 공식 MOU를 통한 지원)이 모두 이용되었으며, 시퀀싱 또한 다양한 플랫폼/디자인으로 여러번의 수정과 시도를 반복하며 현재의 결과를 얻어냈습니다. 뿐만 아니라 유전자 구조 분석 또한 세계적인 수준의 분석이 진행되었으며 genome expansion, gene expression, 진화적론적인 phylogenetic 분석 모두 국내 연구진들의 몰입적인 연구를 수행한 결과라 할수 있습니다.
다시한번, 생물정보 컨설팅을 전문으로 하는 (주)인실리코젠의 입장으로 NGS라는 막강한 도구와 나날이 정신없이 발전하고 있는 생물정보학의 발전을 통해 보다 많은 좋은 소식이 있기를 기대해 봅니다.

(사진 : 연구에 함께 참여한 (주)인실리코젠 Codes 사업본부 구성원분들)


Codes사업본부 Research실
선임컨설턴트 신윤희 선임


Posted by 人Co

2014/01/28 22:07 2014/01/28 22:07

 지난 1월 3일, (주)인실리코젠과 숭실대학교 의생명시스템학부는 맞춤형 생명정보 인재 양성을 위한 MOU를 체결하였습니다.

사용자 삽입 이미지

(왼쪽부터 (주)인실리코젠의 최남우 대표이사님, 숭실대학교 의생명시스템학부 김상수 교수님)

이번 MOU 체결식에는 (주)인실리코젠의 최남우 대표이사님, 숭실대학교 의생명시스템학부의 학부장님이신 김상수 교수님이 참석하셨으며, 양해각서 체결로 인해 (주)인실리코젠은 5억원 규모의 실습용 생물정보 솔루션과 최신의 생명정보 기술교육 및 현장실습을 지원하기로 하였으며, 숭실대는 최첨단의 하드웨어 시스템과 다양한 인적네트워크를 제공하기로 동의하였습니다.

이번 협정은 국내 기업과 연구기관에서 요구하는 생명정보 실무 교육을 통해 바이오 연구개발에 필요한 현장중심의 인재를 양성하는 것이 목적이며 이러한 산학협동 과정은 국내 최초로 시도되는 사업이라고 생각됩니다. 또한 생명정보 교육을 한 단계 성숙할 수 있는 계기를 마련하였으며, 빠르게 변화하고 있는 생명정보의 지식과 졸업 후 산업현장에서
활용할 수 있는 전문 능력을 갖출 수 있게 되었습니다.


Posted by 人Co

2011/01/04 19:50 2011/01/04 19:50

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
  5. Genome Annotation
   6. Next Generation Bioinformatics
  7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 웹 2.0 시대에 맞추어 다양한 분야에서 생산된 데이터를 효율적으로 관리하는 방법에 대해 알아보겠습니다.

3-2. Data Management for Web 2.0 Era


 근 들어 웹 2.0에 대한 논란이 뜨겁다. 비단 IT에서 뿐만 아니라 일상생활에서도 웹 2.0이라는 용어는 어렵지 않게 들을 수 있게 되었다. ‘O'Reilly Media’에서 2003년 처음 사용하기 시작하면서부터 대중화 된 웹 2.0에 대한 정의를 위키피디아에서는 이렇게 정의하고 있다. 단순한 웹사이트의 집합체를 웹 1.0으로 보고 있다면, 웹 2.0은 웹 애플리케이션을 제공하는 하나의 완전한 플랫폼으로의 발전이다(그림 1)[2].

사용자 삽입 이미지
그림 1. Web 2.0이란?

 웹 2.0이 세상에 알려진 지 불과 몇 년 밖에 되지 않았으나, 이제는 누구나가 쉽게 웹 2.0 으로 구축된 사이트에 자신의 데이터를 올리거나 다른 사람의 데이터를 다운로드 받는 등 이전보다 능동적으로 웹을 활용하고 있다. 위키라는 개념으로 접근한 웹 2.0은 대영백과사전으로 알려져 있는 브리태니커 백과사전보다 더 많은 정보를 담고 있어 세계 최대의 백과사전으로 기네스북에 기록되어 있다. 2001년 1월 출범하여 2006년 12월에 기네스북에 인정되기까지 불과 6년의 짧은 기간에 엄청난 정보가 모이게 된 가장 큰 원동력은 웹 2.0 시대에 맞춰 운영자가 절대 개입하지 않는다는 원칙하에 모든 방문자가 스스로 글을 읽고 쓸 수 있게 한 것이다. 정보의 양을 기준으로 한다면 다양한 사람들이 생산하는 데이터가 한 명이 작성한 글보다 훨씬 클 수 있으며, 다양한 사람들에 의해서 읽혀지고 수정되어 보다 정확한 정보들로 탈바꿈할 수 있다는 것이다.

 (주)인실리코젠에서는 웹 2.0 시대에 맞추어 위키 시스템을 활용한 홈페이지 형식의 지식관리시스템을 재구성하였다. 이를 이용하여 프로젝트 단위의 연구에서 공동 연구자들 사이의 데이터 공유 또는 미팅과 관련된 로그 관리 등을 효율적으로 운영하고 있다. 개별 연구자들이 각자 분석업무를 업로드하고 관련 연구자들이 업데이트된 데이터를 다운로드 받거나 웹상에서 오류나 문제점을 수정, 지적하여 최종적으로는 다양한 연구 전문가 그룹에 의한 완성된 연구 결과를 도출하는 방식을 취하고 있다. 이와 같은 방식의 연구 관리는 데이터가 실험실에 존재하는 것이 아니라 웹상에 존재하면서, 인터넷만 연결된 환경에서는 장소, 시간에 관계없이 공통의 주제를 가지고 분석 업무를 수행하고 데이터를 보완 할 수 있다는 장점이 있다. 한 사람의 불완전한 지식에서 시작하여 공동 연구자 또는 다른 전문가의 지식을 포함하여 완전한 지식을 유도하는 방향을 추구하고 있는 것이다.

이처럼 다양한 분야의 생물학 영역에서도 웹 2.0의 장점을 백분 발휘하여 데이터를 축적하고, 보완하고, 관리하는 흐름을 엿볼 수 있다. 최근에는 웹 2.0의 장점에 덧붙여서 다양한 분야에서 생산된 데이터를 어떻게 의미론적으로 재분류할 수 있는가에 보다 많은 관심이 집중되고 있다. 기존에 존재하는 지식 자원을 연구자가 검색, 통합 및 관리하기 편리하도록 의미기반 온톨로지 사이트로 구축하는 것이다. 그리하여, 최근의 많은 포탈검색사이트에서 입력된 검색어에 관한 다양한 관련 정보를 추출하여 보여주는 의미론적 검색 방법을 개발하였으며, 한국인들이 가장 많이 검색하는 네이버에서도 의미검색사이트를 개발하여 서비스하고 있다.

다음 연재에서는 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 Semantic Network for Integrated Biology Data에 대해 알아보겠습니다.

많은 관심 부탁드립니다.

참고문헌

 2. http://ko.wikipedia.org/wiki/Web2.0



Posted by 人Co

2010/03/30 14:53 2010/03/30 14:53
, , , , ,
Response
No Trackback , No Comment
RSS :
http://www.insilicogen.com/blog/rss/response/65

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 NGS Application의 마지막 내용으로 Next Generation Sequencing 데이터를 분석하고 처리하기 위해서 이에 적합한 새로운 형태의 생물정보학인 'Next Generation Bioinformatics'에 대해 알아보겠습니다.


3-1. Next Generation Bioinformatics

 
 Applied Biosystems, Illumina 그리고 Roche 등과 같은 분석장비 개발회사에서 출시한 Next Generation Sequencers의 출현으로 전통적인 유전체 데이터 분석법에 새로운 변화와 도전이 요구되고 있다. 이러한 Sequencer들은 전에는 생각할 수 없었던 많은 양의 시퀀스 데이터를 쏟아내고 있고 이것은 생물정보학과 전산 생물학에 다양한 변화와 혁신을 초래하였다.

 Next Generation Sequencing 데이터를 분석하고 처리하기 위해서 이에 적합한 새로운 형태의 생물정보학, 즉 ‘Next Generation Bioinformatics’에 대한 준비를 해야 할 것이다. NGS 데이터를 다룰 수 있는 충분한 저장장치, 관리 솔루션 그리고 생물정보학 분석 파이프라인 구축이 성공적인 NGS 연구에 필수적인 요소이다.

 현재 대다수의 생물정보학 전문가들은 생물학자들이 다루기 힘든 커맨드 라인 방식의 데이터 처리로 실험 연구자들과의 분석 결과 검토를 위한 자료를 따로 작성하고 있다. 이는 생물학 데이터가 NGS의 도입에 의해 폭발적으로 증가된 상황에서는 매우 소모적인 것으로 실험 연구자들이 쉽게 분석결과를 검토하고 판별할 수 있는 플랫폼 개발이 요구되며, 직관적이거나 그래픽 사용자 인터페이스에 대한 요구를 좀 더 다양하게 충족시켜야 함을 나타낸다. 뿐만 아니라 대부분의 초기 분석이 리눅스와 같은 유닉스 환경에서 이뤄지고 있고, 생물학적 의미론을 분석하는 단계에서는 대부분 실험 연구자들이 이용하는 윈도우 환경에서 이뤄지므로 이들 간의 유기적인 데이터 교류를 위한 포맷 변화도 필요한 실정이다. 따라서 운영체제에 상관없이 NGS 데이터를 분석할 수 있으며, 서로 다른 운영체제에서도 데이터를 자유롭게 입출력을 할 수 있는 시스템 마련이 필요하다. 또한 공동 연구 및 컨소시엄을 통한 분석 방법이 늘어나는 추세이므로, 분석 데이터를 공동으로 관리할 수 있는 데이터베이스의 구성, 분석 프로그램의 표준화 및 정규화 그리고 많은 프로그램들을 연계한 효율적인 데이터 분석 파이프라인 구축 또한 요구된다.

앞으로 NGS 데이터는 임상 진단과 개인 맞춤 의약 연구에 직접적으로 이용되어질 전망이다. 이에 앞서 언급된 차세대 생물정보학에 대한 다양한 요구들이 쏟아질 것이다. 이러한 문제들이 해결되지 않는다면 조만간 생물정보학이 생물학 관련 연구에 큰 걸림돌이 될 수 있을 것이다[1].
 

다음 연재에서는 웹 2.0 시대에 맞추어 다양한 분야에서 생산된 데이터를 효율적으로 관리하는 방법에 대해 알아보겠습니다.  많은 관심 부탁드립니다.



참고문헌

1. Kwok-Wing Stephen Tsui (2009) Next Generation DNA Sequencing and Bioinformatics: Bottlenecks and Opportunities. The Third International Symposium on Optimization and Systems Biology

Posted by 人Co

2010/03/29 17:30 2010/03/29 17:30
, , , , , , , ,
Response
No Trackback , No Comment
RSS :
http://www.insilicogen.com/blog/rss/response/64

NGS 분석전략 세미나 개최 후기

 지난 2월 5일, 저희 (주)인실리코젠의 Codes팀은 "Practical bioinformatics pipeline for NGS data"라는 주제로 세미나를 개최하였습니다.

사용자 삽입 이미지
이번 교육은 당사에서 발간한 Quipu Issue Paper 2호의 "NGS 시대의 분석전략 2"을 중심으로 최근 가장 이슈가 되고 있는 NGS 데이터의 assembly, 그리고 그 이후에 진행할 수 있는 다양한 분석들에 대한 내용들을 크게 3가지 세션으로 나누어 구성하였습니다. 또한 생물정보 분야의 중심 역할을 하고 있는 한국생명공학연구원 국가생물자원정보관리센터(KOBIC)의 많은 연구원분들을 대상으로 진행되었습니다.

사용자 삽입 이미지
NGS 데이터의 assembly는 유전체 분석에 있어서 데이터 플랫폼의 종류와 어떤 어셈블러를 사용하느냐에 따른 분석 전략 및 파이프라인은 꼭 필요할 것이라 생각합니다. 이에 첫 번째 세션De novo assemblyReference assembly에 사용되고 있는 여러 가지 어셈블러들의 종류, 장단점 비교, 실제 데이터 벤치마킹 결과 등에 대한 내용으로 준비하였고, 발표 중간중간 관련 사항에 대한 질문과 열띤 토론으로 참석하신 연구원분들의 많은 관심을 받았습니다.

사용자 삽입 이미지
두번째 세션 SNP 분석 방법 및 최근 capture array 분석의 실제 연구사례, 관련 솔루션 등을 소개한 variation 분석 파트와 EST 데이터를 이용한 functional annotation, Organism-specific 분석, Ortholog/Paralog 유전자 분석방법 등에 대한 expression 분석 파트로 구분되어 진행되었으며 마지막 세션은 NGS와 생물정보 파이프라인을 이용한 Genome annotation에 대한 내용으로 현재 NGS 염기서열 결정 이후 문제점 및 이슈를 분석하고 효율적인 전략들을 소개하였습니다. 또한 structural annotation과 functional annotation의 분석 방법 및 실제 Codes팀의 분석 컨설팅 파이프라인 관련하여도 설명 드릴 수 있는 좋은시간이 되었습니다.

사용자 삽입 이미지
이렇게 바쁜 와중에도 하루의 일정을 직접 방문하여 소화해주신 KOBIC 연구원분들께 감사의 인사를 드리며, 진행된 교육으로 인해서 NGS 데이터를 분석하고 연구하시는데 조금이나마 도움이 되었으면 하는 바램입니다. 또한 "NGS시대의 분석전략 3"의 발간도 부탁하실 정도로 기술소식지와 세미나에 큰 관심을 보여주셔서 더욱 뜻 깊은 시간이었고, 앞으로도 이러한 교육의 자리를 많이 준비하도록 노력하겠습니다.

사용자 삽입 이미지
책자로 발간되었지만, 이번 세미나 내용을 포함한 NGS시대의 분석전략은 더욱 많은 연구자분들께 유익한 정보를 제공해 드리고자 블로그 연재도 계속 진행중입니다. 이와 관련한 자세한 문의사항은 저희 (주)인실리코젠의 Codes팀에게 연락 부탁드립니다.

(Tel: 031-278-0061, E-mail: codes@insilicogen.com)



Posted by 人Co

2010/02/25 17:37 2010/02/25 17:37

연재 순서

  1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

Quipu Issue Paper 기술 소식지 첫 번째 연재로 NGS Assembly 중에 Reference assenbly에 대해 알아보도록 하겟습니다.

1. Next Generation Sequencing?



 1-2. Assembly


 Next Generation Sequencing(NGS)으로 인한 무제한적인 서열 데이터 생산은 이후 생물정보학적 분석의 가장 큰 도전 과제가 되었다. 일차적으로 많은 양의 데이터 관리부터 분석과정 마다의 computing 속도가 문제로 제기 되었다. 그중 가장 첫 번째 단계가assembly이다. NGS 서열의 assembly는 그 목적에 따라 크게 reference assembly와 de novo assembly로 구분 지어진다. Reference assembly의 경우 variation 및 epigenetics 연구에 주로 이용되고 de novo assembly의 경우 기존의 genome project에서 진행하던 whole genome sequencing에 이용되고 있다. 세부적인 내용을 다음에서 알아보자.


  1-2-1. Reference assembly


 Re-sequencing을 통한 기존의 reference 서열과의 비교로 유전체 상의 variation 연구를 목적으로 진행하는 시퀀싱은 주로 single reads를 얻는 시퀀싱 보다는 paired-end 시퀀싱이 수행된다. 그 이유는 다양한 질병 관련 유전자의 SNP 및 CNV 분석을 위해서는 single reads 보다는 paired-end reads가 더 유용하기 때문이며, 이들 데이터는 앞서 언급한 다양한 플랫폼에서 생산되고 있다. 이렇게 생산된 NGS 데이터를 분석할 수 있는 프로그램은 오픈 소스로 제공 되는 것과 그렇지 않은 것들로 여러 개가 존재한다. 그 중 오픈 소스로 제공하는 SOAP[1], MAQ[2] 그리고 ZOOM[3]은 paired-end short read에 최적화 되어 있고, Newbler는 long reads인 454 reads에 최적화 되어 있다. 이렇게 대부분 특정 NGS 플랫폼에서 생산된 데이터만을 다룰 수 있도록 고정화되어 있는 것에 반해 CLC bio사의 CLC NGS Cell[4]은 언급된 모든 플랫폼의 데이터를 분석할 수 있는 장점이 있다[14]. 이들 프로그램에 대하여 좀 더 자세히 알아보자.

 NGS assembly 프로그램을 평가하는데 있어 가장 큰 이슈는 분석 속도와 결과의 정확성, 그리고 그 외 분석의 용이성을 들 수 있다. 이들에 대한 비교 분석을 위해 표 1에서 보여 지는 paired-end의 short reads을 대상으로 여러 가지 분석을 수행하였다. 이러한 분석은 64-bit Xeon E5420 CPUs에 32 GB memory system에서 수행되었다[1].

사용자 삽입 이미지
첫 번째인 분석 속도에서는 CLC NGS Cell이 가장 빠른 것으로 평가 되었다(표 2)[5].
SIMD 기술을 이용한 병렬 데이터 처리로 속도 면에서 월등히 높은 성능을 나타내었다. 그 외 SOAP의 경우 reference 서열을 2-bit로 전환하여 index 파일을 이용한 연산 처리로 좋은 결과를 보이고 있다(2009.11 현재 SOAP의 경우 업그레이드를 통해 분석 속도가 많이 향상 되었다).

사용자 삽입 이미지
  특히, Maq의 경우 Illumina와 SOLiD의 paired-end reads를 대상으로 human 유전체에 맵핑할 경우 CPU time으로 10 시간 동안 백만 개 paired-end reads를 assembly 할 수 있다고 밝혔다[2]. 같은 시험을 위해 자체적으로 SOLiD reads를 대상으로 CLC NGS Cell을 이용하여 분석했을 때 CPU time으로 5시간 28분에 분석이 완료됨을 확인하였다.  두 번째로 NGS read의 alignment 비율 및 정확성을 살펴보았다. 최근 논문 PLoS ONE에 기재된 ‘Mapping Accuracy of Short Reads from Massively Parallel Sequencing and the Implications for Quantitative expression Profiling’에서는 BLAT[15], SSAHA2[16], Bowtie[17], SeqMap[18], MAQ, CLC NGS Cell을 대상으로 다양한 종의 데이터로 프로그램의 정확성을 다각도로 분석한 결과를 발표 하였다[6]. 그 결과 그림 1에서 보여 지는 것과 같이 SSAHA2와 CLC NGS Cell이 높게 평가되었다. 이 중 SSAHA2는 Sanger institute에서 개발된 프로그램으로 현재 SOLiD data를 제외한 모든 플랫폼의 데이터를 분석할 수 있다[7]. 기본적으로 Smith-Waterman alignment를 수행하며 2-bit로 전환하여 정확한 assembly를 수행한다. 그 다음 CLC NGS Cell은 모든 플랫폼의 데이터를 처리함과 동시에 SSAHA2와 같이 안정적으로 reads 길이에 관계없이 정확한 assembly를 수행하고 있다. 또한 특이할만한 점은 yeast, drosophila, arabidopsis 그리고 human을 대상으로 한 다양한 데이터로 short reads와 long reads(>50bp)에 대한 프로그램 성능을 비교 하였음에도 불구하고(MAQ: short read만이 분석 가능), 프로그램별로 일관성 있는 결과를 보여주고 있다는 것이다. 각기 다른 종과 read 길이로 약간의 차이는 보이나 전반적으로 동일한 분석 패턴을 보이고 있어, 이는 곧 데이터의 특성보다는 프로그램별 알고리즘의 차이가 분석 결과에 더 많은 영향을 미치는 것으로 해석된다. 따라서 NGS를 이용한 분석에서 다양한 프로그램을 이용하여 분석 파이프라인을 구축하는 것 보다는 사전에 충분한 테스트를 통해 동일한 알고리즘으로 구성된 프로그램을 이용하는 것이 결과의 안정성과 정확성을 높일 수 있는 하나의 방법이 될 수 있겠다.      

NGS를 이용한 연구에서 특히 re-sequencing을 하는 경우 대부분 유전체 상의 variation 연구를 목적으로 진행된다. 따라서 re-sequencing된 데이터는 기존의 reference 서열과는 다른 variation을 가지는 특성이 있으므로 이를 고려한 assembly 알고리즘이 필요하다.


사용자 삽입 이미지

그림 1. 프로그램별 다양한 데이터 셑으로 구성된 reference assembly 시험 결과. 회색바는 alignment 된 비율, 붉은색바는 부정확한 alignment를 각각 나타낸다

사용자 삽입 이미지

그림 2. Reads의 다양한 mutation 비율에 따른 mapping의 정확성 시험. Drosophila genome과 transcripts를 reference로 하여 reads의 mutation 비율을 각각 3%, 6%, 9%로 조정하여 mappping을 수행. 회색바는 alignment된 reads의 비율을 의미하며 붉은색 바는 부정확하게 alignment된 비율을 나타낸다.

그림 2에서는 각 프로그램별 variation을 고려한 assembly 결과를 보여주고 있다[6]. Drosophila의 transcripts와 유전체 서열을 각각 reference로 하고 mutation 비율이 각기 다른 NGS reads를 맵핑하여 프로그램의 정확성을 확인 하였다. 이도 역시 CLC NGS Cell과 SSAHA2가 가장 우수한 결과를 보이고 있다. 그러나 CLC NGS Cell의 경우 mutation 비율에 상관없이 안정적인 정확성을 보이고 있는 반면, SSAHA2는 mutation 비율이 커짐에 따라 정확성이 떨어지는 문제점을 들어내고 있다. 따라서 SSAHA2를 이용할 경우 사전에 데이터의 특성을 미리 파악하여 적절히 이용하는 것이 좋을 듯하다.

마지막으로 분석의 용이성을 여러 가지 측면으로 살펴보았다. NGS 분석을 목적으로 개발된 MAQ, SOAP, 그리고 CLC NGS Cell은 모두 웹에서 다운로드가 가능하다. 이 중 CLC NGS Cell은 압축만 해제하면 바로 실행할 수 있는 바이너리 파일을 제공하고 있고, SOAP과 MAQ은 각각 압축 해제 후 compile을 통해 쉽게 설치가 가능하다.

이 후 분석에 필요한 입력 데이터 형식은 CLC NGS Cell이 가장 호환성이 좋아 FASTA, FASTQ, csfasta(SOLiD), Scarf, Sff의 모든 형식의 파일을 입력 받을 수 있었으며 SOAP과 MAQ은 각각 프로그램에 맞는 형식이 따로 존재하여, 이들 형식으로 전환할 수 있는 프로그램을 따로 제공하고 있는 실정이다. 이때 paired-end reads의 경우 분석 결과의 신뢰성과 정확성을 높이기 위해 assembly 수행 전에 서열이 쌍으로 존재하는지 여부를 체크하게 되는데, 이를 점검할 수 있는 프로그램을 CLC NGS Cell과 MAQ은 제공하고 있다. 이는 분석자에게 NGS reads의 전처리 과정을 수월하게 진행할 수 있게 하는 편의성도 고려된 것이다.

Reference 서열 또한 CLC NGS Cell은 FASTA 형식과 genbank 형식의 파일을 바로 입력 받을 수 있는 장점을 가지고 있으며, 나머지 프로그램은 각각의 형식으로 전환할 프로그램을 제공하여 한 번의 분석 단계를 더 수행하도록 되어있다. 그 외 분석에 필요한 옵션사항은 약간의 차이를 보일뿐 큰 차이는 없었으나, 다음 분석을 위한 assembly 결과 파일의 데이터 호환성에서는 CLC NGS Cell과 MAQ이 SOAP보다는 우위를 나타내었다. 마지막으로 NGS 분석 프로그램에서 중요하게 체크해야 할 사항 중에 하나는 assembly 과정을 나눠 진행하고 이후에 결과를 하나로 합쳐 볼 수 있는 기능이 있는지를 살펴보는 것이다.

제한된 computing power로 이처럼 큰 사이즈의 유전체 서열과 NGS reads를 분석해야 하므로 한 번에 데이터를 분석 한다는 것은 매우 어려운 일이다. 따라서 가능한 분산 처리로 데이터를 나눠 분석하고 이들을 통합할 수 있는 기능이 있어야만 한다. 다행히 이러한 기능은 CLC NGS Cell(join_assemblies)과 MAQ(mapmerge)에서 제공을 하고 있었다. 이들 각각의 특징은 표 3에서 자세히 확인할 수 있다.

사용자 삽입 이미지

다음 연재에서는 Reference assembly에 이어서 NGS Assembly 중에 de novo assembly에 대해 알아보도록 하겠습니다. 많은 관심 부탁드립니다.


참고문헌


 1. Li R, Li Y, Kristiansen K, Wang J. (2008) SOAP: short oligonucleotide alignment program. Bioinformatics 24, 713–714 (http://soap.genomics.org.cn/index.html)
 2. Li H, Ruan J, Durbin R. (2008) Mapping short DNA sequencing reads and calling variants using mapping quality scores. Genome Res 18, 1851–1858 (http://maq.sourceforge.net/index.shtml)
 3. Lin H, Zhang Z, Zhang MQ, Ma B, Li M. (2008) ZOOM! Zillions of oligos mapped. Bioinformatics 24, 2431–2437 (http://www.bioinfor.com)
 4. CLC NGS Cell : http://www.clcbio.com
 5. White paper on reference assembly on the CLC NGS Cell 2.0 (www.clcbio.com)
 6. Palmieri N, Schlötterer C. (2009) Mapping accuracy of short reads from massively parallel sequencing and the implications for quantitative expression profiling. PLoS One. 28, 4(7):e6323.
 7. Ning Z, Cox AJ, Mullikin JC. (2001) SSAHA: a fast search method for large DNA databases. Genome Res. 10, 1725-1729.
 8. Roche 454 : http://www.454.com/
 9. Zerbino DR, Birney E. (2008) Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res 18, 821–829.(http://www.ebi.ac.uk/~zerbino/velvet/)
 10. Newbler : 454 bundle program
 11. Birol I, Jackman SD, Nielsen CB, Qian JQ, Varhol R, Stazyk G, Morin RD, Zhao Y, Hirst M, Schein JE, Horsman DE, Connors JM, Gascoyne RD, Marra MA, Jones SJ. (2009) De novo transcriptome assembly with ABySS. Bioinformatics. 21, 2872-2877
 12. White paper on de novo assembly in CLC NGS Cell 3.0 beta (www.clcbio.com)
 13. Andreas T., Eva T., Thomas B., Alexander G., Ulrike L. and Alfred P. Ultrafast de novo sequencing of the human pathogen Corynebacterium urealyticum with the Genome Sequencer System (http://www.454.com/downloads/protocols/Whole_Genome_Sequencing_And_Assembly.pdf)
 14. Horner DS, Pavesi G, Castrignanò T, De Meo PD, Liuni S, Sammeth M, Picardi E, Pesole G. (2009) Bioinformatics approaches for genomics and post genomics applications of next-generation sequencing. Brief Bioinform. [Epub ahead of print]
 15. Kent WJ. (2002) BLAT--the BLAST-like alignment tool. Genome Res. 4, 656-664.
 16. Ning Z, Cox AJ, Mullikin JC. (2001) SSAHA: a fast search method for large DNA databases. Genome Res. 10, 1725-1729.
 17. Langmead B, Trapnell C, Pop M, Salzburg SL. (2009) Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 3, R25
 18. Jiang H, Wong WH. (2008) SeqMap: mapping massive amount of oligonucleotides to the genome. Bioinformatics. 20, 395-396.



Posted by 人Co

2010/02/09 11:17 2010/02/09 11:17

PathwayStudio 사용자 교육 후기

ARIADNE GENOMICS사의 Pathway 분석 제품인 PathwayStudio의 사용자 교육이 8월 31일(월) 오전 11시부터 당사 회의실에서 있었습니다. 이번 사용자 교육은 한국생명공학연구원과 중앙대학교에서 몇몇 연구원분들이 참석한 가운데 저희 회사 생물정보실의 박준형 팀장님께서 진행을 해주셨습니다. 저희 회사의 소개로 발표가 시작되었고, 약 3시간에 걸쳐서 진행된 교육은 직접 시연을 통해 PathwayStudio 사용법을 자세하게 살펴보는 시간이었습니다.

시연의 내용으로는 PathwayStudio의 인터페이스 소개에서부터 기본 사용법과 유용한 기능들에 대해 알아보고 기능들을 활용해서 단백질, Small molecules, Cell processes 등 다양한 Entity 사이에 어떠한 관계를 가지고 있는지 Pathway를 직접 그리면서 시연해 주셨고, 최근에 이슈가 되고 있는 텍스트마이닝 기법을 이용한 MedScan을 활용하여 NCBI PubMed의 문헌정보 뿐만 아니라 자신이 가지고 있는 PDF, TXT 파일에서 자동으로 생물학적 상호작용에 대한 정보를 추출하는 방법에 대해서도 배워보았습니다. 특히 연구자의 마이크로어레이데이터와 실험데이터를 이용하여 pathway를 재구성 하는 내용은 참가자들로부터 많은 관심을 받았습니다.

사용자 삽입 이미지
사용자 교육을 하고 계신 박준형 팀장님과 교육에 참여하고 있는 참석자분들


사용자 교육 중간에는 다함께 점심을 먹으며 저희 회사 이야기와 참여하신 분들의 연구실 이야기 등 화기애애한 이야기를 주고받는 시간을 갖기도 했습니다. 점심시간 이후에도 교육이 계속 진행되었고, 교육에 참여하신 분들이 그 동안 PathwayStudio를 사용하면서 궁금하셨던 점에 대해 질문하시고 박준형 팀장님께서 질문에 대해 직접 시연으로 답변을 해주셨습니다. 이번 사용자 교육은 일방적인 Presentation 발표와는 달리 직접 PathwayStudio 사용 방법에 대해 시연을 함으로써 양방향 커뮤니케이션이 가능하여 사용자 입장에서 좀 더 유익한 시간이 되었을 것이라고 생각합니다. 앞으로도 사용자와 소통할 수 있는 교육의 자리가 많이 만들어졌으면 합니다. 마지막으로 사용자 교육을 마치고 저희 회사 이미지월 앞에서 그날 참석하신 분들과 함께 찍은 기념사진을 담아보았습니다.

사용자 삽입 이미지
사용자 교육에 참여한 모든 분들과 기념사진

Posted by 人Co

2009/09/03 08:01 2009/09/03 08:01

10 Steps to Success in Bioinformatics

지난 7월에 스웨덴 스톡홀름에서 개최된 ISMB 2009에서 맨 마지막 Keynote 연좌인 "Webb Miller" 박사가 주제를 발표하기 전에 생물정보학자로서 성공할 수 있는 10가지 단계에 대해서 언급하였다. 생물정보학을 먼저 공부하신 노학자님의 경륜을 느낄 수 있는 좋은 시간이였다.

  1. Become a biologist (생물학자가 되어라)
  2. Value your number of citations above your number of publications (논문 편수 보다는 인용수에 가치를 두어라)
  3. Collaborate and do it with great collaborators (위대한 협력자와 협력하고 협력하라)
  4. Do not expect a warm welcome from everyone (모든 사람에게 따뜻한 환대를 기대하지 마라)
  5. Be a good collaborator (우수한 협력자가 되어라)
  6. Distribute and maintain software and/or run web servers that your personally continue (개인적인 소프트웨어나 웹서버를 배포하고  유지하는 것을 지속하라)
  7. Alternate between working on specific datasets and writing general-purpose software (특정 데이터셋에 대한 일과 범용 소프트웨어 개발을 번갈아 하라)
  8. Write some of your own software (조금은 당신 자신의 소프트웨어를 개발하라)
  9. Don’t give up (포기하지 마라)
  10. Be excited about your work (당신일을 즐겨라)

Posted by 人Co

2009/08/04 07:22 2009/08/04 07:22
, ,
Response
No Trackback , 4 Comments
RSS :
http://www.insilicogen.com/blog/rss/response/20