인실리코젠 창립 15주년
- Posted at 2019/10/30 12:48
- Filed under 회사소식
브랜드 위원회 : 김지인
Posted by 人Co
- Tag
- 15주년, Bioinformatics, insilicogen, 세상의 모든 아침, 인실리코젠
- Response
- No Trackback , No Comment
- RSS :
- https://www.insilicogen.com/blog/rss/response/328
Posted by 人Co
MH00089; gi|761546247|ref|YP_009122458.1| 99.06 530 5 0 1 530 1 530 0.0 1045 MH00089; gi|1314948409|ref|YP_009444547.1| 94.70 528 28 0 3 530 1 528 0.0 995 MH00089; gi|1079486692|ref|YP_009307015.1| 94.89 528 27 0 3 530 1 528 0.0 991
종명 확인을 위해서는 NCBI에 GI number (또는 accession)로 검색해보는 수밖에 없는 듯 하여 매우 절망스러웠지요.
실제로 하나 검색에만 최소 클릭 5~6번이 소요되고 10개 넘어가면 웹 크롤링을 해야하는 건지 고민하게 됩니다.
이때 잘 읽은 메뉴얼 하나가 사람을 살립니다.
역시 오랜 역사를 자랑하는 생물정보 산증인 BLAST는 이미 해답을 제시하고 있었던 거죠.
아래와 같이 2단계를 순서대로 수행해 주시면 BLAST 결과에서 종명, taxid (중요), kingdom (계) 정보를 바로 확인할 수 있습니다.
1단계) taxonomy DB 세팅
먼저 nr로부터 계통 정보를 가져올 수 있도록 NCBI에서 제공하는 taxonomy DB를 세팅해 주어야 합니다.
아래와 같이 최신 버전으로 다운로드 후 환경변수에 추가해 주세요.
(이참에 nr DB도 최신 버전으로 변경해주고, 하는 김에 BLAST도 최신화해주는 게 어떨까요?)
참고로 제가 테스트했던 버전은 BLAST+ 2.2.31입니다.
$ wget ftp://ftp.ncbi.nlm.nih.gov/blast/db/taxdb.tar.gz $ tar zxvf taxdb.tar.gz $ export BLASTDB=[download 위치]
2단계) BLAST 실행
BLAST 수행 시 결과 파일의 포맷을 6번, 즉 tabular로 지정하고 format specifiers에 staxids(species taxon id)와 sscinames (species scientific name), sskingdoms (species super kindoms)이 포함되도록 적어줍니다.
$ blastp -query query.faa -db nr -outfmt '6 qseqid sseqid pident evalue staxids sscinames scomnames sskingdoms stitle' -num_threads 20 -out query_vs_nr.table
MH00089; gi|761546247|ref|YP_009122458.1| 99.06 0.0 1610689 Sarocladium implicatum Sarocladium implicatum Eukaryota cytochrome oxidase subunit I (mitochondrion) [Sarocladium implicatum] MH00089; gi|1314948409|ref|YP_009444547.1| 94.70 0.0 29910 Tolypocladium inflatum Tolypocladium inflatum Eukaryota cytochrome c oxidase subunit 1 (mitochondrion) [Tolypocladium inflatum] MH00089; gi|1079486692|ref|YP_009307015.1| 94.89 0.0 71617 Tolypocladium ophioglossoides Tolypocladium ophioglossoides Eukaryota cytochrome oxidase subunit 1 (mitochondrion) [Tolypocladium ophioglossoides]
taxid | scientific name | full lineage 1610689 | Sarocladium implicatum | cellular organisms; Eukaryota; Opisthokonta; Fungi; Dikarya; Ascomycota; saccharomyceta; Pezizomycotina; leotiomyceta; sordariomyceta; Sordariomycetes; Hypocreomycetidae; Hypocreales; Hypocreales incertae sedis; Sarocladium; |
XML은 기본이니깐 꼭 있어야 할 것 같고 파싱하기 귀찮으니 tabular로도 해야 할 것 같고 또 alignment된 거 확인하고 싶으니 pairwise로도 남겨두고 싶을 때 어떻게 해야하는 거죠??
BLAST를 3번 하면 돼요. 하지만 오래 걸린다는 단점이 있어요.
이때 blast_formatter를 사용하시면 됩니다 (작업시간이 1/3로 줄어드는 매직)!!!
몰랐는데 BLAST 설치 디렉토리에 이미 blastp, blastn이랑 같이 자리잡고 있더라구요.
(역시 메뉴얼은 읽으라고 있는 거였어요.)
중요한 점은 처음 BLAST할 때 반드시 asn 포맷으로 출력해 주어야 한다는 것입니다.
$ blastn -db [nt] -query [query] -outfmt 11 -out [output].asn $ blast_formatter -archive [output].asn -outfmt 5 -out [output].asn.xml $ blast_formatter -archive [output].asn -outfmt 6 -out [output].asn.tabular $ blast_formatter -archive [output].asn -outfmt 0 -out [output].asn.pairwise
0 = pairwise, 1 = query-anchored showing identities, 2 = query-anchored no identities, 3 = flat query-anchored, show identities, 4 = flat query-anchored, no identities, 5 = XML Blast output, 6 = tabular, 7 = tabular with comment lines, 8 = Text ASN.1, 9 = Binary ASN.1, 10 = Comma-separated values, 11 = BLAST archive format (ASN.1), 12 = JSON Seqalign output, 13 = JSON Blast output, 14 = XML2 Blast output
Posted by 人Co
Posted by 人Co
Posted by 人Co
식품 빅데이터, 그 의미와 가치
우리 생활 모든 정보가 빅데이터이다
최근 온라인 뉴스 기사에 하루도 빠지지 않고 등장하는 용어가 빅데이터이다. 선뜻 보면 빅데이터가 최근에 떠오른 핫한 용어라 생각할 수 있지만 사실 오래전부터 우리는 이미 빅데이터를 생산하고 있었지만, 그것이 보이지 않아 빅데이터라 부르지 않았을 뿐이다. 생활 빅데이터를 예로 들어보자. 우리는 삼시 세끼 밥을 먹고 잠을 자고 운동도 하고 아프면 병원을 가는 이런 일상들을 반복하면서 라이프로그 정보들을 생산하고 있다. 하지만 생산한다고 해서 데이터가 되는 것이 아니고 그걸 기록하고 축적이 되었을 때 비로소 빅데이터라고 말할 수 있다. 다양한 센서기술들이 탑재된 휴대전화기는 우리 생활 데이터들을 빅데이터 화 시키는 일을 가능케 하고 있으며, 이렇게 축적된 빅데이터를 활용한 산업들이 계속해서 진화하고 있다. 이번 포스팅에서는 수많은 생활 데이터 중에서 먹고 사는 것에 관한 식품 빅데이터에 대해 적어보고자 한다.
식품은 어떤 정보와 가치를 가지고 있나?
식품의 맛 정보
기본적으로 우리가 식품정보라 하면 맛과 영양성분 정보들을 들 수 있다. 맛은 굉장히 주관적인 정보이지만 우리가 맛집을 검색할 때 특정 음식점의 음식 맛을 평가한 블로그 정보들을 보고 찾아가는 경우가 많다. 필자도 맛집 탐방을 취미로 하고 있어서 각종 포털의 블로그 정보들을 활용하고 있다. 이렇다 보니, 많은 음식점에서 블로그 마케팅을 내세워 판매수익을 올리기도 한다. 2013년 외식 트렌드 조사에 따르면, 소비자의 대다수(84.2%)는 모바일기기가 보편화된 후로 외식 생활이 변화했다고 생각하고 있는 것으로 나타났다. 응답자의 53.5%는 모바일 기기를 이용하여 방문할 음식점의 맛 정보들을 수집하여 방문하는 것으로 조사되었다(그림1). 외식문화가 변화하면서 스타트업과 대기업을 막론하고 다양한 기업들이 맛집 앱 시장에 문을 두드리고 있다. 대표적인 애플리케이션으로는 포잉, 다이닝코드, 식신, 망고플레이트들이 있으며 누적 다운로드 10만 이상을 기록하는 성과를 거두고 있다. 이처럼 식품의 맛 정보는 주관적인 정보임에도 불구하고 외식 산업적으로 활용가치가 높은 정보라 할 수 있다.
식품의 영양성분 정보에 대해 크게 관심이 있는 일반인들은 드물다. 고작 식품에 강조표시되어 있는 sugar free와 low fat 등의 정보만 가지고 본인의 기호에 맞게 구매하는 정도일 것이다. 하지만 식품을 구성하는 영양성분 정보야말로 건강한 삶을 추구하는 인간에게 근본적인 답을 줄 수 있는 정보이고, 구매자는 식품 영양성분 정보에 대해 알 권리가 있다. 모든 식품에 대해 영양성분을 표시할 필요는 없으나 식약처에서는 식품 영양성분 표시에 대한 기준을 제시하고 식품위생법 시행규칙 제6조 제1항에 따라 영양성분을 표시해야 하는 식품의 종류를 정해놓고 있다. 표시 대상 성분은 열량, 탄수화물, 단백질, 지방, 콜레스테롤, 나트륨, 그 밖에 강조표시를 하고자 하는 영양성분으로 크게 7가지를 표시하도록 되어있다.
국내외적으로 식품의 영양성분 정보는 정부의 식품 데이터베이스에서 제공받을 수 있다. 우리나라의 경우는 식약처에서 구축한 FANTASY DB(http://www.foodsafetykorea.go.kr)에서 확인할 수 있다. 식품별 영양성분 함량과 영양학적 조언 등의 정보들을 포함하고 있으며(그림3), 현재 약 13,713건의 정보가 등록되어 있는 것으로 확인된다.
미국은 USDA DB(https://ndb.nal.usda.gov/ndb)를 만들어 농업과 식품에 대한 정보들을 제공하고 있으며, 유럽의 경우도 EUROFIR DB(http://www.eurofir.org)를 구축하여 유럽 27개국의 식품정보들을 확인할 수 있는 플랫폼을 제공하고 있다. 국가 차원에서 이러한 식품 데이터베이스를 구축하는 이유는 여러 산업과의 연계뿐만 아니라, 신규 사업을 융성하기 위한 취지로 식품정보들을 제공하고 있다. 실제, 미국 기업 중 일부는 USDA DB를 활용하여 헬스케어, 다어어트, 질환 개선을 위한 다양한 애플리케이션을 개발하고 되고 있으며, 대표적으로 HealthWatch 360, CaloryGuard Pro, Nutrition complete 등이 있다.
영양성분 정보가 중요한 이유 중 하나는 대사체 정보를 중심으로 생리활성 정보들과의 연결이 가능하다는 점이다. 예를 들어, 우리나라 전통식품인 김치에 vitamin, carotene, ascorbic acid 등과 같은 성분들이 함유돼 있다고 했을 때, 이러한 정보들을 텍스트마이닝 기법을 활용하여 논문의 생리활성 효능 정보들과 연결하게 되면, 체내에서 식품이 특정 질병에 얼마나 효과적인지를 판단할 수 있는 정보가 될 수 있다(그림4). 이러한 정보들은 건강 기능성 식품 개발에 있어, 건강증진에 도움이 될 수 있는 물질을 효율적으로 탐색하고 선별하는데 활용될 수 있다. 또한, 자신의 질환 감수성에 따라 선별적으로 식품을 섭취할 수 있는 과학적 근거자료를 제시할 수 있다는 점에서 푸드케어 서비스 산업과의 연계가 가능하다.
식품 영양 유전체 정보는 앞으로 유전자와 표현형 그리고 영양성분과의 상관관계가 더욱 과학적으로 규명됨으로써 양질의 정보가 될 것으로 예측하고 있다. 이처럼 축적된 정보들은 건강유지와 질병 예방을 향상할 수 있는 맞춤 의료와 식품 산업을 계속해서 가속하고 있다. 최근 habit이라는 회사는 개인 유전자 검사를 통해 자신에 맞는 식품들을 컨설팅 및 판매하는 서비스를 런칭하였으며 점차 개인 유전자 맞춤화 식품정보를 활용한 헬스케어 서비스들이 증가할 것으로 예측된다.
영양 유전체 정보를 바탕으로 맞춤형 식품 정보를 제공한 국내 사례로는 한국식품연구원과 (주)인실리코젠에서 개발한 비만 인실리코푸드시스템(http://insilicofood.co.kr)을 들 수 있다. 비만 인실리코푸드 시스템은 개인의 표현형 정보(키, 몸무게, 허리둘레, 신체활동, 컨디션등)와 유전자형 정보를 기반으로 맞춤 식품 정보를 제공하는 시스템이다. 특징적인 부분은 목표 몸무게를 설정하면 현재 표현형 정보를 기반으로 이를 달성하기 위한 식단 구성이 가능하다는 점과 개인 유전자형 정보를 입력하면 유전적으로 비만에 얼마나 위험한지 확인하고 유전자형 정보에 맞는 식품 정보를 제공한다는 점이다. 또한, 한국식품연구원 오믹스 연구결과와 식품 정보를 연결시켜 제공해주기 때문에, 과학적 근거기반의 개인 맞춤 식품 정보 시스템 구축 사례라 하겠다.
Reference
R&D 동향, 영양 유전체학의 이해 및 연구동향
Posted by 人Co
Posted by 人Co
(왼쪽부터 (주)인실리코젠의 최남우 대표이사님, 숭실대학교 의생명시스템학부 김상수 교수님)
Posted by 人Co
2. http://ko.wikipedia.org/wiki/Web2.0
Posted by 人Co
Posted by 人Co
Posted by 人Co