« Previous : 1 : 2 : 3 : 4 : 5 : ... 36 : Next »

코로나19로 인해 변화된 직장 문화


2020년 가장 큰 이슈는 당연 코로나19일 것입니다. 2020년이 마무리되어 가는 이 시점에 아직도 코로나19의 확산세를 꺾지 못하고 있는데요, 코로나19는 우리의 일상에 많은 변화를 주었을 뿐 아니라 직장 문화도 변화시켰습니다.

아래의 설문조사 결과와 같이 많은 기업의 근무형태와 사무실 환경, 채용 방식 등이 변함을 알 수 있는데요,


[Fig.1] 코로나19로 인한 기업 문화의 변화
(http://biz.khan.co.kr/khan_art_view.html?artid=202012170945001&code=920100)

이처럼 우리 인실리코젠의 문화도 많은 변화가 있었습니다. 그럼 그 변화를 한번 알아볼까요?





[Fig.2] 키오스크를 설치하여 활용하고 있는 인실리코젠의 직원

저희 인실리코젠에서는 코로나 이슈 발생 직후 체온 측정과 손 소독이 가능한 키오스크를 구매하여 회사 입구에 비치하였습니다. 분명 바이러스 예방 차원에서 구매한 이유가 가장 컸지만, 해당 키오스크 화면을 활용해 사내 직원들이나 회사에 방문하는 외부 인사들에게 메시지를 전달하는 창구로도 적극적으로 활용하고 있습니다. 덕분에 밋밋했던 회사 입구의 분위기가 많이 바뀐 모습입니다^^
키오스크의 화면은 아래와 같이 평상시, 회사기념일, 크리스마스, 새해 인사, 외부인 환영인사 명언 등 주제별로 다르게 적용되고 있는데요. 이러한 디자인은 모두 인실리코젠의 IX팀에서 적극적으로 아이디어를 내어 제작하고 있습니다.


[Fig.3] 키오스크에 적용되고 있는 주제별 화면 디자인




코로나19가 확산함에 따라 인실리코젠에서 가장 먼저 시작한 것은 시차 출근제입니다. 사람 간 비말을 통해 감염되는 문제를 막기 위해 시행한 제도입니다. 우리 사무실은 29층의 고층에 있어 엘리베이터를 필수로 이용해야만 하죠. 마스크는 당연히 착용하지만, 엘리베이터라는 폐쇄된 좁은 공간을 통해 코로나19의 감염이 우려됨에 따라 사람이 몰리지 않는 시간을 이용하여 출·퇴근을 하고 있습니다.




[Fig.4] 재택근무 시행으로 한적해진 사무실

바이러스가 활기를 치는 겨울이 다가오면서 무증상자로 인해 코로나19 확산세가 증가하고, 이에 따라 사회적 거리두기 단계가 격상하면서 시차 출근제와 함께 재택근무도 병행하고 있습니다. (저 역시 워킹맘으로서 재택근무를 통해 업무를 하고 있는데요,) 회의가 필요할 땐 Webex 라는 화상회의 플랫폼을 이용하여 온라인 회의를 진행하기도 합니다. 이전부터 사용해오던 Webex가 요즘 회사 내에서 가장 빛을 발하고 있는 플랫폼이라고 해도 과언이 아닐 것 같네요;




[Fig.5] 코로나19 이슈 이후로 웨비나로 전환된 인코세미나

이제는 비대면 시대로 접어들었습니다. 이미 이전부터 온라인의 중요성을 강조하셨던 사장님의 말씀이 가슴 깊이 와 닿았고, 그동안 차곡차곡 쌓아놓고 있던 온라인 콘텐츠들이 그 힘을 보태주고 있습니다. 저희는 교육 사업으로 주로 오프라인 대면 실습 교육을 통해 생물정보 솔루션을 활용한 정기적인 人CoSEMINAR를 진행하고 사용자들과 교류하였습니다. 이런 세미나들을 이제는 온라인으로 전환하여 시간, 장소에 구애받지 않고 쉽게 접근할 수 있도록 추진하였습니다. 장소의 한계로 많은 분이 참여하지 못했던 오프라인 세미나에 비해 많은 분이 관심과 참여를 해주시게 되었습니다.




인실리코젠에서는 1년에 4번의 큰 행사(人CoPLAY(단합대회), Culture Day, 창립기념일, 송년회 및 종무식)가 있습니다. 올해는 이 행사들을 진행하지 못했었는데요. 창립기념일 및 송년회 행사는 온라인으로 각자의 자리에서 참석하게 되었습니다. 다 함께 모여 기쁨의 덕담을 나누지 못하게 되었지만, 그래도 온라인으로나마 행사를 진행할 수 있다는 것에 감사함을 느끼고 있네요.


[Fig.6] 창립기념일 행사


[Fig.7] 종무식 및 21년 시무식 행사




인실리코젠에서는 하계, 동계 방학에 진행하는 人CoINTERNSHIP 프로그램이 있습니다. 저희 인턴십 프로그램은 기업과 연구기관에서 요구하는 생물정보와 관련된 기초 기술교육과 사내 현장실습을 통해 조직 생활을 경험해 볼 수 있도록 구성되어 있습니다. 생물정보라는 큰 분야 아래에 다양한 업무들이 나누어져 있으며, 각 부서의 업무를 경험하여 향후 진로 결정에 도움을 줄 수 있도록 하는 것이 목표입니다. 2020년 하계 방학엔 제11기 人CoINTERNSHIP이 코로나19의 영향에도 무사히 마무리되었는데요. 아침마다 발열 체크를 진행하고, 교육 진행 시에는 거리두기를 통해 감염을 방지할 수 있도록 하였습니다. 무엇보다도 학생들의 열정이 코로나19가 다가올 수 없을 정도로 대단했다고 생각됩니다.

[Fig.8] 人CoINTERNSHIP 진행 사진
이에 힘입어 동계 방학에도 제12기 人CoINTERNSHIP을 진행하고자 모집을 하였지만, 수도권 코로나19 재확산과 사회적 거리두기 격상으로 아쉽게도 이번 인턴십 프로그램은 진행하지 못하게 되었습니다. 인턴십을 진행하면서 열정 가득한 학생들을 보며 저 자신을 되돌아보는 계기가 되곤 했는데, 참 아쉬운 상황이 되어버려 속상한 마음을 감출 수가 없네요.. 많은 학생의 지원이 있었지만, 모두의 건강과 안전이 최우선이기에 다음 하계 방학에 진행할 인턴십을 기약하고자 합니다.




여기까지 코로나19로 인해 변화된 인실리코젠의 문화를 살펴보았습니다. 이제는 코로나19 이전으로 돌아갈 수 없을 거라는 말이 있듯이 포스트 코로나 시대에 맞춰 변화되는 문화를 받아들이고 이에 대응해나가는 기업들이 더 큰 성장을 할 수 있지 않을까 싶습니다. 모두가 힘든 시기이지만 이 또한 잘 헤쳐나갈 수 있으리라 생각됩니다. 우리 모두 힘냅시다.



작성자 : insilico Lab 송하나 선임컨설턴트

Posted by 人Co

2021/01/01 22:19 2021/01/01 22:19
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/368

COVID-19 백신에 대하여



2020년은 코로나의 해라고 말해도 과언이 아닌데요. 코로나19 신규 확진자 추이 그래프만 봐도 아직도 무서운 속도로 증가하는 추세를 볼 수 있습니다.

모두가 코로나 사태가 끝나길 바라는 간절한 마음으로 궁금해하는 것들이 있죠.
언제 이 길고 긴 싸움이 끝이 날까요? 백신 개발은 언제 완료되는 것일까요?
또, 백신 개발은 왜 어려운 걸까요? 그럼 지금부터 하나씩 짚어보도록 하겠습니다.





[Fig.1] 코로나19 신규 확진자 추이


사람에게 질병을 일으키는 수많은 바이러스 중 인류가 박멸한 바이러스는 천연두가 유일하다고 합니다. 이렇게 다양하고 복잡한 바이러스들로부터 우리의 몸을 보호하기 위해 예방접종을 하는데요. 요즘은 예방접종 보다 백신이라는 단어가 더 익숙할 것입니다. 백신을 맞아야 한다는 것은 알고 있지만, 백신이 어떻게 바이러스로부터 우리를 지켜주는지, 또는 다양한 회사들에서 현재 개발되고 있는 백신들이 어떻게 다른지는 관심 있게 찾아보지 않으면 알기 쉽지 않은 내용입니다.

백신! 실제 감염이 됐을 때 재빠르고 강하게 우리 몸의 면역반응을 유도하여 질병을 방어 할 수 있도록 예방의 목적으로 맞는 것입니다. 즉, 백신의 원리는 경험과 기억이라고 말할 수 있습니다. 백신을 맞으면 우리 몸의 면역체계가 활성화 되면서 해당 바이러스에 대해 모의 경험을 하게 되고, 이 경험을 기억하였다가 실제 감염됐을 때 본격적인 면역활성화를 유도하여 질병에 저항할 수 있게 합니다.





[Fig.2] 코로나19 증상 순서


[Fig.3] 스파이크 단백질과 중화항체
(https://www.youtube.com/watch?v=RtIijJd-JC8)

코로나바이러스에는 세포의 문을 여는 열쇠와 같은 스파이크 단백질(Spike protein)이 존재합니다. 스파이크 단백질은 살아있는 세포 표면의 수용체와 결합하여 세포에 침투하게 되고 우리 몸의 시스템을 이용하여 바이러스 자신을 복제하게 됩니다. 즉, 이 스파이크 단백질이 수용체 단백질과 결합하게 되면 바이러스는 체내로 들어오게 됩니다. 따라서 이 스파이크 단백질을 없애는 것이 감염을 피하는 중요한 요소이고, 백신 개발도 이 부분에 집중하고 있습니다. 즉, 수용체 대신 스파이크 단백과 결합하여 중화시키는 체내 중화항체를 유도하는 백신이 개발되고 있습니다. 그림에서 보시는 것과 같이 바이러스 표면의 보라색 뾰족한 것이 스파이크 단백질이고, 형광으로 표시된 것이 중화항체입니다.

  • 스파이크 단백질: 바이러스 외피에서 바깥으로 돌출된 단백질




현재 코로나바이러스가 예상치 못하게 전 세계적으로 확산세가 지속하면서 화이자, 모더나, 아스트라제네카 등 다양한 제약회사에서 백신을 개발 중입니다.

  1. 바이러스 벡터 백신(virus-vector vaccines) 바이러스 항원 유전자를 다른 안전한 바이러스에 넣어 투여하는 방식으로, 인체에 해를 끼치지 않는 바이러스를 운반체(벡터)로 이용하는 백신
  2. 사백신 또는 불활성화 백신 (Inactivated vaccine) 병원체를 열 또는 포르말린 등으로 처리해 활성을 없앤 후 병원체 전체 또는 일부를 추출하여 항원으로 사용하는 방식으로, 바이러스 독성을 없애기 때문에 안전하지만, 스파이크 단백질이 변형될 수 있는 단점을 가진 백신
  3. DNA 백신 바이러스 항원을 발현할 수 있는 DNA를 투여하는 방법으로, 미리 개발해둔 범용 백신 플랫폼에 바이러스의 특정 유전자를 집어넣어 사용하는 백신
  4. RNA 백신 바이러스 항원 유전자를 RNA 형태로 투여하는 방식을 가진 백신
  5. 재조합 단백질 백신 (protein-based vaccines) 바이러스의 특정 단백질 조각을 항원으로 사용하는 백신으로, 대장균이나 효모에서 유전자 재조합 기술로 인공적인 항원 단백질을 만들어 투여하는 백신. 상대적으로 안전하지만, 면역 활성화 효과가 떨어질 수 있음. B형 간염 백신이 대표적
  6. 바이러스 유사 입자 백신 (virus-like particles; VLP) 바이러스 항원 단백질을 실제 바이러스와 유사한 입자 모양으로 만든 가짜 바이러스를 만들어서 사용하는 백신. 자궁경부암 백신이 대표적





RNA, DNA 백신과 같은 기술 덕분에 평균 5-10년 정도 소요되던 백신의 개발 기간이 1년으로 단축되었다고 합니다. 하지만 아직 상용화된 전례가 없어서 대량 생산이나 유통 면에서 현실적인 장벽이 많다고 합니다. 개발 기간이 이렇게 짧을 수 있었던 이유는, 전통적인 백신인 불활성화 백신이나 단백질 기반 백신들은 단백질을 생산하는 생물 공정 배양기가 필요하여 생성이 어려웠기 때문입니다. 하지만 RNA나 DNA는 인공적으로 실험실 내에서 쉽게 증폭할 수 있으므로 큰 배양기 없이 빠른 생산이 가능합니다. 하지만 -70℃에서 -20℃ 정도의 굉장히 낮은 온도에서 보관하고 유통되어야 한다는 단점이 있습니다. 제약업체에서 콜드체인을 통해 유통을 진행하는 이유가 이 때문입니다.

  • 콜드체인: 냉동이나 냉장을 통해서 유통하는 방식




여기서 mRNA 백신에 대하여 조금 더 알아보도록 하겠습니다. mRNA는 세포가 살아가는 데 중요한 역할을 담당하는 유전물질인 리보핵산(RNA) 중 하나입니다. mRNA는 DNA 안에 저장된 인체 유전자 정보가 단백질이란 형태로 발현되는 과정에서 정보를 전달하는 역할을 합니다. mRNA 백신을 만들기 위해서는 바이러스의 유전물질 중에서 감염에 큰 역할을 하는 항원 생산을 담당하는 유전자가 무엇인지를 먼저 파악해야 합니다. 그래야만 적절한 항체 형성을 유도하여 감염을 예방할 수 있기 때문입니다. 백신 제조사는 이와 같은 주요 유전자로부터 mRNA를 만들고 백신에 활용하는 것입니다. 일반적으로 바이러스의 단백질, 즉 외부 항원이 인체에 들어오게 되면 몸에서는 면역반응이 일어나 결과적으로 바이러스에 대항하는 항체가 형성됩니다. mRNA 백신은 기존 사백신이나 생백신처럼 바이러스 단백질 대신에, 말 그대로 mRNA 성분을 주사합니다. mRNA 백신을 주사하게 되면 체내에서는 바이러스 단백질 항원이 만들어지고, 해당 단백질에 대해 인체 면역체계가 항체를 형성할 수 있도록 유도하는 과정을 거치게 되는 것입니다. 기존 백신들이 단백질 원료 성분을 배양하는 등의 긴 절차를 거쳐야 했던 반면, mRNA 백신 기술을 활용하면 단백질 성분을 배양하는 과정이 생략되게 되는 겁니다. 무엇보다 전문가들은 기존 백신과 달리 생산과정이 빠르고, 저렴하게 생산할 수 있다는 점에서 mRNA 백신을 높이 평가합니다. 과거 백신 개발에만 10~15년 정도가 걸렸다는 점을 고려해보면, 빠른 생산이 가능한 mRNA 백신 기술의 발전은 환자 관리가 급박한 코로나19 팬데믹 상황에서 큰 힘을 보여줄 것으로 기대됩니다.





현재 화이자와 모더나가 개발한 mRNA 백신 후보는 코로나19 바이러스의 스파이크 단백질을 만드는 mRNA를 바탕으로 개발됐습니다. mRNA만 주입하게 되면 체내에 들어가서 금방 파괴될 수 있으므로, 세포 내에서 필요로 하는 단백질이 만들어질 때까지 유효성분이 파괴되지 않도록 포장하는 전략이 필요합니다. 두 회사 모두 mRNA에 당 성분을 결합시키고, 세포막과 같은 지질 성분으로 이를 감싸 나노 크기 수준의 지질 입자 형태로 체내에 주입하는 것은 공통적입니다. 아직 구체적인 논문이 발표되지 않아 상세한 비교는 어렵겠지만, 전문가들은 화이자와 모더나의 백신은 일단 mRNA 변형 방법, 나노 입자 크기를 만드는 지질 성분 구조, 혹은 1회 주사하는 mRNA 양에 차이가 있을 것으로 보고 있습니다.





모더나가 개발 중인 백신 후보 'mRNA-1273'을 보면, -20℃에서는 최대 6개월, 2~8℃에 해당하는 냉장상태에서는 최대 30일, 냉장고에서 꺼낸 뒤에도 실온 상태에서 최대 12시간 동안 안정적으로 유지된다고 합니다. 이에 비해 화이자와 독일 바이오기업인 바이온엔테크(BioNTech)가 개발한 백신 후보인 'BNT 162b2'는 -70℃에서 유통과 보관이 이루어져야 합니다. 모더나의 백신이 강조한 영하 20도에서의 유통 보관방법은 표준 냉동고 온도를 사용하는 방식인데, 이는 급속 냉동보다 훨씬 접근성이 쉬운 유통 보관 방식입니다. 전 세계 대부분의 제약 유통회사들이 -20℃에서 제품을 보관하고 유통 배송할 수 있기 때문입니다. 화이자 백신 후보는 1회 주사에 mRNA를 30μg, 모더나 백신은 100μg 주입하게 되는데, 이러한 주입되는 mRNA 양의 차이나 나노입자 구조 차이 등으로 인해 유통 보관 온도에 차이가 나타난다고 합니다.





왜 이제서야 mRNA 백신이 나오는지 궁금해하실 수도 있습니다. 1990년대부터 과학자들은 생쥐 실험을 통해 세포에 RNA를 주입하면 면역반응을 유도할 수 있는 단백질이 생산된다는 것을 알아냈습니다. 이론적으로는 감염병을 일으키는 바이러스의 유전정보만 알면 바로 그에 맞는 mRNA를 합성해 인체에서 면역반응을 유도할 수 있습니다. 그런데 RNA 백신은 몸 안에서 단백질을 많이 만들어내지 못하고, 잘못하면 단백질을 만들기 전에 쉽게 분해된다는 단점이 있습니다. 이런 문제는 최근에서야 RNA 합성과 변형 기술이 발전하면서 많이 해결됐습니다. 특히 지방 나노 입자로 mRNA를 감싸는 기술이 개발된 덕분에 mRNA가 체내에서 오래 유지될 수 있게 된 점도 mRNA 백신의 탄생을 이끈 주요 요인입니다. 그런데도 mRNA는 여전히 불안정한 물질이어서, 이번 화이자 백신 같은 경우에는 -70℃에서 보관해야 합니다. 화이자와 모더나가 다른 제약회사에 비해 빠르게 코로나19 백신을 개발할 수 있었던 데는, 기존에 암이나 광견병 등의 백신을 mRNA로 개발해서 임상을 진행한 경험이 있는 회사들이기 때문이라고 합니다.





3상 임상에서 90% 이상의 효과를 얻었다 해도 항체 유지 기간이 너무 짧으면 백신의 효능이 상당히 떨어질 수밖에 없다는 점과 코로나19 바이러스 감염에 특히 취약한 노약자 등에서도 같은 효과를 기대할 수 있는지 절대적인 데이터가 아직 부족하다는 평가가 있습니다. 백신 접종 인원에서의 중증 부작용 발생 위험 등도 추가로 검증해봐야 할 문제로 남겨졌습니다.






[Fig.6] 3차원 형태의 단백질 구조

전 세계 제약사들에게 코로나19 백신뿐만 아니라 치료제 개발 또한 중요한 과제로 남아있습니다. 치료제에는 크게 항체치료제와 혈장치료제가 개발되고 있습니다. 항체치료제와 혈장치료제 모두 바이러스 표면 스파이크 단백질을 표적으로 한 항체를 이용한다는 점에서 원리는 같습니다. 항체치료제는 스파이크 단백질을 표적으로 한 단클론항체를 인공적으로 합성해 만드는 반면 혈장치료제는 완치자의 혈장에 존재하는 항체들을 농축해 투여하는 방식이라는 차이가 있습니다. 화학적 치료제에 비해 부작용의 가능성이 작고 예방 용도로도 사용 가능해 개발이 활발하게 진행 중입니다. 치료제 개발에 모든 제약사가 힘쓰는 가운데 AI 또한 치료제 개발에 크게 이바지하고 있다고 합니다. AI는 어떻게 치료제에 도움을 줄 수 있을까요?
 
구글의 인공지능(AI) 자회사인 딥마인드는 단백질 구조를 파악하는 AI인 알파폴드가 AI들의 단백질 구조 예측 능력을 평가하는 대회인 CASP에서 유전정보만으로 과학자들이 실험으로 사전에 밝혀낸 단백질 구조와 90% 이상 일치하는 결과를 얻었다고 합니다. 조금 더 자세히 살펴보면 과거 실험을 통해 확인된 단백질의 3차원 구조정보와 DNA 유전 정보를 알파폴드에게 학습시켜 수차례 수많은 정보를 반복 학습시키는 딥러닝을 통해 알파폴드는 아미노산 서열 정보와 단백질 입체 구조 간의 연관관계를 스스로 익혀나가는 원리입니다. 이러한 단백질 구조 예측 기술은 특히 신약 개발에 유용하게 사용됩니다. 예를 들어 단백질 구조 예측 기술을 통해 코로나19 바이러스의 스파이크 단백질 구조를 예측해서 스파이크가 인체 세포에 달라붙지 못하게 이 돌기를 감쌀 수 있는 단백질을 디자인하는 식으로 신약을 개발하는 것입니다. 특히 단백질 구조 예측에서 비용과 시간이 크게 절약되면 코로나19를 비롯한 감염병에 신속한 대응이 가능해질 전망이라고 합니다. ㈜인실리코젠 또한 "AI drives Bioinformatics"이라는 슬로건 아래 새롭게 펼쳐질 미래를 준비하고 있습니다. 이렇게 주변의 곳곳에서 AI가 우리들의 삶 깊숙한 곳까지 함께하고 있는데요, 앞으로도 AI의 활용이 기대됩니다.


 


전 세계적으로 코로나19 라는 팬데믹으로 평범한 일상조차 누리지 못하고 있는 상황이 오랜 시간 동안 계속되고 있습니다. 이러한 상황 속에서 소중한 친구와 가족들을 마음 편히 만나지 못하고 있지만, "위기를 기회로"라는 말이 있듯이 이번 코로나19 사태라는 위기가 RNA 백신 개발 기술을 고도화할 기회가 될 수 있길 바라봅니다. 일상의 소중함을 알아가고 나 자신과 주변을 되돌아보고 살필 수 있는 시간이 되었으면 좋겠으며, 백신에 대한 여러분들의 궁금증에 도움이 되었길 바라며 이 글을 마칩니다.
감사합니다.





작성자 : RDC 손효정 연구원

Posted by 人Co

2020/12/19 23:34 2020/12/19 23:34
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/367



오늘날 전 세계에서 하루 동안 생성되는 데이터의 양은 약 2.5엑사바이트(≒25억 기가바이트)에 달한다고 합니다.
이는 무려 6,500억 권의 책과 맞먹는 분량이라고 하는데, 단순하게 생각해보면 78억 명 정도 되는 지구촌 사람들이 각자 매일 여든세 권의 책을 쓰는 셈이라고 볼 수 있습니다.  
정부와 산하 공공기관 등에서는 이러한 데이터들의 품질 관리와 보안 등을 제고 및 고도화하기위해 범국가적 심사·인증 제도를 시행하고있는데요.
오늘 블로그는 이러한 데이터 품질인증과 관련하여 심사·인증 제도에 대한 정보를 공유드리고자 합니다.





[Fig. 1] 구글의 루커 인수 관련 페이지(좌)와 워렌 버핏의 투자 관련 영상(우)
미래가치가 있는 기업들을 사들이는 것으로 유명한 미국의 구글(Google)은 올해 초 루커(Looker)라는 업체를 26억 달러(약 3조 원)에 인수하였습니다. 루커는 빅데이터를 활용한 시각화와 예측을 통해 기업경영에 도움이 되는 정보를 만들어내는 데이터 전문 기업입니다. 최근에는 세계적인 투자자 워렌 버핏이 스노우플레이크(SnowFlake) 라는 클라우드 데이터 업체에 5억 7천만 달러(약 6,300억 원)를 투자하여 화제가 되기도 하였습니다. 루커처럼 세상에 널려있는 데이터를 잘 수집하고 가공하여 쓸모 있게 만들어내거나, 스노우플레이크처럼 데이터를 잘 관리하고 공유할 수 있는 플랫폼을 운영하는 일의 가치가 수천 억원에서 수조 원 이상의 경제적 규모로 환산되는 수준에 이르렀습니다. 이제는 데이터 관련 작업이 주 업무를 보조하는 수준에서 완전히 벗어나, 새로운 시대를 만들어내는 주역으로 자리매김했다고 봐도 과언이 아닐 것입니다. 스포츠의류로 유명한 나이키가 소비자 정보를 맞춤 분석하는 스타트업인 조디악을 인수하고, 광고사업을 하는 제일기획이 중국의 빅데이터 업체인 컬러데이터를 인수하는 등 기업들 사이에서는 사업분야와 국경을 초월한 데이터 기술 확보 경쟁이 치열하게 벌어지고 있습니다. 이렇게 데이터는 점차 현대 사회에서 기업의 성패를 결정지을 수 있는 핵심적인 자산이자 무기가 되어가고 있습니다.




데이터라는 것이 단순히 많이 모아놓기만 하면 자연스럽게 경쟁력과 가치가 생기는 대상이었다면 데이터 전문 기업이 따로 필요가 없었을 것입니다. 데이터의 규모로만 본다면 구글처럼 이미 시장을 장악하고 있는 기업들이 절대적으로 많은 양의 데이터를 확보하고 있을 것이 분명한데 왜 다른 데이터 전문기업과 인수합병을 하거나 협력을 하는 것일까요? 이것은 대량의 데이터가 공개/공유되고 있는 4차산업의 물결 속에서는, 데이터의 양보다도 이들이 가치 있게 활용될 수 있도록 잘 구성/구축된 데이터의 ‘품질’이 훨씬 더 중요하기 때문입니다. 품질이 낮아 활용성이 떨어지는 데이터는 양이 많으면 많을수록 오히려 저장공간만 차지하는 애물단지로 전락하기 쉽습니다.




그런데 이토록 중요한 데이터의 ‘품질’은 어떤 방법으로 측정하고 향상할 수 있을까요? 데이터의 양은 개수나 용량처럼 비교적 간단하게 산정해 낼 수 있는 명확한 기준이 있는 반면에, 데이터의 품질은 그 척도로 사용할만한 기준을 쉽게 찾기가 어려운 것이 사실입니다. 데이터의 중요성이 일반인들에게 부각된 것은 비교적 최근의 빅데이터 붐이 일어나면서 부터이지만, 사실 데이터 품질의 중요성은 IT분야 내에서 이미 수십 년 전부터 강조되어 왔습니다. 미국의 경우 지난 2000년에 데이터 품질법(Data Quality Act)을 제정하여 미국연방정부의 각 산하기관과 기타 기관에 데이터 품질 가이드라인 수립과 이행을 권고하고 있습니다. 우리나라의 경우 2003년 한국데이터산업진흥원의 데이터베이스 품질평가를 시작으로 그 이듬해부터 데이터베이스 품질진단 개선 지원 사업과 지침/가이드라인 보급 사업을 수행하고 있습니다.
 

[Fig. 2] 한국데이터산업진흥원
한국데이터산업진흥원은 국내 산업 전반의 데이터 생태계 혁신과 데이터 경제시대를 창출하기 위한 각종 업무를 수행하는 기관으로, 데이터 품질 향상을 위한 가이드라인 보급 외에도 정보시스템의 데이터 품질 향상을 위한 데이터 품질인증 제도를 시행하고 있습니다.

[Fig. 3] 한국데이터산업진흥원에서 소개하는 데이터 품질의 정의와 저품질 데이터의 문제점





한국데이터산업진흥원에서 제작한 가이드문서에는 데이터 품질과 관련된 내용이 잘 정리되어 있습니다. 데이터 품질관리 지침서에서는 품질관리 요소별로 품질관리 대상에 따른 중점 사항을 소개하고 있으며 데이터 품질진단 절차 및 기법서에서는 다양한 종류의 데이터에 대한 품질기준 정의와 품질진단 계획을 수립하는 과정, 정형 데이터에 대한 프로파일링 방법과 업무규칙 도출 절차, 그리고 비정형 데이터에 대한 품질측정을 수행하는 방법 등을 상세하게 설명하고 있습니다.

[Fig. 4] 한국데이터산업진흥원에서 제작, 보급하는 데이터 품질 관련 가이드 문서


[Fig. 5] 데이터 품질관리 요소와 품질관리 대상
(한국데이터산업진흥원에서 편찬한 데이터 품질관리 지침서의 내용을 바탕으로 편집)


 
  • 정형 데이터와 비정형 데이터

정형데이터는 일반적인 텍스트 데이터를 의미하고 비정형 데이터는 이미지나 음성 등 정형 데이터가 아닌 데이터를 총칭합니다. 과거에는 정형데이터가 주류를 이루었으나 멀티미디어 콘텐츠가 쏟아지고 있는 오늘날에는 비정형 데이터가 전체 데이터의 92% 이상을 차지하고 있다고 합니다. 그러나 데이터에 대한 품질관리의 경우 상대적으로 품질관리가 용이한 정형데이터에 편중되어 있어 비정형 데이터에 대한 품질관리 체계는 상대적으로 취약한 편입니다. 한국데이터산업진흥원에서는 이러한 상황을 극복하기 위해 정형데이터 뿐만 아니라 비정형 데이터도 아우를 수 있는 통합적인 품질관리 방법을 가이드문서를 통해 제안하고 있습니다.

  • 정형데이터의 품질 기준

[Fig. 6] 정형 텍스트에 대한 일반적인 품질기준 정의
(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 및 기법에서 발췌)

정형데이터에 대한 품질진단은 데이터베이스의 테이블, 컬럼, 코드, 관계, 업무규칙 등을 기준으로 데이터의 값에 대한 현상을 분석합니다. 그리고 데이터값과 관련된 품질 기준을 적용하여 오류내역을 산출하고 주요 원인을 분석하여 개선 사항을 제안합니다.
 
 

[Fig. 7] 정형 데이터에 대한 세부 품질기준 및 활용 사례
(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 및 기법에서 발췌)
 
  • 비정형 데이터의 품질 기준

비정형 데이터에 대한 품질진단은 비정형 콘텐츠 자체의 상태에 대한 품질진단과 메타데이터에 대한 품질진단으로 이루어집니다. (메타데이터는 비정형 데이터와 관련된 텍스트 성격의 정보를 의미합니다. (예 : 동영상 데이터의 경우라면 화면크기, 재생시간, 파일크기 등)) 콘텐츠 상태에 대한 진단은 그 내용 자체의 합목적성을 비롯하여 동영상이나 이미지, 3D 등 유형에 따라 각기 다른 상태를 시각이나 청각, 또는 자동화된 도구를 이용하여 진단합니다. 메타데이터의 경우에는 정형 데이터와 유사한 기준과 방법으로 진단을 수행합니다.


[Fig. 8] 비정형 데이터의 유형 분류 사례
(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 및 기법에서 발췌)



[Fig. 9] 비정형 데이터 중 동영상에 대한 품질기준 정의 사례
(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 및 기법에서 발췌)


 

 
한국데이터산업진흥원에서는 고품질의 데이터 보급을 위한 정책의 일환으로 국내에서 운영 중인 시스템에 대한 데이터 인증제도를 시행하고 있습니다.

 

[Fig. 10] 한국데이터산업진흥원에서 시행 중인 데이터 인증
 
  • 데이터 품질인증

데이터 품질인증은 데이터의 관리비용 절감과 데이터의 가치 향상, 그리고 이를 통해 기업의 경쟁력을 강화하기 위한 목적으로 시행되는 한국데이터진흥원의 대표적인 데이터 인증입니다. 실무적으로는 도메인과 업무규칙을 기준으로 실제 데이터 자체에 대한 품질 영향요소 전반을 심사·심의하여 인증을 진행합니다.

  • 데이터 관리인증

데이터 관리인증은 데이터의 효과적인 활용을 위한 데이터의 거버넌스 정책과 데이터 관리 체계에 대한 인증입니다.

  • 데이터 보안인증

데이터 보안인증은 데이터에 대한 보안위협의 선제대응과 안전한 비즈니스를 위한 인증입니다.





데이터의 품질 향상과 관리를 위해선 데이터 품질인증과 관리인증, 그리고 보안인증 측면에서 모두 점검과 검토가 필요하지만, 이 중에서 가장 근본적인 부분에 대한 검토를 하는 것은 품질인증이라고 할 수 있습니다. 데이터 품질인증은 다른 인증에 비해 가장 활성화되어 있는 데이터 인증이기도 합니다. 데이터 품질인증의 주안점은 데이터 품질을 고려한 설계의 적절성 여부와 함께, 실제 데이터가 이 설계에 맞게 잘 구축이 되어있는가에 대해 맞춰져 있습니다.

  • 데이터 품질인증 절차

데이터 품질인증은 인증상담, 인증신청, 인증심사, 인증심의, 인증유지 등 5단계의 절차를 거쳐 엄정히 수행됩니다. 인증을 받고자 하는 기관이나 업체에서 상담접수를 하고 서류를 준비하여 인증신청을 하면, 심사접수를 통해 기본 서류심사를 하고 이어서 현장심사를 진행하게 됩니다. 현장심사 일정이 정해지면, 한국데이터산업진흥원에서 지정한 심사위원들(시스템 규모에 따라 인원은 다르며 보통 2~3인)이 해당 기관이나 업체에 방문하여 1주일가량 심사를 진행합니다. 심사결과는 진흥원의 최종 심의를 거쳐 확정되게 되며 인증을 받은 날로부터 1년간 유지됩니다.


[Fig. 11] 데이터 품질인증 절차
  • 데이터 품질인증 심사와 제출 문서

[Fig. 12] 데이터 품질인증 시 제출하는 문서

데이터 품질인증 심사는 테이블 정의서와 컬럼 정의서, 데이터베이스 구조도(ERD)와 같은 기본적인 데이터베이스 관련 문서에 대한 검토를 시작으로, 실제 데이터베이스에 등록된 데이터가 도메인과 업무규칙 등 품질진단 기준에 맞게 잘 구축이 되어 있는지에 대한 점검(데이터 프로파일링)을 진행합니다. 여기서 도메인이란 데이터 속성에 정의된 조건을 만족시키는 값의 범위를 의미하는데, 좀 더 쉽게 표현하면 데이터가 가질 수 있는 값의 성격과 범위에 따라 종류를 나누어 놓은 것이라 볼 수 있습니다. 도메인의 종류에는 번호, 금액, 명칭, 수량, 분류, 날짜, 비율, 내용, 코드, 키, 공통이 있습니다. 데이터베이스 시스템을 구축할 때는 초기에 데이터에 대한 명확한 분석을 바탕으로 도메인을 잘 구성하는 것이 무엇보다 중요합니다. 업무규칙은 데이터의 품질관리를 위해 지속해서 관리되어야 하는 데이터의 규칙으로, 데이터의 값이 정확하기 위한 조건에 대한 표현입니다. 따라서 막연하게 정해놓는 것이 아니라 일관되고 정형화된 양식으로 작성해야 하며, 실제 데이터 시스템 운영 시 업무규칙에 맞게 데이터에 대한 등록과 관리를 진행해야 데이터의 품질을 높일 수 있습니다.

[Fig. 13] 데이터 품질인증 세부심사 절차
[Fig. 14] 업무규칙 정의서 예시
(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 기법에서 발췌)
  • 데이터 프로파일링

데이터에 대한 품질진단에는 데이터 프로파일링 기법이 활용되는데 이는 통계적 기법을 바탕으로 데이터의 품질과 관련된 현상을 파악하는 절차입니다. 기술적으로 보면 데이터베이스의 테이블을 목록화하고 테이블별로 품질진단 목록을 체크하여 최종적으로는 세부 컬럼 단위로 점검을 수행하는 과정이라 할 수 있습니다.


[Fig. 15] 프로파일링 대상 및 유형 목록 예시
(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 기법에서 발췌)

 

[Fig. 16] 프로파일링 결과보고서 예시
(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 기법에서 발췌)

 
  • 데이터 품질인증 심사 기준과 등급

프로파일링 분석을 통해 의심되는 데이터 항목을 검출하고 나면, 필요할 경우 추가 업무규칙을 도출하고 이후 최종 품질점검을 진행하여 오류판정을 내리게 됩니다. 그리고 이 오류율에 따라서 품질인증 등급이 결정됩니다. 실질적으로 품질인증 등급에 가장 큰 영향을 미치는 부분은 도메인과 업무규칙이 실제 데이터와 얼마나 정합성을 이루고 있는가에 대한 것으로, 정합성에 어긋나는 부분은 오류로 간주하여 오류율에 합산됩니다.


[Fig. 17] 데이터 품질인증 심사기준
 
 

[Fig. 18] 도메인과 업무규칙별 데이터 품질 점검사항(일부)
 
데이터 품질인증 등급(수준)은 도메인과 업무규칙에 따른 데이터베이스 내의 값을 대상으로 데이터 정합성을 정량화하여 이 정합률의 수치에 따라 결정되게 됩니다. 현장 심사를 통해 나온 품질인증 결과는 한국데이터산업진흥원의 내부 심의를 거쳐 최종 확정됩니다.
 

[Fig. 19] 데이터 품질인증 등급
 




지난 9월, 한국원자력연구원이 주관하고 (주)인실리코젠이 개발과 운영을 담당하고 있는 국가 방사선 반응지도 모델링 플랫폼에 대한 데이터 품질인증이 진행되었습니다. 국가 방사선 반응지도 모델링 플랫폼은 점차 수요가 증가하고 있는 방사선 관련 데이터를 정제하여 통합 데이터베이스로 구축하고 조회와 예측 등의 서비스를 제공하는 시스템으로, 데이터의 전반적인 품질을 점검/개선하여 활용가치를 높이려는 목적으로 인증을 신청하였습니다.


[Fig. 20] (주)인실리코젠에서 개발/운영을 담당하고 있는 국가 방사선 반응지도 모델링 플랫폼
식품, 공업소재 등 다양한 분야의 방사선 반응 데이터를 수용할 수 있도록 효율적으로 설계된 기본 데이터 구조 위에서, 수년에 걸쳐 구축한 방사선 관련 연구 데이터들을 대상으로 진행된 데이터 품질인증에서 최고 인증등급인 ‘플래티넘’을 획득하는 성과를 거두었습니다.

[Fig. 21] 데이터 품질인증 최고등급인 플래티넘을 받은 국가 방사선 반응지도 모델링 플랫폼

국가 방사선 반응지도 모델링 플랫폼은 이번 연도에 새롭게 반도체 분야 데이터를 추가하는 등 지속해서 데이터를 확장하고 있으며, 높은 품질의 데이터를 많은 사람이 더욱 유용하게 활용할 수 있도록 계속 발전시켜 나갈 예정입니다.




맛집의 공통점은 주방장의 뛰어난 요리 솜씨나 고객에 대한 세심한 서비스 이전에, 좋은 재료에서부터 출발한다는 점입니다. 좋은 재료는 운이 좋으면 얻을 수 있는 행운의 선물이 아니라, 부단한 노력과 검증을 통해 기준을 정하고 끊임없이 탐색하며 고민해야 비로소 손에 쥘 수 있는 것입니다. 그리고 좋은 재료를 입수했다 하더라도 각 재료에 맞는 적절한 보관절차나 관리체계 없이 방치한다면, 얼마 되지 않아 그 가치를 잃고 말 것입니다.

정부와 기업의 중요한 의사결정 과정에서는 물론이고 이제 각 개인의 판단이나 행동에도 데이터가 미치는 영향이 절대적인 시대가 되었습니다. 데이터를 잘 분석하고 해석하는 것도 중요하지만, 근본적으로 데이터를 잘 설계하고 구성하여 이를 뿌리 삼아 좋은 품질의 데이터라는 열매를 획득하는 것이 무엇보다 중요한 상황입니다. 데이터를 기반으로 더욱 살기 좋은 세상을 만들기 위해서는 데이터를 다루는 모든 주체가 데이터 맛집이 되어야 합니다. 데이터 품질의 중요성을 인지하고 이를 높이기 위한 모두의 노력이 더해졌을 때, 고품질의 데이터가 서로 간에 공유/확장되며 비로소 인류의 미래를 위한 중대한 정보들을 우리에게 드러내 줄 것입니다.






작성자 : 대전지사 서승원 선임개발자
 

Posted by 人Co

2020/12/05 21:17 2020/12/05 21:17
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/366

[모집공고] 人Co INTERNSHIP 2021 동계



[모집분야]
- 지원대상 : 학사 기졸업자 또는 졸업예정자
- 지원기간 : 2020년 11월 30일(월) ~ 12월 10일(목)
- 지원서류 : 지원서(첨부된 당사 양식),
                 성적증명서 및 졸업증명서(기졸업자 또는 졸업예정자 대상)
- 지원방법 : 지원서류를 메일로 발송 (recruit@insilicogen.com)

[전형일정]

- 1차 서류전형 : 2020년 12월 14일(월) 서류합격 발표 (개별연락)
- 2차 면접전형 : 2020년 12월 21일(월) ~ 12월 22일(화)
- 최종 합격자발표 : 2020년 12월 24일(목)
- 인턴근무지 : 본사(경기도 용인시)
- 인턴기간 : 총 6주(2020년 12월 28일(월) ~ 2월 5일(금))
- 인턴혜택 : 1. 생물정보 기초 교육 커리큘럼
                  2. 기업 공통업무 기본역량 습득
                  3. 점심 제공
                  4. 수료증 발급
- 별도 공지사항 : 인턴십 기간 동안 정직원과 동일하게 출퇴근 규정 엄수
                         중도 이탈자 수료 불인정

[입사지원서 양식]

Posted by 人Co

2020/11/27 15:17 2020/11/27 15:17
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/365

공공데이터 포털 활용하기



4차 산업혁명과 함께 빅데이터 시대가 도래하였습니다. 빅데이터 시대의 핵심 경쟁력은 더 많은 데이터를 보유하는 것입니다.
빅데이터는 통계, 분석뿐만 아니라 AI 학습에까지 활용되어 데이터 확보의 중요성은 점점 더 커지고 있습니다.
 
우리나라의 디지털 경쟁력은 우수하다고 평가받고 있으나, 빅데이터 활용은 OECD 국가 중 꼴등 수준이라고 합니다.
이를 극복하기 위해 현재 국가에서는 개인 및 회사의 빅데이터 활용능력을 키우는 데 필요로 하는 데이터를 제공 및 활용할 수 있도록 공공데이터를 제공하는 공공데이터 포털을 운영하고 활성화하기 위해 많은 노력을 기울이고 있습니다.
 
아래 본문에서는 이러한 공공데이터 포털의 활용방법을 소개하고자 합니다.
 

 
공공데이터 포털은 공공기관이 생성 또는 취득하여 행정안전부에서 관리하는 공공데이터를 제공하는 통합제공 시스템으로 다양한 공공데이터를 국민 누구나 편리하고 쉽게 활용할 수 있도록 파일형식의 데이터(csv, excel, xml), Open API, 시각화, 분석 서비스 등 다양한 방식으로 제공하고 있으며, 검색을 통해 원하는 형식의 공공데이터를 빠르고 정확하게 찾을 수 있습니다.
 
 
 
 

[그림 1] 공공데이터 찾기
 
[데이터찾기] 메뉴는 데이터목록, 국가중점데이터, 이슈데이터로 구성되어 있습니다.
 
  • 데이터목록

[데이터목록]에서는 공공데이터 포털에서 제공하는 모든 데이터를 검색을 통하여 찾을 수 있으며, 자주 검색된 키워드를 검색창 하단에 배치하여 최근 이슈가 되는 키워드를 확인하고 이를 검색에 활용할 수 있습니다. 또한, 상세검색이나 조건검색(분류체계, 서비스유형, 제공기관유형, 태그, 확장자) 등을 통해 다양한 방식으로 검색할 수 있습니다.
 

[그림 2] 데이터목록
 
  • 국가중점 데이터

[국가중점 데이터]는 국민이나 기업의 수요 중심으로 개방의 효과성, 용이성, 시급성 등을 분석하여 가장 높은 분야의 데이터를 선정한 카테고리로 구성되어 있습니다.
 

[그림 3] 국가중점데이터
[이슈데이터]는 COVID-19, 미세먼지, 저출산/고령화 등의 사회현안별 이슈 키워드를 통하여 사회적 관심도가 가장 높은 카테고리로 구성되어 있습니다.




 


  • OpenAPI 데이터 활용

1. 제공 받고자 하는 데이터를 찾아 상세페이지로 이동합니다.


[그림 5] Open API신청1
 
 
2. 활용신청 버튼을 눌러 활용목적과 상세기능 선택 및 라이선스를 동의합니다.
 

[그림 6] Open API신청
 
 
3. 활용신청이 완료된 OpenAPI는 1~2시간 이후에 사용할 수 있으며, 일반 인증키와 요청변수를 통해 데이터를 받아 볼 수 있습니다.
 

[그림 7] Open API신청3
 
 
4. 키-값(key-value) 형태의 XML 혹은 JSON 데이터로 요청변수에 맞는 데이터를 제공 받아 볼 수 있습니다.
 

[그림8] 출력 결과 데이터
5. 제공 받은 데이터는 출력결과 항목에서 매칭되는 항목에 데이터를 활용할 수 있습니다.



[그림 9] 출력결과 항목
 
이러한 과정들을 거쳐 받은 Open API 데이터는 웹&앱 개발 혹은 연구에서 실시간으로 원하는 검색조건으로 데이터를 받아 활용할 수 있습니다. 또한, 활용 기간은 보통 승인일로부터 24개월간이며, 만료 시 재발급요청을 통하여 활용할 수 있습니다.
 
 


  • 공공데이터 신청

공공데이터포털에서 보유하고 있으나 제공하지 않는 데이터는 공공데이터 신청서를 작성하여 제공 여부 심의 후 제공 받을 수 있습니다.


[그림 10] 공공데이터 신청과정
 
 

[그림 11] 공공데이터 신청서
(https://data.go.kr/tcs/dor/insertDataOfferReqstDocView.do)
 



  • 공공데이터활용 사례

공공데이터 포털의 공공데이터들을 활용한 사례는 어떤 것들이 있을까요? 2가지의 사례를 통해 알아보고자 합니다.

첫 번째로 아파트 실거래 정보를 기반으로 '호갱노노'라는 아파트 시세를 확인할 수 있는 앱이 있습니다. 최근 부동산 가격이 치솟아 내 집 마련의 꿈이 힘들어지고 있습니다. 호갱노노라는 앱은 부동산 실거래가 정보를 공공데이터로 받아 부동산의 실거래가를 제공하여 부동산 구매자가 호갱이 되지 말고 현명한 구매를 하게 하는 목적으로 만들어진 앱입니다.


[그림 12] 호갱노노
 
두 번째로는 COVID-19라는 커다란 재앙 같은 바이러스가 전 세계에 퍼지며 위기를 맞았습니다. 이러한 시기에 맞춰 대학생들이 만들어낸 코로나 확진자의 지역별 분포를 그려준 코로나 맵이라는 앱을 기억하시나요? 이 앱도 공공데이터 포털에서 제공하는 데이터를 활용하여 만든 앱입니다. 이렇게 공공데이터 포털에서 제공하는 공공데이터는 많은 분야에서 유용하게 활용되고 있습니다.
 
 
[그림 13] 코로나맵
공공데이터 포털에 대해 간단한 소개 및 활용법을 적어보았습니다.
데이터는 데이터 분석 및 AI 기술 활용 등 많은 분야에서 활용됨에 따라 매우 중요한 요소로 자리를 잡았으며, 데이터의 양과 질의 승부라 할 만큼 데이터의 필요성이 중요한 시대가 되었습니다. 국가에서 데이터를 제공하는 기회를 통해 사업 및 창업, 또는 연구에서 종류별, 내용별 비즈니스 모델에 활용한다면 더 빠르고 높은 성과를 낼 수 있을 것으로 생각합니다. 또한, 코로나 맵, 호갱노노, 마스크 알림이, 미세먼지 앱 등 이미 많은 사례가 있는 만큼 필요의 맞게 공공데이터 포털을 활용하여 시장에서의 경쟁력을 키워나가길 기원합니다.



작성자 : BS실 백인우 주임개발자

Posted by 人Co

2020/11/23 08:52 2020/11/23 08:52
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/364

[Webinar] 제6회 유전체 데이터 분석 교육

Posted by 人Co

2020/11/16 13:12 2020/11/16 13:12
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/362



4차 산업의 핵심 기술인 빅데이터(Big Data)는 인공지능(AI), 사물인터넷(IoT), 증강현실(AR), 가상현실(VR) 등과 함께 필수적인 요소로 평가받고 있습니다. 이러한 빅데이터를 이용하여 크고 복잡한 현상에서 의미 있는 패턴을 찾고, 의사 결정에 필요한 통찰을 얻는 데이터 분석이 중요해지고 있습니다. 데이터 분석에는 크게 두 가지의 접근방법이 있습니다.

먼저 확증적 데이터 분석(CDA: Confirmatory Data Analysis)은 가설을 설정한 후, 수집한 데이터로 가설을 평가하고 추정하는 전통적인 분석입니다. 관측된 형태나 효과의 재현성 평가, 유의성 검정, 신뢰구간 추정 등의 통계적 추론을 하는 분석 방법으로 설문조사나 논문에 관한 내용을 입증하는 데 사용됩니다.

두 번쨰로 탐색적 데이터 분석(EDA: Exploratory Data Analysis)은 원 데이터(Raw data)를 가지고 유연하게 데이터를 탐색하고, 데이터의 특징과 구조로부터 얻은 정보를 바탕으로 통계모형을 만드는 분석방법입니다. 주로 빅데이터 분석에 사용됩니다. 확증적 데이터 분석은 *추론통계로, 탐색적 데이터 분석은 *기술통계로 나누어 볼 수 있습니다.

[Fig.1] 확증적 데이터 분석(CDA)과 탐색적 데이터 분석(EDA)

오늘은 이 중에서 탐색적 데이터 분석에 관하여 이야기해 보고자 합니다.

  • 추론통계 – 수집한 데이터를 이용하여 추론 예측하는 통계 기법으로 신뢰구간 추정, 유의성 검정 기법 등을 이용함
  • 기술통계 – 수집한 데이터를 요약 묘사 설명하는 통계 기법으로 데이터의 대푯값, 분포 등을 이용함




“ '탐색적 데이터 분석(EDA)’은 우리가 존재한다고 믿는 것들은 물론이고 존재하지 않는다고 믿는 것들을 발견하려는 태도, 유연성, 그리고 자발성이다. “ - 존 튜키 (도서 Doing Data Science 중)

탐색적 데이터 분석이란 벨 연구소의 수학자 존 튜키가 제안한 데이터 분석 방법으로 통계적 가설 검정 등에 의존한 기존 통계학으로는 새롭게 나오는 많은 양의 데이터의 핵심 의미를 파악하는 데 어려움이 있다고 생각하여 이를 보완한 탐색적 데이터 분석을 도입했다고 합니다. 데이터를 분석하고 결과를 내는 과정에서 원 데이터에 대한 탐색과 이해를 기본으로 가지는 것이 가장 중요합니다. 이에 따라 탐색적 데이터 분석은 데이터의 분포와 값을 다양한 각도에서 관찰하며 데이터가 표현하는 현상을 더 잘 이해할 수 있도록 도와주고 데이터를 다양한 기준에서 살펴보는 과정을 통해 문제 정의 단계에서 미처 발견하지 못한 다양한 패턴을 발견하고 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 추가할 수 있도록 합니다. 데이터에 대한 관찰과 지식이 이후에 통계적 추론이나 예측 모델 구축 시에도 사용되므로 데이터 분석 단계 중 중요한 단계라고 할 수 있습니다. EDA의 목표는 관측된 현상의 원인에 대한 가설을 제시하고, 적절한 통계 도구 및 기법의 선택을 위한 가이드가 되며, 통계 분석의 기초가 될 가정을 평가하고 추가 자료수집을 위한 기반을 제공합니다.



탐색적 데이터 분석은 한 번에 완벽한 결론에 도달하는 것이 아니라 아래와 같은 방법을 반복하여 데이터를 이해하고 탐구하는 과정입니다.

  • (1) 데이터에 대한 질문 & 문제 만들기
    (2) 데이터를 시각화하고, 변환하고, 모델링하여 그 질문 & 문제에 대한 답을 찾아보기
    (3) 찾는 과정에서 배운 것들을 토대로 다시 질문을 다듬고 또 다른 질문 & 문제 만들기

이러한 과정을 기반으로 데이터에서 흥미 있는 패턴이 발견될 때까지, 더 찾는 것이 불가능하다고 판단될 때까지 도표, 그래프 등의 시각화, 요약 통계를 이용하여 전체적인 데이터를 살펴보고 개별 속성의 값을 관찰합니다. 데이터에서 발견되는 이상치를 찾아내 전체 데이터 패턴에 끼치는 영향을 관찰하고, 속성 간의 관계에서 패턴을 발견합니다.

1. 전체적인 데이터 살펴보기

데이터 항목의 개수, 속성 목록, NAN 값, 각 속성이 가지는 데이터형 등을 확인하고, 데이터 가공 과정에서 데이터의 오류나 누락이 없는지 데이터의 head와 tail을 확인합니다. 또한, 데이터를 구성하는 각 속성값이 예측한 범위와 분포를 갖는지 확인합니다.

2. 이상치(Outlier) 분석

먼저 앞서 실습했던 방법으로 개별 데이터를 관찰하여 전체적인 추세와 특이사항을 관찰합니다. 데이터가 많다고 특정 부분만 보게 되면 이상치가 다른 부분에서 나타날 수도 있으므로 앞, 뒤, 무작위로 표본을 추출해서 관찰해야 합니다. 이상치들은 작은 크기의 표본에서는 나타나지 않을 수도 있습니다. 두 번째로는 적절한 요약 통계 지표를 사용합니다. 데이터의 중심을 알기 위해서는 평균, 중앙값, 최빈값을 사용하고, 데이터의 분산도를 알기 위해서는 범위, 분산 등을 이용합니다. 통계 지표를 이용할 때에는 평균과 중앙값의 차이처럼 데이터의 특성에 주의해서 이용해야 합니다. 세 번째로는 시각화를 활용합니다. 시각화를 통해 데이터의 개별 속성에 어떤 통계 지표가 적절한지를 결정합니다. 시각화 방법에는 Histogram, Scatterplot, Boxplot, 시계열 차트 등이 있습니다. 이외에도 기계학습의 K-means 기법, Static based detection, Deviation based method, Distance based Detection 기법을 이용하여 이상치를 발견할 수 있습니다.

3. 속성 간의 관계 분석

속성 간의 관계 분석을 통해 서로 의미 있는 상관관계를 갖는 속성의 조합을 찾아냅니다. 분석에 대상이 되는 속성의 종류에 따라서 분석 방법도 달라져야 합니다. 변수 속성의 종류는 다음과 같습니다.

[Fig.2] 데이터의 종류

먼저 이산형 변수- 이산형 변수의 경우 상관계수를 통해 두 속성 간의 연관성을 나타냅니다. Heatmap이나 Scatterplot을 이용하여 시각화할 수 있습니다. 다음으로 이산형 변수 - 범주형 변수는 카테고리별 통계치를 범주형으로 나누어서 관찰할 수 있고, Box plot, PCA plot 등으로 시각화할 수 있습니다. 마지막으로 범주형 변수- 범주형 변수의 경우에는 각 속성값의 쌍에 해당하는 값의 개수, 분포를 관찰할 수 있고 Piechart, Mosaicplot 등을 이용하여 시각화할 수 있습니다.


사례를 통해 살펴보겠습니다. jupyter notebook 환경 안에서 pandas를 이용하여 진행하였습니다. 분석에 사용한 데이터는 iris data입니다

iris (붓꽃) data는 통계학자인 Fisher가 공개한 데이터로 iris의 3가지 종(setosa, versicolor, virginica)에 대해 꽃받침과 꽃잎의 넓이와 길이를 정리한 데이터입니다. 종별로 50개씩 150개체의 데이터가 있으며 기계학습 중 분류(Classification)에 적합한 데이터입니다. 데이터의 크기가 작고 이해가 쉬운 데이터이고 R이나 Python 머신러닝 패키지인 Scikit-learn 에서 쉽게 접근할 수 있는 데이터이기에 해당 데이터로 분석을 진행해 보았습니다.

1. 데이터 읽어오기

df.to_csv('iris_dataset.csv', index=False)

 

2. 전체적인 데이터 살펴보기

shape, dtype 함수를 통해 데이터 항목의 개수와 type을 알아보겠습니다.

print(df.shape) # 데이터의 행, 열 개수 출력
print(df.dtypes) # 데이터의 타입 출력



[Fig.3] iris 데이터 항목의 갯수, 형식 출력
 

head, tail 함수를 이용해서 앞 5행, 뒤 5행의 데이터를 살펴보도록 하겠습니다.

df.head() # 앞 5행 출력
df.tail() # 뒤 5행 출력


[Fig.4] iris 데이터 head 출력



[Fig.5] iris 데이터 tail 출력
 
duplicate와 drop_duplicate 함수를 이용하여 중복값을 확인하고 삭제해 보겠습니다.
 
df[df.duplicated(keep=False)] # 중복된 열 출력
df = df.drop_duplicates() # 중복된 열 제거
df.shape() #제거된 열 확인
 

[Fig.6] iris 데이터 중복값 출력 및 제거

isna 함수로 Nan 값을 값별로 True, False 형태로 확인하고 열별로 Nan값을 sum 함수로 더해 한 눈에 확인 해 보겠슶니다. dropna 함수로 Nan값을 제거하거나, fillna로 Nan값을 다른 값으로 치환할 수 있습니다.

df.isna() #Nan값이 있는지 출력 True, False 형태로 출력됨
df.isna().sum() # 열별 Nan값을 출력함 
df = df.dropna() #Nan값을 제거 fillna()함수로 Nan값을 치환할 수도 있음
df.shape() #제거된 열 확인 
 

[Fig.7] iris 데이터 Nan값 출력 및 제거
 
 

3. 이상치(Outlier) 분석

describe 함수를 통해 각 컬럼별로 요약 통계 (갯수, 평균, 표준편차, 최솟값, 최댓값과 4분위수)를 수치값으로 확인할 수 있습니다.

df.describe() # 각 컬럼별 요약 통계 지표 출력 


[Fig.8] iris 데이터 셋의 요약 통계 지표
 
Histogram으로는 데이터의 분포를 확인할 수 있습니다. 이를 토대로 어느 부분에 자료가 많이 집중되어있는지와 이상치를 살펴볼 수 있고 데이터의 좌우 대칭성을 설명할 수 있습니다. 주의할 점은 계급 폭을 다르게 하면 해석이 달라질 수 있다는 것입니다.
 

[Fig.9] Histogram
 
Scatterplot 으로 두 번수 간의 방향, 트렌드, 밀집도와 이상치를 확인할 수 있습니다. 또한, 아래와 같이 명목형 변수의 군집별로 색을 다르게 하여 구분할 수도 있습니다.
 

[Fig.10] Scatterplot
 
앞서 describe() 함수로 수치를 확인했다면 boxplot은 그래프로 최솟값, 최댓값, 4분위수와 중앙값, 이상치를 확인할 수 있습니다.
 

[Fig.11] Boxplot
 

4. 속성 간의 관계 분석

상관계수를 통하여 두 속성 간의 연관성을 나타낼 수 있습니다. -1 에 가까우면 음의 상관관계, 0 이면 상관관계가 없고 1은 양의 상관관계를 나타냅니다. 이를 Heatmap으로 시각화하여 확인할 수 있습니다.

[Fig.12] 상관계수 및 Heatmap

Pairplot은 데이터의 모든 컬럼들의 변수의 상관관계를 histogram과 Scatterplot으로 출력합니다. 전체 데이터의 상관관계를 한눈에 볼 수 있습니다.

[Fig.13] Pairplot

위의 boxplot으로는 단변량 변수의 수치를 시각화하여 확인하였다면, 이 변량 변수를 사용하여 상관성을 볼 수도 있습니다.

[Fig.14] Boxplot

PCAplot은 여러 변수의 변량을 주성분(Principal Component, 서로 상관성이 높은 여러 변수의 선형 조합으로 만든 새로운 변수)으로 요약, 축소하는 방법으로 먼저 Screeplot을 이용하여 주성분의 수를 정하고 이를 바탕으로 아래와 같은 PCAplot, Biplot을 그려 분포와 주성분 간의 관계를 확인합니다. 각 주성분이 차지하는 분산의 누적비율을 계산해서 각 주성분이 전체 분산 중 얼마만큼 설명해 주는지를 알 수 있습니다.

[Fig.15] PCAplot


탐색적 데이터를 공부하면서 ‘맛있는 요리’를 만들기 위해서는 가장 먼저 ‘맛있는 음식재료’를 준비해야 하듯이 데이터 분석에서 맛있는 음식재료라고 할 수 있는 EDA가 중요하다는 말이 인상 깊었습니다. 가장 기본적인 원 데이터를 다양한 방면에서 데이터를 관찰하면서 인사이트를 이끌어 낼 수 있다는 것이 EDA의 큰 장점인 것 같습니다. 위의 실습 스크립트도 함께 첨부하니 함께 공부할 수 있으면 좋겠습니다! 이번 블로그를 통해서 탐색적 데이터 분석의 전반적 흐름과 중요성을 알 수 있는 시간이 되었으면 좋겠습니다. 감사합니다.




작성자 : AIDX A.I. Lab 박주희 개발자

Posted by 人Co

2020/11/08 16:34 2020/11/08 16:34
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/361

자동차 대시보드의 UX 디자인 트렌드



오늘은 자동차 산업의 변천사와 적절한 예를 중심으로 자동차 대시보드의 UX는 어떻게 적용될 수 있는지 함께 살펴보도록 하겠습니다.

생물정보 기업인 저희 인실리코젠에서 웬 자동차? 라는 의문이 들 수 있지만, 인실리코젠의 IX팀은 생물정보뿐만 아니라, 사용자가 접하는 모든 수단에서 어떻게 하면 보다 편리하고 직관적으로 사용성을 누릴 수 있을지 UX 적 관점에서 다방면으로 고민하고 있습니다.

따라서 이번 블로그에서는 UX 적 측면에서 바라보는 자동차 산업, 그중에서도 대시보드와 관련한 UX 디자인 지식을 공유하는 장으로 삼고자 합니다.


 


인간이 이용하는 이동 수단은 문명 발달과 함께 지속적인 형태의 변화 과정을 거쳐 왔습니다. 아래 [Fig. 1]처럼 사람에서 동물로, 사람에서 엔진으로, 그리고 현재 수소나 전기와 같은 대체 에너지로 동력의 원천이 변화하였고 이는 그동안의 개별 이동 수단 형태 변화의 결정적인 원인이었습니다. 더 나아가 소나 말과 같은 이동 개념의 탈것이 운전자 조작 중심의 자동차 산업으로 바뀌었습니다. 현대 기술의 발달로 현재 자율 주행 자동차가 등장하며 운전자 중심에서 탑승자 중심으로의 자동차 개념의 변혁을 앞두고 있습니다. 이러한 자동차의 기능과 가치의 변화에 따라 UX(User Experience, 사용자 경험) 디자인 또한 어떻게 탑승자를 만족하게 해 줄 수 있을지 새롭게 고민해야 할 시점이 온 것입니다. 최근 자동차의 UX는 관련 산업의 성장에 가장 중요한 요소로 작용하고 있는데요, 그중에서도 자동차 대시보드는 그동안의 전통적인 기능적 구성요소에서 새로운 사용자 경험을 제시하는 중요한 부분으로 주목받고 있습니다.
 




일반적으로 우리가 타고 있는 내연기관 자동차는 엔진의 시대에 만들어진 엔지니어링을 근간으로 하는 기계입니다. 자동차는 과거 공업이 발달한 뒤부터 내부에 동력원을 갖춘 형태로 지금까지 발전해 왔고, 자동차의 역사는 산업 발전의 역사와 같다고 말할 수 있을 정도로 오늘날 자동차 산업은 빠르게 발전해왔습니다. 과거 엔지니어링 위주의 자동차는 2000년대 초 정보혁명을 기점으로 사용자중심의 단순한 정보표시장치개념의 UI에서 발전한 전자화가 진행되었고 이때, UI(User Interface, 사용자 인터페이스) 개념이 본격적으로 다루어지기 시작하였습니다. UX(User Experience, 사용자 경험)는 사용자들의 니즈를 충족시켜주며 자동차의 가치를 창출하는 데 사용되고 있으며, 앞으로 자동차 디자인의 방향성을 제시할 중요한 방법론 중 하나로 자리매김 하였습니다.


[Fig 1] 지금의 자동차가 생기기까지 이동수단의 변화 과정


이렇듯 동력원의 발달과 동시에 인터랙션 기반의 정보, 커뮤니케이션 기술 발달로 자동차는 변혁기를 맞이하였으며, 현재 환경오염과 화석 연료 고갈로 내연기관에서 대체연료를 활용하는 새로운 모빌리티가 등장하고 있고 자율주행 등의 지능화가 더해져 새로운 패러다임으로 전환되고 있습니다. 이러한 변화의 흐름에 따라 자동차의 내연기관과 자율주행이 결합한 플랫폼이 등장하고 있습니다. 오늘날의 차량은 기술 발달에 따라 사용자의 니즈를 충족시켜 줄 전체적인 기능은 많아졌지만, 자동차 대시보드의 외형 디자인은 오히려 과거의 차량보다 단순해졌다고 볼 수 있습니다.


자동차 산업은 1910년대 초기 대중화 시대부터 굵직한 세계정세와 그에 따른 산업 구도의 변화와 함께 근현대까지 다양한 유행을 거쳐 왔습니다. 4차 산업혁명이 도래한 현재, 인공 지능 기술과 IT기술이 결합하여 전자 제품을 다루듯 탑승자에게 색다른 내부 환경을 제공해 주고 있습니다.



[Fig 2] 자동차의 가치 변화에 대한 타임라인 (1910~1940)
 
 

[Fig 3] 자동차의 가치 변화에 대한 타임라인 (1950~1980)
 

자동차의 역사를 들여다보면 당시 시대 상황에 따라 자동차가 갖는 다양하고 재미있는 의미들을 발견할 수 있습니다. 자동차는 ‘위대한 개츠비’의 한 장면처럼 일부 부유한 사람들의 신분 과시를 위한 사치품이었던 적도 있었으며 최초의 고속도로 개발로 빠르게 달리고 싶었던 당시 운전자들의 욕구 때문에 자동차의 속도가 중시되기도 했습니다. 자동차가 더욱 대중화되고 개발 열기가 불타오르면서 대중들의 니즈를 충족시켜줄 일부 차량이 유행을 불러오기도 했습니다. 이러한 일련의 과거 상황을 되새겨보면 자동차 산업은 그 어떤 산업 못지않게 여러 환경에서 다양하게 발전해왔고, 대중들은 시대 상황에 따라 자동차에 다양한 가치를 부여했음을 짐작해 볼 수 있습니다.



자동차는 기술 융합에 따라 더 이상 이동성만 갖춘 기계 중심의 제품이 아닌, 전자 중심의 전자 기기 제품으로 변화하고 있습니다. 사용자가 차량을 통해 얻을 것으로 기대하는 경험의 양과 질이 이전과는 비교할 수 없이 증대하였습니다. 단순히 기능적인 필요뿐만 아니라 감성적 만족도 중요해졌는데요, 이러한 기술 융합은 다양한 업체 간의 제휴와 협력이 활발하게 이루어지면서 그 면모가 두드러지게 나타나고 있습니다. 한마디로 자동차-IT 융합으로 인한 모빌리티 패러다임이 변모하고 있는 것이라 할 수 있습니다.
 


[Fig 4] 차종범, 자동차 생태계의 확장을 알리는 IT 총아 자동차 산업 전망 
 

세계적인 IT 기업들도 지금은 자동차 내에 탑재되는 IT기기와 소프트웨어를 제공함으로써 더 이상 자동차는 이동수단 개념의 제품이 아닌 타고 다니는 전자 제품이라고 할 수 있을 것입니다.

전자신문사에서 정의하는 스마트 자동차 산업에서 지금의 자동차는 기술 발달에 따라 단순히 운전에 필요한 정보만 전달받는데 그치지 않고 안전성, 편의성, 유희성, 친환경성, 카 라이프 유용성과 같이 5가지 요소를 기반으로 하여 사용자에게 자동차의 가치를 제공해주고 있다 말하고 있습니다. 먼저 안전성은 주행 과정 중 사고를 예방하는 등 운전자를 사고로부터 보호해 주는 기능을 갖추고 있고 편의성은 자동주차와 같이 운전 중이나 주차 과정에서 편리하도록 해 주는 기능입니다. 유희성은 자동차 내에서 고품질의 음악을 들을 수 있게 해주며 동승자의 경우 영화나 드라마와 같은 영상을 감상할 수 있는 기능을 제공합니다. 친환경성은 주행 중 배기가스를 모니터링 할 수 있도록 해주며 이와 동시에 에너지 절감 등 친환경 서비스를 제공하는 기능이라고 할 수 있습니다. 카 라이프 유용성은 주행 중 음성 인식을 통한 내비게이션 조작, 인터넷 검색, 에어컨 및 오디오 작동을 할 수 있는 기능을 말합니다.

[Fig. 5] 스마트 자동차 산업의 5가지 가치

이처럼 자동차 내에서 누릴 수 있는 UX는 다방면으로 변화하고 있고 관련 기술이 현재까지도 발전하고 있습니다. IT 기술이 차량에 적용되기 전을 생각해보면 시야가 닿지 않거나 무의식중에 겪을 수 있는 크고 작은 안전사고들을 예방할 수 있도록 보조해줄 수 있게 되었고, 단순히 운전만 해야 했던 과거 주행 환경은 휴대폰에 잭을 꽂거나 차량에 직접 음원 파일을 등록하여 음악 감상 및 동영상 시청을 할 수 있게 되었습니다. 더 나아가 현재는 스마트폰과 블루투스를 연결하여 음악을 듣거나 탑승자가 즐겨 듣는 음악들을 누적하여 차량 내 인공지능 시스템을 통해 탑승자에게 음악 추천도 해주는 상황까지 발전하였습니다. 인공지능 시스템의 발달은 음성만으로 내비게이션이나 에어컨 등을 작동시킬 수 있고 스마트홈 서비스와 연동하여 운행 중 집 안의 Iot 기기들까지 제어할 수 있게 된 시점까지 올 수 있게 해주었습니다. 이처럼 새로운 기술들이 등장할 때마다 탑승자가 얻게 되는 UX는 지속해서 발전을 거듭하고 있고 앞으로의 UX는 자율주행 자동차가 등장함에 따라 운전자 중심이 아닌 탑승자 중심으로 제공될 수 있도록 해야 할 것으로 볼 수 있습니다.


자동차의 대중화를 불러일으켰던 포드 모델T 시기의 대시보드를 살펴보면 지금의 자동차와 확연히 다르다는 것을 알 수 있습니다. 1910년대 자동차 내부 디자인은 엔진룸과 실내룸을 나누는 단순히 격벽 형태로 승객석 주변과 시트의 장식 위주로 진보를 거듭하다가 1930년대 운전자의 시인성과는 무관하게 수평형 대시보드 전 부분에 계기 장치가 배열되었습니다. 그 후 1940년대부터 지금의 센터스택Center stack(Center facia + Center console)이 위치하는 대시보드 중앙으로 계기장치가 모이기 시작합니다.

 

[Fig. 6] 연도별 대시보드 형태

 대시보드 인터페이스의 구성요소들을 살펴보면 초기 자동차의 경우 단순히 엔진룸과 실내룸을 나누는 형태였습니다. 자동차 관련 기술이 발달하지도 않은 상태여서 계기판, 자동차 시동을 거는 물리적 버튼만 존재했다고 볼 수 있습니다. 이후 기술적 진보와 함께 오디오, 에어컨 기능이 대시보드에 탑재되며 이를 작동시킬 물리적 버튼 또한 차례로 늘어났으며, 이 시기에 대시보드의 구성 요소는 초기 자동차보다 규칙 없이 배치되었습니다. 자동차의 전자화가 진행 된 후 DMB, 내비게이션 등을 활용할 디스플레이가 차량에 탑재되며 이와 함께 주요 기능들이 센터스택으로 모이기 시작하였고, 이러한 구성은 현재까지 유지되고 있습니다. 자동차의 대시보드는 점진적으로 그 형태의 변화를 이루어내다. 스마트화, 자율주행 등 현대 기술이 자동차에 반영되며 급진적 변화를 맞이하고 있습니다.
 

[Fig. 7] 자동차의 대중화 초기부터 근 미래까지 대시보드 변화 추이 분석

 
 

 


[Fig 8] UX적 가치와 미래 동향 대시보드 키워드의 상관관계

자동차의 전자제품화, 자율주행차 시대의 도래, 차량 내 엔터테인먼트 요소의 혁신적 발달 등 자동차 산업이 현재 나아가고 있는 방향을 토대로 향후 대시보드 디자인의 키워드를 교감 (Communion), 연결(Connect), 신뢰(Confidence)와 같이 3가지로 제시해 볼 수 있습니다. 사용자의 감성 가치 향상에 따라 전자 제품에 대한 UX 디자인의 중요도가 커지고 있고, 제품의 사용성을 극대화 시키기 위해 UX 시나리오가 설정되고 있습니다. 이 같은 UX 디자인을 대시보드 디자인과 연관 지어보면 자동차와 탑승자 간의 상호작용을 구현하기 위해 대시보드를 매개체로 사용하는 것이라고 볼 수 있습니다.

그 중 교감(Communion)은 탑승자가 차량을 이용하면서 누적되는 다양한 요소들, 이를 테면 차량 내부의 온도, 날씨, 시간대에 따른 길 안내, 음악 재생, 가족이나 당사자와 관련된 각종 이벤트 안내 등을 굳이 조작하여 실행시키지 않아도 탑승자에게 추천해주고, 여부를 묻고, 실행시켜주는 인공지능 시스템으로 상호 교감하여 작동되는 대시보드 디자인이 구현될 것입니다.

연결(Connect)은 전자 기기들의 스마트화 그리고 라이프스타일의 변화로 이루어진다 볼 수 있습니다. 스마트 카와 스마트 홈의 연결로 차량 내에서 집 안 스마트 기기들을 모니터링 및 제어할 수 있고, 높은 보안성도 갖출 수 있을 것입니다. 집 뿐만 아니라 외부요소 즉 도시의 기구 및 인프라 (주차장, 신호등, 차량 공유 시스템)와도 연결되어 교통 데이터 수집 여건이 개선되고 안전 시스템 구축으로 인해 안전한 탑승환경이 제공될 수 있을 것입니다.

그리고
신뢰(Confidence)는 자율주행 기술이 도입되며 가장 큰 문제로 떠오르는 안전 문제에서 기인한 것입니다. 완전 자율 주행 상태로 탑승자가 느낄 사고에 대한 불안감을 해결해주는 것이 가장 중요하며, 이는 대시보드의 직관적인 UX로 개선해 나아 갈 수 있습니다. 탑승자가 차량의 위치를 인지하고 있지 않더라도 대시보드 화면이나 스마트폰을 통해 지속해서 확인할 수 있도록 하며 주행 중 사고나 고장이 나더라도 구조 요청이나 보험사에 자동으로 자동차의 상태를 통보하여 조치를 받을 수 있게 해야 할 것입니다.


 

 
작성자 : IX팀 박성수 UI/UX 디자이너
 

Posted by 人Co

2020/10/25 21:47 2020/10/25 21:47
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/360


이번 16주년은 코로나 시대에 맞춰 비대면 온라인 기념식으로 간단히 진행되었습니다.

코로나 감염을 예방하기 위하여 마스크를 계속 착용해야 하는 불편함이 있지만 인실리코젠 직원들 모두 잘 실천해주셨습니다.

또한, 올해는 바이오 테크 분야에서 인공지능 기술의 선두를 위하여 인실리코젠의 자회사, AIDX를 설립하여 어려운 시기에도 한 단계 더 나아가게 되었습니다.

항상 느끼는 거지만 가을 하늘은 사계절 중 높고 푸르고 멋있는 것 같습니다.
인실리코젠 창립기념일에 항상 푸른 하늘을 볼 수 있어서 기쁩니다.



올해 인실리코젠에서 열정적으로 일하신 지 5, 10주년이 되신 분들을 위해 24K 황금열쇠를 준비하였습니다.
마음의 소리 : 금값 많이 올랐다는데..이런걸 준비해주시다니... 감동 :)





먼저 "생물정보 공유의 장"이라는 슬로건으로 2014년에 오픈한 인코덤(http://www.incodom.kr)의 역사를 되돌아보는 시간을 가졌습니다. 꾸준히 늘어가는 콘텐츠와 접속자 수에 우리 모두의 노력에 대한 보답과 뿌듯한 마음을 가졌으리라 여겨집니다.






이러한 결과에는 우리 모두의 노력을 이끌어내느라 수고해주신 지난 6년간 총 11분의 MD 분들이 있었습니다. 박선영 MD의 소감을 들어보겠습니다.





  • 박선영 - MD 협의회 3기




먼저 2년간 MD 협의회를 운영하면서 보이지 않게 어려움도 많았지만, 잘 이끌어주시고 도와주신 선배님들께 감사드리고, 글을 잘 작성해주신 인코인 여러분들께도 감사드립니다. 사실 글을 쓴다는 것이 단순히 있는 정보를 취합하는 것이라고 해도 내 언어로 쓰는 게 쉬운 일이 아닙니다.

여기서 귀찮음도 있고, 창작의 고통이 있을 수 있는데요, 그럼 그 대가는 무엇일까 생각해봤을 때 여러 가지가 있지만, 그 중 첫 번째는 내 지식수준이 올라가는 것이라고 생각합니다. 글을 단순히 옮기든 내가 풀어쓰든 조금이라도 관련 자료들을 읽게 되고 글을 쓰면서 해당 내용이 습득되고 정리가 되는 경우가 많은 것 같습니다.

현재 글 작성 독려를 위해서 보상제도도 생기고, 글을 쓰는 기준이 완화 및 자율화가 되었지만, 앞으로 작성 편집기나 QnA 창 등을 개선해 나가면서 글쓰기도 쉽고 더 활성화된 인코덤 사이트가 되길 바라고 있습니다.

앞으로 인코덤(incodom.kr) 개선을 위한 좋은 아이디어가 있으면 설문지나 MD 협의회를 통해 언제든지 말씀 부탁합니다. 남은 기간까지 마무리 잘하도록 하겠습니다. 감사합니다.




  • 심재영 - 10년 장기근속자



제가 2010년 3월 2일부터 출근해서 2020년 3월 3일까지 인실리코젠 소속이었으니까 약 10년 하고 2일 정도 인실리코젠에서 근속했었네요. 감개무량합니다.

연초에 디이프로 발령을 받고 나서 혹시나 이 자리에 서지 못하면 어떡하나 하는 쓸데없는 걱정을 잠깐 했는데 이렇게 축하해 주셔서 감사합니다.

어떻게 10년을 다닐 수 있었을까? 스스로 저를 냉정히 판단해 봤습니다. 입사 당시 저는 특별히 잘하는 건 없고, 그냥 여러 분야에 호기심만 많아서 딱히 어디 쓰기 모호한 사람이었습니다. 끈기도 집중력도 없었습니다. 이런 단점을 극복하고 살아남기 위해 오랜 시간 발버둥 쳤는데요, 스스로 의지가 있더라도 환경이 받쳐주지 않으면 할 수 없었을 겁니다. 비록 일은 항상 힘들었지만, 무엇보다도 저를 이끌어주시고 지지해 주시는 동료들이 함께 있는 조직이었기 때문에 이 자리에 설 수 있었습니다.

작년부터 10년 근속을 1년 남겨두고, 그동안 내가 이 회사에서 무엇을 남겼을까를 계속 고민해 봤습니다. 매출에 엄청난 영향을 주는 프로젝트를 성공적으로 마무리했는가? 회사에 돈을 많이 벌어왔나? 회사의 미래 먹거리가 될 만한 신기술을 개발했나? 업무 효율을 높일 수 있는 어떤 체계나 절차 같은 것을 만들었나? 서버실 온도 감시 시스템(https://insilicogen.com/blog/226) 은 제가 생각해도 잘 만든 것 같습니다. 이거 하나는 저 자신도 인정합니다. 큰 성과는 없었지만, 여러분들이 이런 성과를 만들어 낼 수 있도록, 찡그리지 않고 웃으면서 일 할 수 있는 어떤 분위기와 문화를 만드는 데는 제가 좀 이바지하지 않았나 생각이 듭니다.

이제 이렇게 인실리코젠의 공식 고인 물이 되어서 뿌듯하고요. 이제 어떻게 10년을 보내서 썩은 물이 될까 고민을 해봤습니다.

앞으로의 10년은 돈 많이 벌고, 잘 사는 게 목표입니다. 제가 저 혼자 잘 먹고 잘살려고 이런 목표를 세우는 것이 아니라, 제 후임 분들께 이 분야에서 열심히 일하면 저 사람 보다는 잘 살 수 있겠지라는 어떤 기준이 될 수 있도록 잘 살고 싶습니다. 제가 사장님 대표님 이사님 실장님 팀장님들을 보면서 바랬던 목표보다 더 큰 목표를 여러분들이 가질 수 있도록 잘 살겠습니다. 감사합니다.


  • 김태영 - 5년 장기근속자




안녕하세요? 인실리코젠 FED팀에서 웹 UI 개발을 담당하고 있는 김태영 선임입니다.  입사해서 처음 맞은 창립기념일에서 장기근속상을 수상하신 분들이 참 대단하다는 생각을 했는데 어느새 제가 이 자리에 있다니 시간이 참 빠르다는 생각과 함께 지난 시간들을 되돌아보는 계기가 되는것 같습니다.

입사 당시 우리 회사는 프로젝트들이 한꺼번에 몰리는 특징이 있음을 알게 되었고 이런 환경에 어떻게 대응할 수 있을까 고민하는 시간이 많았던것 같습니다. 시행착오도 있었지만 작업가이드를 세우고 프론트개발용 스케폴딩을 미리 준비해서 팀원간 협업할 때 의존성을 줄여서 충돌로 소모되는 시간이 줄었고 프로젝트마다 이뤄지는 반복작업이 줄어서 지금은 보람을 느낍니다.

개인적으로는 가정에도 충실할 수 있도록 배려해주신 사장님외 많은 선배 동료 임직원 분들 덕분에 가능했던 시간이었습니다. 이 자리를 빌어 감사 드립니다.  부족하고 아쉬운 부분도 많지만 예쁘게 봐주시고 조직에 도움이 되는 일원이 되도록 앞으로 더 화이팅하겠습니다.


  • 이혜원 - 5년 장기근속자




지나가는 시간이 너무 빠른 것 같습니다. 흥덕으로 이사하고 처음 입사자였었는데, 입사 후 참석했던 시무식이 새록새록 기억에 남고,  이 사무실과 지내온 시간이 같다고 생각하니 감회가 새롭습니다. 혼자의 힘으로 지내온 게 아니라 많은 분의 도움으로 여러 해의 시간을 보낼 수 있었던 것 같고, 모두 도와주셔서 늘 감사하게 생각하고 있습니다.  더욱 발전하라는 의미라고 여기고 노력하도록 하겠습니다. 감사합니다.


  • Sardorbek Muminov - 5년 장기근속자


Wow. 5 years have passed quickly. I didn’t even realize I had worked for 5 years. The reason I didn’t notice the passage of time was probably due to interesting projects, friendly colleagues, and the healthiness and sincerity of the working environment. The first year I joined Insilicogen, I was once again convinced that I had chosen the right company quickly after a few weeks. Being a member of Insilicogen has helped me maintain work-life balance, obtain more knowledge, learn new technologies, and put them into practice. On this Anniversary I appreciate all our hard work and dedication. Congratulations on this big occasion and many wishes for future success. Happy anniversary.


  • 강전모 - 5년 장기근속자


창립기념일 하면 떠오르는 게 많습니다. 우선 제 입사일은 2015년 9월 1일로 창립기념일일 10월 1일과 딱 한 달 차이가 나지요. 2015년 10월 1일인 입사 한 달이 되었을 무렵 11주년 창립기념일에 사장님과 함께 케익을 자르던 것이 기억납니다.

또 작년이었던 15주년 창립기념일 행사도 브랜드위원회로서 함께 기획하고 사회도 진행했었습니다. 이런 추억과 경험들이 쌓이다 보니 어느덧 5년이라는 시간이 흘렀고, 인실리코젠이 성장해온 것처럼 저도 함께 성장해온 동기 같은 느낌이 드네요.

늦깎이 사회초년생으로 인실리코젠에서 사회에 첫발을 내디디고, 결혼과 자녀까지 인생의 중요한 시점을 인실리코젠과 함께 해왔습니다. 앞으로도 저희 아이가 커가듯이 저도 성장하고, 인실리코젠도 함께 성장하여 지금 5년 전 제 모습을 돌이켜보며 흐뭇하게 미소 짓는 것처럼 그때도 지금의 제 모습을 생각하며 미소 지을 수 있도록 노력하겠습니다. 감사합니다


  • 서승원 - 5년 장기근속자




우선 여러 면에서 어려운 시기를 보내고 있는 와중에도 이렇게 의미 있는 자리를 마련해주신 사장님과 정이사님께 감사의 말씀을 드립니다. 지금에 와서 생각해보면 벌써 5년? 이라는 생각도 들지만, 제 인생에 있어서 그 어느 때보다 밀도 높게 보낸 5년이었던 것 같습니다.

겹겹이 들어차 있는 인코에서의 5년이라는 시공간 속에는 때로는 힘들었던 기억들과 가끔은 재미있었던 추억들, 그리고 끊이지 않았던 오늘에 대한 고민과 놓을 수 없었던 내일에 대한 걱정들이 빈틈없이 가득 차 있었던 것 같습니다.

지금은 그 힘듦의 대부분이 성장의 원료로, 고민과 걱정의 상당 부분은 이제 미래에 대한 희망과 기대로 치환될 수 있었는데,  이것은 오롯이 생명정보를 통해 세상을 이롭게 하려는 비전 속에서 서로에게 힘이 되어주었던 모든 인코인들의 사랑과 배려 덕분이었던 것 같습니다.

지난 5년간 많이 아껴주시고 항상 지지해주셨던 모든 인코인들에게 감사드리며 앞으로도 이 인코 네트워크 시너지가 더욱 견고하게 확장될 수 있도록, 그리고 이를 바탕으로 우리가 더욱 좋은 방향으로 나아갈 수 있도록 저 역시 노력하겠습니다.

감사합니다.



장기 근속하신 인코인을 보며 모두 인실리코젠의 인재상(성실, 열정, 배려, 소통, 학습)으로 성장하였음을 느꼈습니다.

16주년 기념식을 마무리하며 사장님께서 10주년에 말씀하셨던 "경영은 주변 사람들을 행복하게 하는 것" 이라는 미시다고노스케의 경영철학에 대하여 재언급하셨습니다. 16년 동안 회사와 직원들이 성장을 리드하고 비즈니스를 확대하여 회사를 키우는 사장님의 보이지 않는 노력들의 본질(직원들의 행복-> 건강, 사랑, 경제)에 대해 알 수 있었습니다. 다음 17주년에는 인실리코젠의 자회사인 iBreeding(아이브리딩-데이터 육종기업), D.iF(디이프-데이터식품 선도기업), AIDX(에이아이디엑스-AI 의료진단기업)와 함께 더욱 성장한 회사로 찾아뵙겠습니다.


작성 : 브랜드위원회

Posted by 人Co

2020/10/11 21:28 2020/10/11 21:28
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/359

의료 영상 분석의 개요



4차 산업혁명 시대에서 인공지능은 다양한 분야에서 쓰이고 있고, 그중 의료 영역 내에서도 적용 범위가 확대되어 가고 있습니다. 영상 이미지로 정상 유무를 판정하거나 병리 영상 데이터 분석에 쓰이는 판독보조, 음성 인식 의무기록이나 생체 신호 모니터링과 같은 진료보조, 유전체 데이터 분석 기반의 신약개발 등 인공 지능 기반의 의료 진단 기술이 개발되고 있으며, 특히 의료 영상 판독 분야에서 인공지능이 매우 유용하게 쓰이고 있습니다.
 
병원에서 다루어지는 영상 이미지는 모두 디지털 이미지로, 영상의학과 전문의들이 이 디지털 이미지를 직접 보며 판단하는 아날로그적 방식에 인공지능이 들어오면서 영상 판독 시간이 5분에서 20초로 줄어들거나 두 명 중 한 명의 전문의를 대체할 수 있는 수준에 이르게 되었습니다.
이런 의료 영상 분석의 발전을 가능하게 만든 핵심 요소는 의료 영상 처리 기술과 딥러닝입니다. 딥러닝의 적용은 기존에 사용해오던 기계학습의 효율을 넘어 전문의에 따르거나 이를 넘어서는 결과들이 등장하면서 큰 반향을 일으킨 바가 있습니다.
이번 글에서는 본격적으로 의료 영상 분석을 하기에 앞서 일반 영상과 달리 의료 영상이 가지는 특성들을 알아보고, 의료 영상 처리 및 분석 기술에 대해 전반적으로 알아보며 워밍업을 해보도록 하겠습니다.



Image Acquisition


우선 이미지를 얻는 원리에 대해서 간단히 알아봅시다.
카메라의 기본 원리는 Light source로부터 빛을 쏘아서 어떤 물체에 닿으면 특정 빛이 반사되고, 이 반사된 빛을 센서로 취득해서 전기신호로 바꿔주면 명암차이로 영상이 만들어지게 됩니다. 카메라는 light source가 가시광선이고 이를 취득할 수 있는 CCD, CMOS 센서를 쓰는 데 반해, 적외선을 쏘고 이를 detection 할 수 있는 센서를 놓으면 적외선 카메라, X-ray 신호를 주고 이를 detection 할 수 있는 센서를 놓으면 X-ray 시스템이 됩니다.


[Fig. 1] Electromagnetic spectrum
 

그럼 light source에 따른 다양한 의료 영상 데이터에 대해 살펴보겠습니다.

가시광선을 이용한 의료 영상 :

  • Endoscopy (내시경) : 위, 장 내시경 검사 시 사용하는 것으로, 내시경 앞부분에 light source와 CCD 센서가 모두 있어서 영상으로 보여줍니다.
  • Microscopy (현미경) : 조직 검사 시 현미경의 접안렌즈, 대물렌즈를 이용해 작은 물체를 크게 확대해서 보여줍니다.

방사선을 이용한 의료 영상 :

  • X-ray : X-tube에서 light source를 내보내고 몸을 통과하는데, 각 부위 조직의 투과된 x-ray intensity 차이로 영상을 만들어냅니다.
  • CT (Computed Tomography) : 인체의 단면 주위를 돌며 다각도에서 x-ray 영상을 찍고, 여러 장의 2D x-ray 이미지를 합쳐 한 장의 3D 영상 이미지로 만듭니다. 수 초 내로 짧은 시간 안에 3D 영상을 얻을 수 있지만, 방사선에 노출되고 조영제를 사용하여 몸 밖으로 배출이 잘 안 될 수 있다는 것이 단점입니다
  • PET (positron emission tomography) : 양전자를 방출하는 방사성 의약품(방사성 포도당)을 몸에 주입 후, 인체의 360도에서 이를 detection 후, 3D 영상 이미지로 만듭니다. 포도당 대사는 암세포에서 비정상적으로 높으므로 PET에서 밝게 나와 암 조기진단에 유용하게 쓰입니다. 신진대사를 볼 수 있어 조기진단이 가능하지만, 방사선을 몸에 주입하고 비싸다는 단점이 있습니다.

자기장을 이용한 의료 영상 :

  • MRI (Magnetic Resonance Imaging) : light source는 아니지만, 자기장을 걸어주어 몸 안의 수소 원자들이 근육, 지방 등 tissue에 따라 도는 속도의 차이를 바탕으로 3D 영상을 만듭니다. 방사선 노출이 없어 몸에 유해하지 않고, brain처럼 soft tissue들을 잘 구분해서 볼 수 있으나, 비싸고, 찍을 때 소음이 나며, 영상을 얻는 데 시간이 오래 걸리는 단점이 있습니다.

이 밖에 심장, 태아 검사를 위한 초음파나 망막 단층검사를 하기 위한 근적외선을 이용한 영상 등이 있습니다.


Digital Image Acquisition

이렇게 찍은 영상들은 디지털화를 하는데요, 격자로 쪼개서 화소들의 이차원 배열로 표현하는 sampling, 각 화소의 컬러 범위를 결정하는 quantization을 거칩니다.

[Fig. 2] Digital image acquisition process

이때, 디지털화된 이미지는 다음의 요소들로 표현합니다.

  • Resolution : Sampling이 이루어지는 매트릭스 갯수 (이미지 사이즈)
  • Intensity : 각 sampling point (2D에서는 pixel, 3D에서는 voxel) 에서의 값
  • Gray level : quantization의 단계 (보통 0~255까지 256레벨)
 
 

 
PACS (Picture Archiving and Communication System)

그렇다면 이 디지털 이미지가 병원 시스템에서 어떻게 동작할까요? 영상 장비에서 얻은 디지털 의료 영상 이미지는 병원의 PACS 서버로 전송되고, 의사들이 client system을 이용해서 영상을 띄워서 봅니다.
 

[Fig. 3] PACS system

여기서 PACS는 의료 영상 저장 전송 시스템을 말하며, 디지털 영상 이미지를 DICOM이라는 국제표준 규약에 맞게 저장, 가공, 전송하는 시스템입니다. DICOM으로 저장될 때 판독결과와 진료기록이 추가될 수 있고, 네트워크를 통해서 병원 내외의 단말로 전송할 수 있습니다.

DICOM (Digital Imaging and Communications in Medicine)

그럼 의료 영상을 다루기 위해 DICOM에 대해 더 살펴보겠습니다. DICOM은 의료용 기기에서 디지털 영상 표현과 통신에 사용되는 표준을 총칭하는 말로 북미방사선학회(RSNA)에서 1990년대에 정한 국제 표준입니다. 의료 빅데이터를 분석할 때 데이터를 표준화하고 정제하는 것이 어려운데, 여러 분야 중 그나마 영상 분석이 수월한 것은 이 DICOM 국제 규약에 의해 표준화 돼있기 때문일 것입니다.
하나의 DICOM single format (.dcm)은 기본적으로 header와 image 정보가 있습니다.

  • Header
    • header에는 태그별로 환자 정보, 영상 취득 날짜 등 부가적인 meta 정보를 담고 있습니다. 주로 참고할 만한 태그로 (0008,~)에는 modality 및 study에 대한 정보, (0010,~)에는 환자 정보, (0028,~)은 dimensions 및 scale 등 이미지 정보들을 담고 있습니다.
    • (0028,~) 이미지 정보 예시로는 3차원 이미지의 x,y,z가 몇 개의 voxel로 구성되어 있는지 나타내는 dimensions, 한 voxel의 x,y,z가 각각 몇 mm인지 나타내는 voxel spacing, 영상마다 보기에 최적화된 pixel 범위 기준인 window center, window width 등이 있습니다.
    • 이 header 정보들은 이미지에서 필요부분을 추출할 때 기준방향과 pixel 및 voxel의 실제크기 등 변환 연산에 필요한 정보로 이용되고, 이런 정보들을 바탕으로 이미지들의 voxel spacing을 맞춰야 유의미한 분석이 됩니다.


[Fig. 4] 프리웨어인 Sante DICOM Viewer 프로그램을 이용하여 본 한 장의 DICOM 파일의 header 정보


  • Image data
    • 압축된 비트맵(bitmap) 또는 압축되지 않은 형식(jpeg, gif..)의 이미지 정보를 담고 있습니다. 이미지 매트릭스에 한 pixel마다 intensity 값이 있습니다.
 



[Fig. 5] 프리웨어인 Sante DICOM Viewer 프로그램을 이용하여 본 한 장의 DICOM 파일 이미지



이외에 Nifti (nii) 등 다른 포맷들이 있는데, 파일이 두 개로 나누어져 있는 경우 영상 정보와 헤더 정보가 따로 있습니다. (예시: Analyze (hdr/img), Raw data (mhd/raw))

 


 
의료영상을 시각화하여 확인하기 위해서는 다음과 같은 도구를 이용합니다. 간단한 사용방법과 직관적인 사용자 Interface를 갖고 있는 Sante DICOM Viewer, segmentation을 잘 그려주는 것이 장점인 ITK-snap, 병리 영상 분석에 최적화된 Qupath, 이 밖에 MITK, MRICron, 3D Sicer, ImageJ 등을 활용합니다.
 


[Fig. 6] ITK-SNAP 을 이용한 brain MRI
 
그림과 같이 ITK-SNAP를 이용했을 때 3차원 상에서 이미지를 보고 헤더 정보도 별도로 확인할 수 있습니다. Contrast를 조절해서 특정 영역만 보는 등 기본적인 이미지 프로세싱을 서포트하고, 원하는 영역을 segmentation 해서 여러 장을 그리면 쌓아서 3D volume 이미지로 볼 수 있습니다.

3D 영상은 3가지 방향에서 볼 수 있는데, top-down 방식의 axial 뷰, 몸을 left-right로 나누는 sagittal 뷰, anterior-posterior로 나누는 coronal 뷰가 있습니다.
 

[Fig. 7] Image reconstruction planes


 
 
의료 영상은 일반 영상과 확실히 다른 특징들을 보입니다. 그러므로 분석 시 고려해야 할 사항들이 있는데요, 몇 가지를 나열해 보자면 다음과 같습니다.
의료 영상은 대량의 데이터를 얻기 힘들고, 지도학습에 필요한 레이블 정보를 얻는 것은 더욱 어렵습니다. PACS 시스템을 이용해서 병원마다 많은 영상 데이터는 있지만, 제도적, 사회적 이슈로 인해 데이터 접근이 쉽지 않고, 병변의 위치를 레이블링하는 것도 숙련된 전문의의 판독이 필요한데 PACS에서 얻는 영상들은 레이블링이 되어있지 않은 경우가 많으므로 필요한 데이터 자원을 최소화하면서 좋은 성능을 기대할 수 있는 방법론의 개발이 중요합니다.
또한, 3D 영상이 많고 영상의 크기가 상당히 큽니다. 2015년 이미지넷 대회에서 1위를 차지한 영상 분류에서 기준 영상은 짧은 변 기준으로 최대 640픽셀 크기를 입력으로 받았는데, 흉부 X ray영상은 한 변이 2,000픽셀 이상이고 유방촬영영상은 4,000픽셀이 넘으며, 병리 영상은 10만 픽셀보다 큰 경우가 대부분입니다. 연산 능력을 감당할 수 있는 환경이 필요한 것뿐만 아니라 이를 효율적으로 처리할 수 있는 알고리즘의 개발이 필요합니다. 그리고 객체의 크기가 상대적으로 굉장히 작은 경우가 많기 때문에 이를 잘 검출할 수 있는 기술도 필요로 합니다.
이 밖에 같은 질병의 같은 조직 영상이라도 나이에 대한 보정이 필요하고, 영상 이미지 외에도 성별, 흡연, 음주여부 등의 기타 정보들을 분류 분석에 사용하기도 합니다.
 
 

 
의료 영상 데이터를 이용한 여러 분석 중 4가지 문제를 간단히 살펴보겠습니다.
Classification
전형적인 computer vision 문제로, 영상 이미지를 보고 정상인지 환자인지 분류합니다. 보통 의료 영상 분석은 분류하는 것이 주목적입니다.
Segmentation
영상에서 organ(장기)나 nodule(결절)과 같이 관심 있는 특정 영역을 추출합니다. intensity값으로만 구분하는 thresholding, 시작점과 비슷한 값을 assign해 나가는 “seeded” region growing 등 다양한 방법이 있습니다.
Enhancement
영상에 noise가 있거나 해상도가 낮은 경우 영상 퀄리티를 높이는 방법입니다. Intensity의 분포를 가지고 value를 바꿔주는 histogram processing, pixel 주변을 보고 블러를 통해 노이즈를 감소하는 smoothing 및 영상의 edge 부분을 강조하는 sharpening과 같은 spatial filtering이 있습니다.
Registration
각기 다른 영상들을 모았을 때 비교할 수 있게 잘 맞춰주는 방법입니다. 파노라마나 시차를 두고 영상을 취득했을 때 이미지를 합침으로 이미지가 이어진다거나 차이점을 볼 수 있게 하는 방식입니다.
 
 

 
의료 영상 분석을 위해서 기계학습은 지난 몇십 년간 매우 유용하게 사용됐고, 가장 보편적인 용도 중 하나가 병변 또는 장기와 같은 대상을 병변 또는 비병변, 악성 또는 양성종양처럼 특정 부류로 분류하는 것이었습니다. 이때, 기계학습은 특징 입력을 통해 클래스(암 또는 비암) 분류를 위한 최적의 경계를 설정하고, 새로운 미지의 객체(병변)가 속한 클래스를 찾는 데 쓰였습니다. 마치 동그랗고 주먹보다 작은 특정 사이즈에 노란 형광 빛을 가진 특징을 가진 것이 테니스공이라고 분류하듯이요. 그런데 이것은 병을 못 찾거나 오진을 만들어내며 문제점이 많았었습니다. 이후, 딥러닝이 도입되면서부터 이미지 입력을 통해 분류 성능이 월등히 좋아지고 인간의 영상 인식 수준을 넘어서는 결과를 보이기도 하였습니다. 그냥 처음부터 테니스공 이미지를 보여주고 학습을 시키는 것이지요.
 

[Fig. 8] 딥러닝 도입 전후 기계학습
 
딥러닝이 도입된 이후 기계학습은 분할(segmentation), 수작업 특징 추출(handcrafted feature extraction) 및 특징 선택(feature selection) 단계가 필요하지 않고, 분할 오류나 비효율적인 기능을 피하면서 end-to-end 머신러닝 패러다임을 제공합니다. 이때 대표적으로 쓰이는 모델이 CNN(convolutional neural network)이고, 최근에는 GAN (generative adversarial network)도 활발하게 적용되고 있습니다. 서로 다른 영역의 영상 간의 번역이나 변환에 사용되며 시간과 비용을 단축하거나 판독의 정확도를 향상하는데도 활용이 되고 있습니다.
 
 

 
이상 의료 영상 분석을 하기 위해 기본적으로 알아야 할 배경 지식과 전반적인 개념에 대해서 살펴보았습니다. 현재 환자의 CT영상을 통해 코로나 19로 인한 폐렴 병변을 정량화하는 등 국내외에서 인공지능 기반의 많은 의료 영상 분석 소프트웨어들이 개발 및 활용되고 있습니다. 향후 의료 영상과 유전체 정보를 통합하여 분석함으로써 질병의 조기진단 및 예후 예측, 환자들의 삶의 질 향상을 가능케 하리라 봅니다. 이 글에서 딥러닝 알고리즘이나 수식 등 분석에 대해 깊이 다루지는 않았지만, 의료 영상 분석을 시작하는데 앞서 기본 내용을 이해하는 데 도움이 되길 바라며 글을 마칩니다.
 
 

 

Posted by 人Co

2020/09/27 18:26 2020/09/27 18:26
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/358



« Previous : 1 : 2 : 3 : 4 : 5 : ... 36 : Next »