바로가기 및 건너띄기 링크
본문 바로가기
주메뉴 바로가기

발간보고서

home > 자료실> 발간보고서

글자크기

미래 제약 경쟁력을 갖추기 위하여 in-silco 바탕의 접근법이 필요한 이유

미래 제약 경쟁력을 갖추기 위하여 in-silco 바탕의 접근법이 필요한 이유 : 작성자, 카테고리, 작성일, 조회수, 원문,출처, 정보 제공
작성자 관리자 카테고리 전문가 인사이트
작성일 2015-11-18 조회수 2,993
원문
출처

미래 제약 경쟁력을 갖추기 위하여
in-silco 바탕의 접근법이 필요한 이유

경력사항
  • 2007-2011 Dana-Farber Cancer Institute 생물통계 및 계산생물/
    포스트닥 연구원
  • 2011-현재 Takeda Pharmaceuticals International 중개의학/연구원
학력사항
  • 1998, 서울대학교 전기컴퓨터공학 학사
  • 2001-2006 텍사스오스틴대 전기컴퓨터공학 석·박사
전문가
신현진
다케다 제약 보스턴,
연구원
이제 많은 산업분야에서 big data를 만들어내고 활용하는 시대로 들어섰다. 이 글에서는 제약산업에서 생산되고 쓰이는 big data의 종류와 그러한 big data를 분석하기 위한 여러가지 방법들이나 활용 분야에 대해서 소개할 것이다. 특히 이번에는 drug discovery/development에서의 genomic데이타와 computational biology의 활용을 통한 바이오마커 발견과, 데이타마이닝의 기술을 통한 체계적인 drug positioning/repositioning에 대해서 다루도록 하겠다.

목차(Table of Contents)

Ⅰ. 서론(Introduction)

Ⅱ. 본론(Main Subject), 실사 활동

  1. 제약 및 바이오 산업에서의 big data
  2. Drug discovery와 development에서의 computational biology와 데이타 마이닝
  3. Systematic drug repositioning/repurposin

Ⅲ . 결론 및 시사점(conclusion)

Ⅲ . 참고문헌 및 출처(Reference)

Ⅲ . 약력(Profile)

이미지1

Ⅰ. 서론(Introduction)

요즘에 여러 산업에서 big data가 화두이다. 보통 big data란 하나의 database의 역량을 넘어서는 정형 또는 비정형의 데이타의 집합을 의미한다. 컴퓨터와 알고리즘이 개발되면서 예전에는 활용할 엄두를 내지 못했던 이러한 big data를 분석해서 새로운 부가가치를 창조하는 시도가 산업전선의 여러 곳에서 이루어지고 있다. 예를 들어, 미국의 가장 큰 전자상거래 업체인 Amazon같은 경우에는 수년간 쌓아온 소비 자들의 구매 패턴을 분석해서 그 소비자들에게 가장 필요하고 선호된다고 여겨지는 상품들을 다음 번 사이트나 심지어는 이메일 사이트를 방문했을 때 권하곤 한다. 다른 회사들, 구글이나 페이스북도 마찬가지로 가입자나 이용자의 데이타를 분석해서 이용자들 개개인에 최적화 된 서비스를 제공하는 기술을 계속해서 발전시켜 왔으며 그 활용도는 사실상 무궁무진하다고 할 수 있다.
이러한 흐름은 제약산업과도 무관하지 않다. 미국의 경우에는 제약/바이오 업계, 학계, 그리고 병원 연구소에서 지금까지 많은 양의 생물 그리고 임상 데이타가 생산되어 왔다. 많은 이들이 현재까지 축적된 이러한 데이타를 어떤 식으로 가공해서 health care의 많은 분야들, 즉 진단, 치료, 그리고 치료방법의 개발, 에 활용 할지 활발한 논의를 진행시키고 있으며, 실제 사용사례를 축적하고자 꾸준히 노력하고 있다. 예를 들어서, The Cancer Genome Atlas (TCGA) 컨소시엄은 현재 수 천명의 각종 암환자의 유전체 및 단백질 데이타를 몇 년에 걸쳐서 축적해 왔으며 대용량의 데이타의 분석을 통해서 암의 발병 메카니즘을 연구하고 있다 (http://cancergenome.nih.gov/). 다국적 제약회사에서도 이러한 데이타를 적극적으로 이용하여, 치료제의 발견/개발과 동시에 약에 반응하는 환자 군을 찾기 위한 바이오마커 개발을 서두르고 있다. 뿐만 아니라, 오바마 행정부의 electronic medical record (EMR) 또는 electronic health record (HER)의 사용 권장 이후, 미국에서는 벌써 과거 또는 현재의 환자의 건강기록을 적절한 quality control(QC)를 거쳐 가공한 다음, 대형제약회사에 팔려는 사업들이 구상되고 있다. 이 데이타가 약들의 처방 투약, 그리고 약의 기전들과 같이 맞물려서 연구가 되면, 약들의 장/단점과 환자들의 특성을 고려하여 최상의 맞춤치료 (precision or personalized medicine)을 제공할 수 있게 되며, 또한 새로운 신약을 개발하는데 유용하게 쓰일 것이다. 한걸음 나아가서 현재까지 개발된 약들의 기록들이 현재의 유전체 데이타와 결합이 된다면, 지금 시장에 나와있거나 아니면 적어도 독성테스트에 통과된 후보 약물들이 새로운 질병으로 reposition할 수 있는 길이 열리게된다.
이 글에서는 현재 미국 제약/바이오 산업에서 어떤 종류의 데이타가 만들어지고 어떤 식으로 사용되어지며, 이러한 데이타를 효과적으로 분석할 수있는in-silico방법들과 접근법들을 정리하고 논의할 것이다. 그리고 더 나아가서 과거로 부터 축적되어진 여러 종류의 데이타들이 우리가 모르고 있었던 금광맥으로 어떻게 다시 탄생할 수 있는지에 대해서 언급할 것이다. 그리고 마지막으로 big data시대를 맞아 우리나라 제약 및 바이오 업계도 이러한 정보산업을 지렛대로 삼아 새로운 제약강국으로 발돋움 할 수 있는 발판을 준비할 수 있는지에 대해서도 간단히 논의하도록 한다.

Ⅱ. 본론(Main Subject), 실사 활동

1. 데이타의 종류
2000년도 초반에 인간의 게놈 (genome) 의 염기서열을 성공적으로 밝혀냈을 때, 많은 기사들이 여러 질병의 발병 메카니즘을 빠른 시간 내에 밝혀내고 거기에 따른 획기적인 치료방법이 개발 될 것이라는 장미 빛 전망을 토했냈던 기억이 난다. 2015년인 현재, 물론 많은 질병의 단서들을 찾아낸 것도 사실이지만, 질병정복이라는 목표는 아직도 요원해 보인다. 그 이유는 인간의 DNA 염기서열을 안다는 것은 질병정복의 필요조건일 수는 있지만, 충분조건이 될 수는 없기 때문이다. 사람 몸의 세포들이 생성과 소멸하고 조직들이 맡은 역할 들을 이해하기 위해서는, 특별히 질병 관련 메카니즘을 이해하기 위해서는 단순히 DNA의 염기서열보다 더 풍부한 정보와 지식이 필요하다.
현재까지, 그리고 현재에도 학계, 그리고 산업계에서는 질병에 대한 정확한 정보를 얻기 위해서 다양한 high-throughput data profiling 기법을 개발해왔고, 이들을 이용해서 많은 양의 데이타가 생산되었다 [1]. 먼저 2000년 중/후반 Next generation sequencing (NGS) 기법이 개발된 이후로, 좀더 낮은 가격과 노력으로 환자들의 DNA 를 sequencing할 수 있었다. 잘 알려져 있다시피 DNA 는 생명의 청사진의 역할을 한다. 그리고 세포의 타입에 관계없이 DNA는 고정되어 있으므로 조직의 한 부분 (예를 들어 whole blood라든지 상피세포)에서 DNA를 추출해서 sequencing을 하는 식으로 상대적으로 간단하게 개체에 대한 정보를 얻을 수 있다. 이는 전에 축적되어진 array-based 데이타와 함께 환자들의 특정한 유전자의 또는 single nucleotide polymorphism (SNS)의 genotype과 환자들의 질병의 증상과 progression, 그리고 treatment outcome과의 상관관계를 연구하는 genome-wide association study (GWAS)같은 연구에 많이 이용되어 왔다. 이런 맥락에서 주목해야 할 노력은 Genomics England이다. 이 프로젝트는 100,000 개의 genome들을 2017년까지 sequencing을 완성 하는 것을 목표로 삼고 있다. 이 프로젝트가 무르익을 경우에는 희귀 유전병 등 여러 난치병을 정복할 수 있는 길이 열리게 될 것이다 (http://www.genomicsengland.co.uk/).
이미지2
암을 연구할 경우에는 약간 더 복잡한 과정을 거치게 되는데, 암에는 부모로부터 물려받은 변이와는 별개로 암세포 내에서 일어나는 체세포 변이 (somatic mutations)를 보아야 하기 때문에, 암 조직과 whole blood또는 입안의 상피세포를 따로 sequencing을 해서 그 차이를 비교함으로써 암세포에만 일어난 여러 변이들을 찾아야 한다. 앞에서 소개한 TCGA 또는 International Cancer Genome Consortium (ICGC)는 이러한 과제를 consortium이라는 구조를 통해서 수행하고 있는 대표적인 예이다 (https://icgc.org/). 이중 TCGA는 현재 34개의 암 종류들에 대해서 대대적인 whole genome/exome 레벨의 시퀀싱을 통해서 암을 유발시키는 driving 변이들을 찾아내었다 [2-4]
그러나 DNA는 우리 몸의 청사진에 불과하다. 그러므로 그 청사진에 기록되어 있는 정보가 실제로 어떻게 사용되는 지를 알려면 단순히 DNA sequencing을 통해서는 불가능하다. The central dogma of molecular biology (즉 DNA -> RNA -> protein 또는 transcription from DNA to RNA and translation from RNA to protein)에 의하면, DNA의 다음 단계는 RNA이다. RNA는 일반적으로 DNA보다 더욱 풍부한 정보를 가지고 있다. RNA또한 NGS의 기법을 이용해서 sequencing이 되고 있는데 (즉 RNA-Seq), 이는 우리가 전체의 transcriptome이 어떻게 구성되어 있는지 파악하도록 도와 준다. RNA-Seq은 gene expression, splice variants, differential isoforms, 발현된 변이들에 대한 정보를 제공한다. 이는 가히 혁명적이라고 할 수 있는 것이, RNA-Seq 이전에는 위의 분석을 하기 위해서는 여러 종류의 분자생물학적인 기법들을 돌려야 했는데 이제는 하나의 데이타로서 다양한 연구를 할 수 있는 길이 열린 것이다. 위에서 말한 TCGA에서도 DNA-Seq외에도 RNA-Seq 도 병행해서 실시함으로써 같은 환자를 여러 각도에서 들여다 볼 수 있게 되었다. 다만, 고정되어 있는 DNA에 비해, RNA는 생물학적인 조건에 따라서, 즉 조직의 종류라든지 아니면 병의 유무에 따라서 변하기 때문에 정확한 정보를 알기 위해서는 RNA-Seq을 돌릴 target 을 분명히 알고 있어야 한다. DNA와 RNA말고도 protein이나 metabolite를 보는 것 또한 질병을 들여다보는 중요한 정보원이다. 다만, protein레벨로 올라가게 되면 아직까지는 DNA-Seq과 RNA-Seq과 같이 많은 protein들을 동시에 들여다 보는 high-throughput screen이 점점 더 힘들게 되어진다. 그래서 지금까지 개발되어 온 computational biology의 많은 방법들이 주로 DNA나 RNA를 통해서 정보를 얻는 것에 집중되어 있다; 하지만, 결국 생명의 거의 모든 현상은 protein들이 만들어 내고, DNA나 RNA는 precursor에 불과하기 때문에, 궁극적으로는 protein연구가 점점 더 중요해지리라고 생각한다.
지금까지는 주로 분자레벨의 데이타에 대해서 논했는데, 제약이나 바이오 산업에 사용되는 데이타가 분자레벨에만 국한 된 것은 아니다. 예를 들어 환자의 phenotype에 대한 데이타는 아주 중요하다. 이는 특히 바이오마커를 연구 할 때에는 더욱 두드러지는데, 환자들의 phenotype, 즉 질병 유무 또는 치료에 대한 반응을 측정하고 이를 분자레벨 데이타와 연동시켜야 하기 때문이다. 이런 맥락에서는 환자들의 phenotype 데이타를 정리하고 대용량의 분석에서 쓸 수 있도록 가공하는 것이 중요하다. 그 밖에 문헌데이타도 있다. 예를 들어서 NCBI의 PubMed에는 지금까지 출판된 여러 논문들의 초록이 저장되어 있다. 이 엄청난 양의 초록들에 담긴 정보들을 정리하고 이용하기 위해서는 텍스트 마이닝 기법이 필요하다. 뒤에 소개하겠지만, high quality 텍스트 마이닝을 통해서 정보를 가공해서 제약/바이오 산업에 제공하는 회사들이 많이 출현하고 있으며, 위에서 이야기한 EMR/EHR의 분야까지도 사업을 확장하고 있다. 이러한 데이타들이 분자레벨의 데이타와 결합되면 좀더 정확한 바이오마커를 찾아 낼 수 있는 시너지 효과가 일어날 것으로 기대된다.
이미지3
2. Drug discovery/development에서의 computational biology와 데이타 마이닝
Drug discovery와 development는 복잡하고도 긴 과정이기에 많은 종류의 데이타들 적시에 생산하고 정확하게 분석하여 적용하는 것이 요구된다. Drug discovery단계에서는 여러 preclinical모델을 이용해서 주어진 질병의 발병 메카니즘을 연구하거나, 이러한 연구를 통해서 질병을 완화시키거나 치료할 수 있는 핵심적인 타겟을 발견하는 것이 중요하다. 이 단계에서는 생기는 데이타로는 in-vitro또는 in-vivo (or ex-vivo), xenograft model에서 나오는 genomic (sequencing or genotyping), transcriptomic (RNA sequencing or microarrays), 그리고 proteomics (immunohistochemistry or FISH or mass spectrometry) 데이타들이 있다. 위에서 언급했듯이, 이 중 proteomics 데이타는 아무래도 high-throughput이 불가능하기에 주로 특정한 protein들, 예를 들어 target engagement를 측정하기 위한 pharmacodynamics 바이오마커 등에 많이 쓰이고, 대규모 data-driven 연구를 위해서는 genomic 또는 transcriptomic 데이타가 주로 쓰인다.
예를 간단하게 들자면, 항암제 개발에서 어떤 compound가 주어진 pathway에서 정확하게 어떤 부분을 건드리고, trait의 변화, 즉 치료효과를 또는 부작용을 일으키는지를 보려면, 어느 cell line을 선택한 후 vehicle (e.g. DMSO)과 compound를 가지고 처리하여 post treatment의 gene expression데이타를 만들 수 있다. 이 경우 보통 differential gene expression analysis를 행하게 된다. 여러가지 pre-filtering스텝을 거쳐서 가능한 분석에서 일어나는 잡음을 줄이고, 잘 알려진 바이오인포매틱스 방법을 이용해서 (예를 들어서 limma package for micro array analysis) differentially expressed gene들을 찾아낸다 [5].대부분의 방법들은 t-test나 ANOVA같은 통계학적인 방법을 기본으로 하는데, 이때 많은 gene들이 테스트 되기 때문에 (예를 들어 전체 인간의 genome이 테스트되면 약 20,000개의 gene들 각각에 대해서 테스트가 돌아간다) multiplicity에의한 inflated된 p-value를 고쳐서 false discovery rate를 산출하는 것이 필요하다. 다음 단계로, 이런 과정을 거쳐서 선별된 differentially expressed gene들은 그 의미를 더욱더 파헤치기 위해서 gene ontology (GO) 분석이나 pathway 분석을 하게 된다. 한 걸음 더 나가서 인간의 protein-protein interaction network에 투사되어서 밀도 있게 연결된 부분을 찾기도 한다. 이러한 연구는 신약의 mechanisms of action을 알아내는 데 아주 유용하며, 신약에게 강하게 영향이 받는 pathway가 밝혀질 경우에는 pharmacodynamics나 pharmacogenomics 연구에도 많은 도움을 줄 수 있다.
한가지 신약 후보물질이 주어졌을 때, 효능이 가장 크게 나올 target disease indication을 찾는 것 또한 아주 중요하다 (이 부분은 바로 뒤의 챕터의 drug positioning/repositioning에서도 다시 다룬다). 물론 요즘의 targeted therapy (특히 항암제)는 어느 특정의 pathway의 inhibition이나 induction을 노리기 때문에 그 pathway의 이상으로 인해서 발생하는 질병이 자연스럽게 target disease indication이 된다. 그러나, pathway를 변화시킨다는 것은 아주 미묘한 문제이고 신체의 여러 feedback mechanism은 아주 복잡하고 때로는 우리의 이해를 넘어서기 때문에, 최소한 가지고 있는 가설을 데이타로 검증하는 단계를 잊지 말아야 하고 또는 데이타를 기본으로 한 data-driven한 target disease indication 찾는 과정을 거치는 것이 좋다. 예를 들자면, 위에서 소개했던 post-treatment gene expression데이타를 통해서 하나의 gene set을 찾아냈다면 (즉 이 gene set을 이용해서 pathway변화를 측정할 수 있다면), disease 데이타 베이스를 통해서 이 특정한 gene set의 gene들을 포함하는 질병을 찾아낼 수 있고, 또는 gene expression data에 접근 할 수 있다면 (예를 들어서 connectivity map처럼) gene set의 expression 패턴을 이용하여 좀 더 세밀한 검색이 가능할 것이다. (https://www.broadinstitute.org/genome_bio/connectivitymap.html)[6]. 결국 데이타가 쌓이면 쌓일 수록 더욱더 정교한 검색을 할 수 있고 정확도를 높일 수 있기 때문에 많은 제약회사들이 일반에 공개되어 있는, 그리고 자기 자신들의 데이타를 데이타 베이스화시키려는 노력을 계속하고 있다. 이러한 노력들 중의 하나의 예가 바로 tranSMART Foundation (http://transmartfoundation.org/)인데, 이 platform은 다차원의 genomic데이타와 상대적으로 저차원인 phenotypic 데이타의 상관관계를 연구를 위해서 특별히 고안되고 개발되어졌으며, 현재 많은 글로벌 제약회사들이 공동으로 참여하여 더욱 새롭고 강력한 기능을 가진 platform으로 발전시키고 있다.
Drug development과정에서는 주로 바이오마커 연구에 computational biology가 많이 쓰인다. 특히 translational medicine분야 에서는 preclinical에서 얻어진 여러가지 지식들, 예를 들어 pharmacodynamics 바이오마커가 과연 인간에게도 적용 (즉 translated)되는지를 검증하거나, 또는 개개인의 환자들의 효능을 예측할 수 있는 pharmacogenomics 바이오마커를 임상실험에 참가했던 환자들의 조직에서 나온 genomic 데이타를 바탕으로 발견하는데 주력하고 있다. 이중에서 pharmacogenomics분야는 아주 중요한데, 만약 임상실험의 1상 (ph1)과 이상 (ph2)에서의 데이타를 이용하여 주어진 후보약에 대해서 더욱 민감한 (즉 높은 효능을 보장할 수 있는) 환자 그룹을 구별해 낼 수 있는 바이오마커를 발견할 수 있다면, 3상(ph3)에서는 이 마커를 가지고 adaptive 임상실험을 디자인 할 수 있기 때문이다 (즉 바이오마커 positive와 바이오마커 negative arms을 포함시켜서 biomarker에 대한 성능도 같이 검증). 요즘 미국 FDA는 아예 시작부터 이러한 pharmacogenomics 바이오마커를 companion diagnostics (CDx)의 형태로 신약과 함께 같이 개발해서 등록과 출시도 하나의 묶음으로 하는 것을 선호하고 있다. 이러한 연구과정에서는 대용량의 genomic 데이타가 생산이 되고, 이러한 genomic 데이타에서 환자들의 치료의 결과를 예측할 수 있는 수개의 유전자의 변이 패턴이나 또는 gene expression의 차이를 찾게 되는데, 이 과정에서 통계나 machine learning등의 방법이 많이 적용된다.
이러한 연구에서는 기본적으로 두 가지를 고려해야 한다. 하나는 한 연구에서 얻어진 바이오마커는 다른 독립적인 (물론 데이타가 생성된 환경은 동일하거나 균질한) 데이타로 검증이 되어야 한다. 사실 genomic 데이타는 아주 비균질적이고, 많은 잡음을 내포하고 있다. 더군다나 엄청나게 복잡한 다차원 데이타 (ultra high dimensional)이기 때문에 아무리 정교한 방법을 써도 신호를 잡아내기 보다는 지엽적인 잡음에 걸리는 경우가 대부분이다. 이러한 이유로 발견된 바이오마커는 다른 독립적인, 즉 통계적 또는 machine learning-based의 모델을 만들 때 사용하지 않았던, 데이타를 가지고 객관적으로 성능을 검증해야 한다. 둘째로, 가능한 한 발견된 바이오마커는 약의 mechanism of action이나 타겟 질병의 관련된 pathway와 어느 정도의 관련이 있어야 한다. 이 조건은 반드시 지켜져야 하는 것은 아니다. 바이오마커란 사실 마커로서의 성능이 가장 중요한 것이지, 밑에 깔린 생물학에 대한 직관을 제공하는 것은 사실 두 번째이기 때문이다. 그러나 다른 쪽에서 보면, 두 개의 바이오마커가 있고 성능이 비슷하다면, 그 중에 개발중인 약과 질병에 대해서 연관성 있는 쪽을 고르게 될 것은 자명하다. 그리고 몇 개의 성공사례를 제외하고는 (예를 들어 vemurafenib 과BRAF V600E) 일반적으로는 단일 유전자 (single gene) 레벨의 바이오마커는 거의 찾기가 힘들다. 그렇기 때문에 보통은 복수의 유전자들로 이루어진 바이오마커 집합을 발견하려고 하게 되며, 이 경우도 역시 바이오마커들이 신약의 pathway와 연관성을 가지면 더욱 안정된 성능을 보이기 때문에, systems biology또는 systems genetics관점에서 예측 모델을 세우는 시도가 점점 늘어나고 있다 [7]. 이러한 systems biology를 기반으로 하는 연구는, 여러 종류의 데이타를 systems 레벨에서 통합하는 경우가 많다. 예를 들어 mutation이나 또는 differentially expressed gene들을 NGS를 통해 발견했다면, 이러한 정보를 signaling pathway나 또는 protein-protein interaction에 투사를 해서 어떤 유전자들이 시스템상에서 긴밀하게 묶여 있는지 찾는다. 그리고 이렇게 서로 가깝게 묶여 있는, 즉 protein network이나 pathway 레벨에서 서로에게 영향을 미치는 유전자들을 하나의 바이오마커로 보고 이들의 집합과 질병의 메카니즘이나 약을 투약했을 때 치료반응의 상관관계를 연구하게 된다 [8].
이러한 종류의 연구를 하기 위해서는 여러 종류의 데이타 들과 세련된 데이타 마이닝 기법들을 필요하다. 위에서 이미 언급한 TCGA나 ICGC에서는 주로 암 종류별로 여러 변이들 (mutation 또는 CNV 또는 gene-fusion)과 gene expression 데이타를 얻을 수 있다. 이러한 데이타들은 개별의 바이오마커 스터디에서 quality control (QC)의 시금석으로 쓰이기도 하고, 바이오마커를 발견한 후 마커 positive population의 규모를 얻기 위해서도 사용된다. 마커 positive population란 바이오마커로 특징화 되는 그룹에 속하는 환자들의 비율을 의미하는데, 이것이 중요한 이유는 이 바이오마커로 잠재적 이득을 볼 사람들이 충분히 많지 않다면 사실상 바이오마커를 개발하는 것이 제약회사 입장에서는 경제적 타당성이 없기 때문이다. 그리고 바로 위에서 말했듯이 systems biology 또는 systems genetics의 연구를 수행하기 위해서는 pathway나 protein-protein interaction, 그리고 metabolomics에 대한 데이타 (또는 데이타베이스)가 필요하다. KEGG라든지, Thomson Reuters의 MetaCore, 그리고 Ingenuity의 IPA는 학계나 산업계에서도 널리 인정받고 쓰이는 양질의 pathway/interactome 데이타베이스들이며 앞서 이야기한 연구들에 다양하게 이용되고 있다.
3. Systematic drug positioning/repositioning
어떤 신약후보물질이 발견되었다고 가정하자. 이 후보물질들이 여러 관문들을 통과해서 개발단계로 진입하기 위해서는 올바른 target disease indication을 찾는 것이 매우 중요하다. 잘 상성이 맞지 않는 질병에 적용하려고 하면 결국 제약회사 입장에서는 엄청난 자원의 낭비로 이어지며, 실험에 참가한 환자들도 고통을 받게 되기 때문이다. 그러므로 효과적인 drug positioning이 필요하다. 이 부분에 대해서는 앞선 위의 챕터들에서 다루었지만, 여기서는data mining적인 관점에서 이 주제를 이야기할 것이다.
Drug positioning의 개념은 예전부터 있어왔다. 예를 들어 target-based drug discovery는 결국 어떤 하나의 질병의 메카니즘을 기반으로 타겟을 찾아내고 그 타겟에 맞는 물질을 디자인하는 것이다. 이 경우에는 그 특정의 질병이 target disease indication이 되고 넓은 의미에서는 이도 drug positioning의 일종이다. 그렇지만 이러한 방법은 많은 한계들을 내포하고 있다. 질병의 메카니즘은 항상 우리의 생각이상으로 복잡하다. 예를 들어서 pathway는 feedback과 feedforward loop들로 얽혀있고, 하나의 target을 건드렸다고 우리가 예상하는 대로 pathway가 조절되지 않는 경우가 많다. 그리고 우리가 전지한 능력을 가지고 있지 않는 한, 타겟 pathway가 우리가 목표로 하는 질병에 가장 큰 영향력을 가지고 있는지, 아니면 다른 우리가 몰랐던 질병에 오히려 더 크게 작용하고 있는지를 미리 알 수는 없다. 즉 다른 말로 표현하면 우리의 drug positioning은 우리가 아는 만큼의 지식에 기반해서 우리가 원하는 쪽으로 편향(biased)되어 있는 것이다.
이미지4
여기서 drug positioning은 drug repositioning쪽으로 자연스럽게 연결이 된다. Drug repositioning이란 현재 다른 disease indication을 대상으로 개발이 완료된, 또는 개발중인 약물을 다른 disease indication으로 돌리는 것을 의미한다. 물론 두 번째 질병에서도 원하는 만큼의 효능 (efficacy)와, 조절 가능한 부작용(side effect또는 toxicity)이 보장이 되어야 계속해서 개발할 수 있다. 누구나가 잘 아는 예를 들자면 Viagra (sildenafil) 가 있다. 원래 이 약은 심장질환을 위해 개발했던 약이지만, 남성 발기부전 치료제로 성공적으로 재개발된 (repositioning 또는 repurposing) 케이스라고 할 수 있다. 하지만 이 drug repositioning은 물론 여러가지의 과학이 가미된 과정을 거쳐서 이루어졌지만 동시에 어떤 체계적인 방법을 통했다기 보다는 운이 상당히 작용했다. 예를 들어서 남성 발기부전에 효과가 좋다는 힌트는 임상실험에 참여한 (원래의 심장질환) 남성 환자들이 보고한 “부작용”에서부터 비롯되었다.
만약에 이러한 모든 과정을 조금 더 체계적인 (systematic) 방법을 통해서 정리할 수 있으면 어떨까? 위에서 예를 든 Viagra의 정확한 target disease (이 경우에는 남성발기부전)를 미리 알아낼 수 있었으면, 또는 발기부전이라는 새로운 치료 가능한 질병과 심장질환을 동시에 발견할 수 있었으면 이 약의 개발에 소요된 총 비용과 시간이 획기적으로 줄여질 수 있었을 것이다. 여기서 보았듯이 drug positioning과 repositioning은 사실상 같은 개념에서 출발하며, 우리가 이를 위해서 체계적인 방법을 개발한다면, 제약산업에 많은 도움이 될 것이다.
그렇다면 효과적인 drug positioning과 repositioning의 방법에는 무엇이 있을까? 하나의 은유를 통해 설명하자면, 일단 이러한 작업은 중매쟁이의 일과도 같다. 왜냐하면 결국 베스트 커플이 될만한 약과 질병을 찾아서 연결시켜주는 일이기 때문이다. 그렇다면 한국이나 미국에서 유행하는 데이팅 또는 중매 사이트를 생각해보자. 만약에 여러 중매사이트에서 하나를 고른다면 어떤 점을 고려해야 할까? 여러가지 고려할 사항들이 있겠지만, 그 중에서 가장 중요한 것 중에 하나가 가입자 수이다. 그 이유는 가입자가 많아야 선택할 수 있는 경우의 수가 늘어나기 때문이다. 그리고 중매방식도 중요하다. 즉 가입자의 정보를 어떤 식으로 분류를 하는지, 그리고 그 분류를 어떻게 이용해서 가장 잘 맞는 짝을 찾는지가 중매의 성공률을 높이는 하나의 요건이 된다.
이 두 가지 시사점들은 drug positioning/repositioning에도 그대로 적용될 수 있다. 가입자수에 관한 비유는 결국 데이타의 양이 많고 다양해야 한다는 의미이다. 체계적인 작업을 하기 위해서는 일단 우리가 탐험하려고 하려는 분야의 큰 그림을 그릴 수 있는 것이 중요한데, 그렇지 않으면 지엽적인 정보에 빠져버리는 가능성이 많기 때문이다. 정보의 양은 우리가 볼 수 있는 시야의 한계를 결정한다. 그렇기 때문에 가능한 많은 수의 질병과 약에 대한 정보를 모으는 것이 필요하다. 그렇다면 어떤 종류의 데이타가 필요할까? 필요한 데이타의 종류는 하나로 정의할 수 없을 만큼 다양하다. 여기에 대해서는 이전 챕터들에서 이미 언급했기 때문에 다시 설명하지는 않지만, 요즘들어 많은 투자와 기술개발이 이루어지는 부분은 텍스트 마이닝 데이타와 genomic 데이타이다. 텍스트 마이닝 데이타는 아직까지는 false positive가 많지만, 현재 꾸준한 기술개발과 개선이 이루어지는 중으로 빠른 시간 내에 양질의 데이타를 생산해 내리라고 기대된다. 그리고 지금까지 쌓여있는 GWAS나 다른 변이-질병 상관관계를 다룬 데이타를 저장해 놓은 데이타베이스를 활용하는 것도 좋은 방법이다. 예를 들어 위의 챕터 1에서 말한 데이터베이스들 외에도, GWAS데이타가 저장되어 잇는 dbGAP의 데이타를 적극적으로 활용할 방법을 찾는 것도 좋은 방향일 것이다. 구슬이 서 말이어도 꿰어야 보배라는 말이 있듯이, 고품질의 데이타가 있다면, 효과적인 중매기술, 즉 질병과 약을 이어주는 알고리즘과 플랫폼의 개발 또한 중요하다. 미국에서는 많은 업체들이 데이타 마이닝 기술을 토대로 이 분야의 시장을 노리고 있지만 아직은 시작단계라 대부분의 경우에는 proof of concept단계에 머물고 있다. 앞으로 많은 발전이 기대되는 분야이다.
이미지5

III. 결론

지금까지 제약산업에 쓰이고 개발되는 여러가지 in-silico 연구기반들과 기법들에 대해서 대략 훑어 보았다. 제약산업에 있어서 생물학에 대한 투자는 사실 피할 수 없다고 생각한다. 이제는 drug discovery와 development의 패러다임이 질병중심으로 옮겨가고 있기 때문이다. 그리고 big data의 시대를 맞아 생물학을 제약과 접목시켜서 효과적인 drug discovery/development를 하기 위해서는 in-silico 기법은 선택이 아니고 필수 요소가 되었다. 물론 위에 소개한 모든 분야에 투자하여 잘 할 필요도 없고 그런 식으로 전략을 짜서는 안 된다고 생각한다. 대규모 투자가 가능한 다국적 제약회사에 비교해 볼 때, 그러한 접근법은 우리의 한정된 자원이 너무 많은 곳으로 분산되게 만들어서 그 어떤 분야에서 제대로 된 열매를 얻기를 힘들게 하기 때문이다. 결국은 이 주제는 우선순위를 정하는 일로 귀결되고, 이러한 우선순위는 최소한의 비용으로 최대한의 이익을 보는 것 쪽으로 정해져야 할 것이다.
그렇다면 어떤 분야가 우선적으로 투자가 선행되어야 하는 부분일까? 이는 몇 가지 부분으로 나누어서 설명할 수 있다. 먼저 공개된 데이타의 수집 및 정리이다. 항암제 개발 분야에서는 위에서 소개한 TCGA나 ICGC의 각 종류의 암들의 변이 및 gene expression데이타는 타겟 선정이나 바이오마커 개발에 많은 도움이 된다. 일반 질병의 경우에는 ClinVar나 dbGAP의 정보가 많은 도움이 된다. 그리고 둘째로 내/외부에서 만들어진 데이타를 저장하고 손쉽게 분석할 수 있는 database 또는 data warehouse를 세우는 노력이 필요하리라 본다. 데이타가 아무리 많이 만들어져도 여기저기에 통일되지 않는 형태로 저장되어 있다면 사실상 아무 쓸모가 없다. 위에서 소개한 tranSMART같은 플랫폼은 태생부터 바이오메디칼 연구, 특히 제약산업에 맞춰서 디자인되어 있기 때문에 이 쪽에 대해서 투자를 생각하고 있다면 한번은 꼭 고려해 볼만 한 대상이다. 마지막으로 전문 연구인력을 양성해야 한다. 특히 biological한 데이타들은 “제대로” 들여다 볼 수 있는 능력을 가진 사람들이 필요하다. 깊은 실력과 이해와 넓은 시야를 가진 computational biologists들이 많이 있어야 데이타 안에서 정말로 필요한 신호를 잡아낼 수가 있다. 이러한 연구능력은 한 순간에 길러지는 것도 아니고, 어떠한 학위과정을 받기만 하면 되는 문제도 아니다. 제약산업에서 꾸준한 경험을 쌓은 사람들이 필요하기 때문에 장기적인 안목을 가지고 접근해야 할 부분이다. 이러한 능력과 대한민국의 IT기술이 접목이 된다면 이 분야에 있어서 능히 빠른 발전을 이룰 수 있을 거라 믿는다.
마지막으로 제약사 및 병원/학교의 협력관계도 빼놓을 수 없다. 위의 제안들은 하나의 제약회사나 병원이 주도하기에는 벅찰 것이다. 그렇다면 예를 들어 data warehouse를 만들 때에도 복수의 제약회사들이 참여하면 어떨까? 공개된 데이타들을 모아놓은 부분들은 서로가 공유를 하고 각자의 개인적인 데이타들은 private section에 따로 저장해서 접근을 조절한다면 비용 대 이익의 효과가 극대화 될 수 있다. 정부도 참여해서 이러한 활동들을 조율한다면 협력이 더욱더 원활해 질것이다. 병원들이나 학교들과의 협력도 중요하다. 병원에서 쌓이고 있는 임상데이타도 제약산업에 활용할 수 있는 방안을 간구한다면 두 쪽 모두에게 득이 되는 방향으로 일을 진행시킬 수 있다. 학교는 역시 최신 기술을 제공하는 역할을 할 수 있고, 산학협동으로서 서로가 윈윈하는 상황에 이를 수 있다고 여겨진다.
이제 거의 모든 학문과 산업 분야들이 big data의 시대로 들어섰다. 지금이 바로 대한민국도, 물론 제한된 자원의 효율적인 배분이라는 조건이 있지만, 제약산업에 이용될 수 있는 빅데이타들을 어떻게 활용할 것인가에 대해서 전략을 세우고 조금 더 거시적인 관점에서 미래를 계획하는 그러한 모습이 필요한 때라고 생각된다.

참고문헌 및 출처(Reference)

  1. Stephens, Z.D., et al., Big Data: Astronomical or Genomical? PLoS Biol, 2015. 13(7): p. e1002195.
  2. Cancer Genome Atlas Research, N., et al., The Cancer Genome Atlas Pan-Cancer analysis project. Nat Genet, 2013. 45(10): p. 1113-20.
  3. Zack, T.I., et al., Pan-cancer patterns of somatic copy number alteration. Nat Genet, 2013. 45(10): p. 1134-40.
  4. Ciriello, G., et al., Emerging landscape of oncogenic signatures across human cancers. Nat Genet, 2013. 45(10): p. 1127-33.
  5. Law, C., et al., voom: precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology, 2014. 15(2): p. R29.
  6. Lamb, J., et al., The Connectivity Map: Using Gene-Expression Signatures to Connect Small Molecules, Genes, and Disease. Science, 2006. 313(5795): p. 1929-1935.
  7. Cheng, F., et al., Quantitative network mapping of the human kinome interactome reveals new clues for rational kinase inhibitor discovery and individualized cancer therapy. Oncotarget; Vol 5, No 11, 2014.
  8. Menche, J., et al., Uncovering disease-disease relationships through the incomplete interactome. Science, 2015. 347(6224).

약력(Profile)

1992-1998, Seoul National University, School of Electrical Engineering, B.S.
1999-2002, The University of Texas at Austin, Department of Electrical and Computer Engineering, M.S.
2003-2006, The University of Texas at Austin, Department of Electrical and Computer Engineering, Ph.D.
2006-2007 The University of Texas at Austin, Department of Biomedical Engineering, Post-doctoral Research Fellow
2007-2011 Harvard University, School of Public Health/Dana-Farber Cancer Institute, Department of Biostatistics and Computational Biology, Post-doctoral Research Fellow
2011-present Takeda Pharmaceutical International Co, Department of Translational Medicine, Research Scientist

- 끝 -

  • 이전글 이전글이 없습니다.
  • 다음글 다음글이 없습니다.