컴퓨터 + 생물학 = 생물정보학

channel_editor_icon HANBIT

2001-06-05

25.4K

By 신시아 기바스(Cynthia Gibas), Developing bioinformatics Computer Skills의 공동 저자

Developing bioinformatics Computer Skills가 처음 아마존에 등록되었을 때, 컴퓨터 전문가로부터 수십 통의 메일을 받았다. 그들은 "생물정보학(bioinformatics)(†역자 주: bioinformatics는 현재 생물정보학, 생명정보학, 생물정보공학 등 용어가 통일되지 않은 상태이다. 본 글에서 bioinformatics는 생물정보학으로, bioinformatician은 생물정보학자로 표기한다)을 시작하고 싶은데, 어떤 교육 과정이 좋습니까?" 라는 질문을 주로 했다. 전국 대학교에서도 이와 유사한 질문을 했는데, "생물정보학에 관한 교육 프로그램을 어떻게 짜면 좋을까요?" 와 같은 것들이다. 하지만 여러 컴퓨터 전문가들은 "도대체 생물정보학이 뭐야?" 라는 근본적인 질문을 자신에게 하고 있는 것 같다. 연구실에서 일하는 생물학자는 "내 데이터 파일을 컴퓨터에 정리하는 가장 좋은 방법은 무엇이지?" 와 같은 기본적인 의문을 가지고 있고, 컴퓨터 전문가들도 단백질이란 점심 식사의 구성요소로만 여기고 있을 것이다. 이런 관점에서 보자면, "생물정보학이 뭐야?" 라는 질문을 하는 것은 아주 타당하다. 생물정보학이란 무엇인가?: 간단한 대답 위의 질문에 간단히 대답하면, "생물정보학이란 정보 기술과 생물학의 교차점이다", 혹은 "생물정보학은 생물학의 정보 경영이다", " 생물정보학은 생물학적 데이터베이스의 데이터 마이닝 툴이다" 라고 할 수 있다. 하지만 이에 대해 좀더 깊이 생각해 봐야 한다. 위의 대답은 의문의 여지가 많다. "정보 기술" 이라든가, "데이터 마이닝" 과 같은 용어는 생물학자에겐 생소하며, 컴퓨터가 연구자들에게도 유용하다는 의미를 전혀 전달하지 못한다. 반대로, "생물학"이란 용어는 컴퓨터 전문가에게는 생소하다. 생물학자가 하는 일은 무엇인가? 그들은 무엇을 연구하는가? 어떤 방식으로 연구하는가? 그리고 마지막으로 정보 기술을 생물학 연구에 적용해서 얻는 이점은 무엇이며, 생물정보학이 중요한 이유는 무엇인가? 생물정보학이란 무엇인가?: 긴 대답 생물학자들은 무엇을 연구하는가? 생물학에서 "지놈 코드(genomic code)가 실제 인간(혹은 동물이나 식물, 박테리아)에는 어떻게 적용되는가?" 는 중요한 문제이다. 오랫동안 생물학자들은 이 코드에 완벽히 접근하지는 못했고, 일부만을 연구할 수 있었다. 지놈 코드는 수천 개의 유전자로 나뉘어 진다. 유전자는 단백질을 만들라고 세포에 명령을 내리는데, 각각의 분자는 고유한 화학적 임무를 띤다. 단백질은 여럿이 모여 수천가지에 달하는 기능을 수행하는데, 음식물을 소화하는 것에서부터 세포 내부를 보호해 주는 장벽을 만드는 작은 분자를 합성하는 것까지 다양한 일을 한다. 생물학자는 지놈에 있는 모든 유전자 정보를 모아서, 유전자가 어떻게 협동하여 생체를 만들고 유지하는지에 관한 모델을 만든다. 이러한 질문에 대답할 수 있는 데이터 형은 어떤 것인가? 실험을 많이 하는 만큼, 생물학 데이터의 종류도 다양하다. 하지만 체계적으로 정보를 수집해 전체 생물학 연구 커뮤니티를 만들 수 있는 데이터 형이 있다면, 쉽게 작업할 수 있을 것이다. 바로 웹을 이용하면 된다. † 생물정보학은 생물학 시스템을 분석하는 데 체계적이고 방대한 메소드를 적용하는 트렌드의 일부이며, 생물학 시스템은 수리 과학의 일부이다. 현재 유전자와 지놈 서열은 단백질 분자 좌표 다음으로, 가장 풍부하게 수집된 자료 형이다. DNA 서열은 문자열로 표현되는데, 대개 문자열의 특정 부분과 연결된 특성을 묘사하는 부분이 따라 나온다. 단백질은 데카르트 좌표로 표현되는데, 아직 완전히 정립되지 않은 단백질 정보도 함께 나타난다. DNA 마이크로어레이(DNA microarrays)와 같은 새로운 고효율 실험 방법은 유전자 표현 레벨, 단백질 간의 상호 작용, 그리고 유전자와 단백질이 세포에서 어떻게 상호작용하는가에 대한 다른 정보를 나타내는 값의 수만 가지 조합을 도출한다. 컴퓨터가 어떻게 전체 기업을 지원하는가? 현대 생물학에서 컴퓨터는 다음과 같은 다양한 역할을 한다.

실험 장비가 발견해 낸 신호를 수집, 처리한다. 실험 장비에는 DNA 시퀀서(sequencer), CCD 장치, 분광 측광기, 그리고 아날로그를 디지털로 바꿔서 컴퓨터에 연결하는 다른 장치들이 있다.
산업 연구실(gene sequencing centers 등)에서 샘플 추적, 실험 관리를 한다. 소규모 연구실에는 자동 연구 관리에 투자할 여력이 없으므로 소프트웨어를 이용해 수동으로 기록한다.
공공의 데이터베이스에 데이터를 저장한다. 그리고 첨단 웹 검색이나 증착 메커니즘(deposition mechanisms)으로 누구나 데이터베이스에 접근할 수 있다. 진뱅크(Genbank)의 홈페이지인 NCBI, PubMed 등은 공공 생물학 데이터베이스로 구축할 수 있는 정보 서비스의 가장 좋은 예이다.
수집한 대용량 데이터에서 패턴과 규칙을 찾고, 이러한 패턴으로 새로운 데이터의 특성을 예상하고 하나의 범주로 묶는다. 복잡한 데이터 셋 내에서 패턴 매치와 특성 시그너처를 발견하는 툴을 개발하는 것, 이것이 바로 생물정보학의 핵심이다.
주석: 자동 계산 방법으로 범주화되지 않은 데이터에 기능적 의미를 할당하고, 여러 데이터 간에 정보 링크를 생성한다. 많은 주석 시스템은 자동화된 서열 비교 검색을 사용하여, 새로운 지놈 데이터에서 잠재 유전자를 발견한다.
시뮬레이션: 수학 물리 화학적 모델과 함께 시스템에 대해 알려진 정보를 사용하여, 시스템의 특성을 시뮬레이션한다. 상호작용 단백질 분자의 움직임을 시뮬레이션하는 것에서부터, 생화학적으로 화학 물질의 흐름을 모델링하는 것까지, 이 분야는 범위가 아주 다양하다.

넓은 의미에서의 컴퓨터와 생물학의 미래 생물정보학자는 전문 데이터 분석가이다. 그들은 생물학 커뮤니티나 "데이터 산실" 프로젝트(genome sequencing projects 등)에서 나온 데이터로 작업한다. 이러한 데이터를 마이닝해, 생물학 시스템이 어떻게 기능하는가와 같은 새로운 가설, 새로운 모델, 그리고 규칙과 패턴(새로운 데이터 세트를 선별할 수 있는)까지 개발하는 것이 생물정보학에서 하는 일이다. 생물정보학은 생물학 시스템을 분석하는 데 체계적이고 방대한 메소드를 적용하는 트렌드의 일부이며, 생물학 시스템은 수리 과학의 일부이다. 생물정보학은 일차적으로 데이터 스토리지와 지놈 서열 분석에 관한 학문이지만, 생물학 연구 전 분야에서 컴퓨터를 이용한 접근 방식이 이미 사용되고 있다. 실험과 데이터 수집은 점점 더 자동화되고 있으며, 이러한 경향은 앞으로도 계속될 것이다. 생물정보학에 필요한 주요 기술과 지식 생물정보학자는 전문 데이터 분석가로서, 계산 분석 방법은 물론, 생물학에 관해서도 깊이 이해하고 있어야 한다. 생물학적 이해 없이는 복잡한 계산 방법을 꼭 필요한 부분에 제대로 적용할 수 없기 때문이다. 분석 능력이 없으면, 생물학적 정보를 발견했는지도 모른 채 지나칠 수 있다. 1998년 현 ISCB(International Society for Computational Biology) 의장인 루스 알트만 박사는 A Curriculum for bioinformatics: The Time is Ripe 라는 글을 쓴 적 있다. 이 글에서 그가 말한 생물정보학의 필수 지식과 기술은 다음과 같다.

서열을 분석하는 방법을 수립할 수 있다. 이에는 쌍정렬(pairwise alignment), 다중 서열 정렬(multiple sequence alignment), 표준 계통도(phylogenetic trees), 서열 프래그먼트(sequence fragment), 맵 어셈블리(map assembly), 서열에서 특성을 뽑아 낼 수 있는 능력이 포함된다.
분자 구조를 분석하는 방법을 수립하고 시뮬레이션할 수 있다. 이에는 기하학적 분석, 구조 모델링, 분자 역학 등에 관한 지식이 포함된다.
생물학 연구를 지원할 수 있는 컴퓨터 실력이 있다. 이는 신호 감지와 프로세싱에서 통계학적 분석에 이르는 모든 분야를 아우르는 광범위한 범위를 말한다.
생물학 데이터베이스를 디자인, 구현, 통합할 수 있다.
생물정보학의 주요 알고리즘과 메소드를 알고 있다. 이에는 다이내믹 프로그래밍, 최적화, 범주화와 클러스터 분석, 신경회로망 등에 관한 기술이 포함된다.

하지만, 생물정보학을 연구하는 필자의 동료들은 다음과 같은 훨씬 더 기초적인 기술을 필수사항으로 들었다.

과학적 메소드를 이해하고 있다. 즉 가설을 입증하기 위해 실험을 어떻게 수립하고, 실행하는지, 그리고 과학적 연구를 공개하는 기준에 관한 지식이 필요하다.
분자 생물학의 근간을 이해하고 있다. 지놈 정보가 어떻게 전달되어 생체에 사용되는지에 관한 지식이 필요하이다.
컴퓨터 실력을 갖추고 있다. 새로운 소프트웨어에 금방 익숙해 져서 명령행(유닉스) 환경에서 수월하게 작업할 수 있다.
C나 C++과 같은 프로그래밍 언어, 펄이나 파이썬과 같은 스크립팅 언어를 알고 있다.

앞의 두 가지는 생물학에 필요한 지식이며, 뒤의 두 가지는 컴퓨터 과학에 관련된 지식이다. 모두 각각의 영역에서 기초적인 지식이며, 노력만 들이면 이룰 수 있는 것들이다. 전공자라면 학부 정도의 수준이지만 이러한 지식을 한 사람이 모두 가지고 있는 경우는 드물다. 생물정보학으로 전공을 바꾸고 싶으면 완전히 새로운 학위를 따야겠지만, 실제로는 별로 도움이 안 되는 것 같다. † 생물정보학자는 생물학 커뮤니티나 "데이터 산실" 프로젝트에서 나온 데이터로 작업한다. 생물정보학을 공부하려고 하는데, 어떻게 하면 되는가? 이에 대한 대답은 프로그램에서 과학 연구 사이에 어느 시점에서 멈출 것인가에 달려 있다. 생물정보학 프로젝트를 기반으로 프로그램을 하려고 한다면, 생물 과학자와 얘기를 나눌 정도로 공부하면 된다. 그래서 생물 과학자가 컴퓨터에 어떠한 작업을 해달라고 주문했을 때, 이를 바로 적용할 수 있어야 한다. 이는 일반적인 수준으로, 중요한 분자에는 어떤 것이 있는지(DNA, RNA, 단백질, 대사 산물), 무엇으로 만들어 지는지, 그리고 어떤 작용을 하는지 등이다. 그리고 지놈에 들어 있는 정보가 생체 시스템에서는 어떻게 사용되는지도 알아 두어야 한다. 이러한 기초 사항을 모두 알게 되면, 생물정보학과 전산 생물학 메소드의 흥미로운 부분을 배울 수 있다. 일부 대학에서는 컴퓨터 전문가를 대상으로 생물정보학 인증 프로그램을 제공하고 있다(역자 주: 국내 대학에는 아직 생물정보학 인증 프로그램이 없으며, 국립보건원에서 주관하는 생물정보학 집중훈련과정 교육 프로그램이 유일하다). 프로그래머에서 과학자로 전공을 바꿔서, 새로운 생물정보학 메소드를 개발하는 단계에 이르면, 컴퓨터 능력은 별 필요가 없다. 이제부터는 생물정보학의 대학원 과정이라고 말할 수 있다. 과학자들은 그저 강의를 몇 개 듣기 위해 힘든 대학 생활을 하는 게 아니다. 대학에서는 가설에서부터 이를 검증하는 실험에 이르기까지 과학적 연구의 규칙과 과정을 익힌다. 이러한 단계로 공부하려면, 생물정보학과 계산 생물학의 대학원 과정을 이수하는 게 좋다. 물론 오라일리의 신간 카탈로그에도 계속 주목해야 할 것이다.

신시아 기바스(Cynthia Gibas)는 버지니아주(州), 블랙스버그의 Virginia Tech에서 생물학을 가르치는 부교수이다. 지금처럼 계산 생물학이 부각되기 전부터 이 분야의 전문가로 활동했으며, 현재는 리눅스 클러스터를 구축하는 중이다. 지놈의 구조와 진화, 단백질 표면과 인터페이스의 특성, 단백질 구조 예측 등을 주로 연구한다. 생물학자를 대상으로 생물정보학 메소드의 입문 과정을 강의하고 있다.

컴퓨터 + 생물학 = 생물정보학

댓글

인기 콘텐츠

인사이트