본문 바로가기 주메뉴 바로가기 검색 바로가기
구글이 소유한 딥마인드 AI, 드디어 실용성 입증
상태바
구글이 소유한 딥마인드 AI, 드디어 실용성 입증
알파폴드가 지금까지 가장 분명한 인간 단백질체를 생성했다. 이제 딥마인드는 세계가 알파폴드를 활용하도록 만들고자 한다.
By GRACE BROWNE, WIRED UK

콜로라도대학교 볼더캠퍼스의 생화학자인 마르셀로 수사(Marcelo Sousa) 박사는 10년간 한 가지 난제를 푸는 데 집중했다. 수사 박사 연구팀은 항체 저항성과 관련된 단일 박테리아 단백질 실험 데이터를 다량으로 수집했다. 연구팀은 단백질 구조 연구가 단백질 구조 형성 저항을 막을 수 있는 억제제를 찾는 데 도움이 되기를 바랐다. 그러나 해를 거듭할수록 문제를 풀지 못했다. 그리고, 알파폴드(AlphaFold)가 등장했다. 딥마인드의 머신러닝 시스템인 알파폴드는 단 15분 만에 단백질 구조를 찾아냈다.

단백질 구조 발견은 세계 각지 연구소에서 곧 같은 결과를 반복할 수 있었다. 딥마인드는 국제 학술지 네이처(Nature)에 게재된 논문을 통해 총 35만 개가 넘는 단백질 구로를 공개했다. 단백질 구조에는 인체를 형성하는 단백질인 인간 단백체 대부분이 포함됐다. 알파폴드가 예측한 단백질 구조는 암과 알츠하이머와 같이 치료가 어려운 질병과 신약 개발 가능성, 플라스틱 재활용 방법 개선 등을 깊이 분석한 핵심 정보를 제공할 수 있다.

과학계가 지금까지 찾아낸 모든 단백질 정보를 모은 유니버설 프로틴(Universal Protein) 데이터베이스는 알파폴드로 발견한 단백질 구조의 수 관련 추가 정보를 제공하고자 총 1억 8,000개가 넘는 단백질 배열을 포함했다. 단백질 배열은 단백질의 아미노산 배열을 나타내지만, 이는 그동안 생물학계가 풀지 못했던 수수께끼의 시작에 불과하다. 인체의 단백질 기능을 제대로 이해하기 위해 단백질 배열이 단백질의 3D 구조를 형성하는 방식을 알 필요가 있었다. 이는 단순히 아미노산의 제대로 된 배열을 아는 것보다 훨씬 더 복잡한 문제이다. 

총 1억 8,000가지가 넘는 단백질 배열 중, 과학계는 지금까지 총 18만 개의 단백질 구조 작업을 완료했다. 딥마인드가 제시한 새로운 데이터베이스는 지금까지 알려진 단백질 구조보다 두 배 이상 더 많은 예측 결과를 제시한다. 이제 생물학계에서는 단백질의 상호작용과 기능 방식을 이해하는 작업을 할 수 있을 것이다. 또, 이를 넘어서 새로운 단백질을 설계해, 더 빠른 속도로 약물을 찾아내고 질병을 유발하는 유전적 변이 등 많은 사항을 이해할 수 있다. 유럽 분자 생물 연구소(EMBL)의 유럽 생물정보학 연구소 명예 소장인 재닛 손톤(Janet Thornton)은 “단백질 구조보다 단백질 자체를 연구할 부분이 더 많다. 따라서 과학계는 단백질을 함께 연구해야 한다. 단백질은 생명 유지 방식을 더 폭넓게 이해할 한 가지 요소이다”라고 설명했다.
 
[사진=DeepMind]
[사진=DeepMind]

2021년 하반기, 알파폴드 연구팀은 총 1억 개의 단백질 구조를 공개할 계획이다. 알파폴드 수석 연구원인 존 점퍼(John Jumper)는 “알파폴드 연구팀은 매우 중요한 자원이 되는 단백질 구조부터 단백질까지 중복되는 모든 사항을 연구할 것”이라고 밝혔다.

알파폴드는 2020년 12월, 딥마인드 연구팀이 생명과학 분야의 최대 단백질 구조 예측 대회 CASP에서 승리했을 당시 단백질 접힘 문제를 풀었다. 당시 딥마인드는 데이터와 코드를 누구나 활용하도록 공개할 것이라고 밝혔다. 그리고 불과 8개월도 지나지 않은 2021년 7월, 딥마인드는 네이처에 논문을 게재하면서 알파폴드 2의 전체 코드와 방법을 공개했다. 그후, EMBL와의 협력을 통해 모든 연구 내용을 무료로 사용할 수 있다고 공식 발표했다. 알파폴드 단백질 구조 데이터베이스(AlphaFold Protein Structure Database)라는 이름으로 알려진 대규모 자원을 공유하기 위한 것이다. 딥마인드 공동 창립자 겸 CEO인 데미스 하사비스(Demis Hassabis)는 기자 간담회를 통해 “연구팀의 단백질 구조 관련 연구는 인공지능(AI)이 지금까지 과학적 지식수준을 뛰어난 수준으로 향상하는 데 가장 크게 기여했다고 생각한다”라고 말했다.

지구의 모든 생명체는 선형 체인에서 복잡하고 작은 3D 구조로 접힌 아미노산의 단순한 배열인 단백질로 구성됐다. 단백질은 횟수 제한없이 접힌 뒤, 최종 구조를 갖춘다. 1972년, 크리스천 엔피선(Christian Anfinsen)은 노벨상 수상 연설에서 아미노산 배열이 단백질 구조를 결정한다고 주장했다. 그러나 이를 입증하는 것은 전혀 다른 차원의 문제였으며, 단백질 접힘 문제가 지난 50년간 과학계의 단백질 구조 확인에 큰 어려움을 주면서 당황스럽게 만든 골칫거리가 되었다.

과거의 단백질 구조 연구는 X선 결정학과 전자 현미경 검사 등 막대한 비용과 시간이 소요되는 방식으로 이루어졌다. 답을 찾는 데 최소 수개월에서 최대 1년이 걸렸다. 일부 과학자는 박사학 과정 이수 내내 단백질 구조 문제 단 하나를 푸는 데 시간을 보내기도 했다. 딥마인드 AI 과학 총괄인 푸시미트 콜리(Pushmeet Kohli)는 “이후 성공이 보장되지 않았다. 일부 단백질은 구조 찾기가 매우 어려운 것으로 악명이 높았다”라고 말했다. 그러나 수많은 단백질 정보를 보유한 알파폴드의 새로운 데이터베이스 덕분에 누구나 단 몇 분 만에 단백질 구조를 알아낼 수 있다.

딥마인드는 최신 연구 논문을 통해 알파폴드의 연구를 보여주면서 이를 인간 단백질 구조 98.5%를 예측하는 데 적용했다. 또한, 초파리와 대장균 등 생물학 연구에 중요한 20가지 핵심 유기체의 단백체 구조도 포함하여 공개했다.

알파폴드 연구팀은 단백질 구조 예측을 개인 연구에 활용하고자 하는 연구원을 위해 가장 신뢰도가 높은 것으로 보이는 예측 결과를 분류하면서 신뢰할 수 있는 측정 값을 제공했다. 단백질 구조의 신뢰도가 낮으면, 연구원은 제대로 연구 결과를 얻지 못하게 된다. 하지만, 확실한 지표를 제시한다면, 과학자가 신뢰할 수 있는 정보와 다른 수단으로 한 차례 더 검증이 필요한 예측 구조를 알아낼 수 있다. 알파폴드는 인간 단백체에서 단백질을 구성하는 아미노산 구조의 1/3 이상을 간신히 예측했다. 신뢰도는 다음 최고 신뢰구간에 해당하는 60%로 매우 높은 편이다.

일부 단백질 영역은 알파폴드가 낮은 신뢰도로만 예측 결과를 제공할 수 있다. 다만, 연구팀은 신뢰도가 낮아도 중요한 요소를 발견했다고 생각하며, AI로 제작된 알파폴드 기술의 실패라는 주장을 부인한다. 점퍼 연구원이 이끄는 알파폴드 연구팀이 일부 단백질 영역의 신뢰도가 낮은 예측 결과를 발견했을 때, 크게 당혹스러워했다. 그러나 더 면밀히 분석하면서 단백질 구조가 실제 선천적으로 문제가 있는 단백질 구조라는 사실을 확인했다. 점퍼 연구원은 “변경된 구조는 없다. 이 때문에 답을 찾을 수 없다. 또, 실험을 진행한 연구원에게 가치 있는 결과이기도 하다”라고 주장했다.

딥마인드는 수사 박사와 마찬가지로 간혹 다른 연구팀에 데이터베이스를 임대해왔다. 일회용 플라스틱을 생분해하는 효소 발견 연구를 하는 포츠머스대학교 구조 생물학 교수인 존 맥기한(John McGeehan) 교수는 알파폴드를 이용해, 알파폴드가 제시한 예측 구조에 대응하는 결정체 구조를 실험했다. 그 결과, 구조가 일치한다는 사실과 함께 알파폴드가 제시한 결과가 결정체 구조로 확인할 수 있는 것보다 더 많은 정보를 포함한 사실을 확인할 수 있었다.

알파폴드는 단백질 구조 결정을 위한 실험 방법을 대체하지 않을 것이다. 대신, 알파폴드와 실험 방법이 서로 보완할 수 있도록 활용할 계획이다. 일례로 예측 결과 신뢰도가 낮은 단백질 영역에는 단백질 구조를 풀어낼 다른 수단이 필요하다. 수사 박사는 “현재의 단백질 구조 연구 과정은 겉으로 드러난 예측 결과만 얻고 옳다고 가정하는 데 그치던 수준을 넘어섰다고 생각한다”라고 말했다.

이번 논문과 함께 공개된 알파폴드의 단백질 구조 발견 성공은 수많은 과학자에게 그리 충격을 주지 않았다. 막스 플랑크 연구소(Max Planck Institute)의 발생생물 연구소 소장이자 CASP 심사위원이었던 안드레이 루파스(Andrei Lupas) 소장은 알파폴드가 이전부터 AI와 같은 기술이 지닌 것으로 추정된 능력을 더 확고히 확인하는 역할을 했다고 말한다. 알파폴드의 뒤를 이어 이와 비슷한 시스템이 등장했다. 워싱턴대학교 연구팀은 이미 알파폴드2와 비슷한 단백질 예측 툴인 로제타폴드2를 설계했다. 루파스 소장은 “2021년 말이면, 뛰어난 성능을 지닌 단백질 구조 예측 기술을 활용할 수 있으리라 기대한다”라고 말했다.

또, 구조 생물학계에는 회의적인 견해를 드러내는 이들도 존재한다. 결국, 예측된 구조는 예측일 뿐이며, 알파폴드와 같은 기술의 신뢰 수준이 제각각이라는 결과가 나올 수 있기 때문이다. 과거 CASP에 참가한 이력과 심사위원으로 활동한 이력을 모두 지닌 유니버시티칼리지런던의 생물정보학 및 컴퓨터 생명 공학 교수인 앤드류 마틴(Andrew Martin) 박사는 “구조 생물학자의 입장에서 알파폴드와 같은 툴 때문에 단백질 구조를 연구하던 연구원이 연구할 내용이 사라질 일은 없다고 본다. 알파폴드의 단백질 구조가 맞다는 사실을 검증하고자 할 것이기 때문이다. 단백질 구조 연구와 관련된 모든 연구를 통틀어 크게 성과를 거둔 것은 분명하다. 그러나 최종 정답은 아니라고 생각한다”라고 주장했다.

근본적으로 알파폴드의 단백질 구조 발견 소식은 AI가 인간보다 더 나은 결과를 제시할 수 있다는 사실을 입증한다. 점퍼 연구원은 “과학계는 그동안 단백질 구조 예측 부분에서 형편없는 성과를 거두어 왔다”라고 말했다. 머신러닝과 생물학의 결합은 단순히 더 나은 결과를 얻는다는 의미가 아니라 인간이 할 수 없는 일을 해낸다는 의미이다.

** 위 기사는 와이어드UK(WIRED.co.uk)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
DeepMind’s AI has finally shown how useful it can be
이 기사를 공유합니다
RECOMMENDED