본문 바로가기 주메뉴 바로가기 검색 바로가기
오미크론의 까다로운 구조, AI 소프트웨어가 거의 예측했다
상태바
오미크론의 까다로운 구조, AI 소프트웨어가 거의 예측했다
복잡한 아미노산 배열을 해석하는 새로운 알고리즘이 변이 코로나바이러스 초기 예측 정보를 제시한다. 미래 약물 개발의 중요한 순간이 될 수도 있다.
By TOM SIMONITE, WIRED US

2021년 11월 26일, 세계보건기구(WHO)는 남아프리카공화국에서 급격히 확산된 변이 코로나바이러스가 우려스러운 변이 바이러스 상태라고 지정하면서 ‘오미크론’이라는 이름을 정했다. 다음날 브리티시컬럼비아대학교의 스리람 수브라마니암(Sriram Subramaniam) 교수는 온라인에 게재된 게놈 배열 순서 정보를 다운로드하고는 연구실에 오미크론 DNA 샘플 배송 주문을 했다. 

수브라마니암 교수 연구팀은 전자현미경을 이용해 단백질 3D 구조를 밝혀내, 단백질 구조 작용을 더 자세히 이해하고자 했다. 연구팀은 이미 코로나바이러스가 일부 초기 바이러스 확산 시 인간 세포 결합과 투입에 이용한 스파이크 단백질의 지도를 제작했다. 수브라마니암 교수는 오미크론의 스파이크 단백질 설명이 매우 시급하다고 생각했다. 오미크론의 DNA는 급격한 확산을 설명할 수 있을 정도로 다른 바이러스 DNA와 달랐기 때문이다. 그러나 수브라마니암 교수는 주말에 온라인 쇼핑 상품 배송을 기다리는 여느 고객과 같이 인내심을 가졌다. DNA가 우편으로 도착할 때까지는 오미크론 단백질을 현미경으로 관찰할 수 없었다.

북미 대륙 전 영역에 걸쳐 노스캐롤라이나대학교 샬럿캠퍼스의 컴퓨터 유전학 연구원 콜비 포드(Colby Ford)도 오미크론의 스파이크 단백질에 대해 생각했다. 이어, 오미크론 스파이크 단백질과의 관계성 때문에 다수 전문가의 연구에 난제를 안겨준 오미크론의 기존 백신 면역력 우회 여부라는 질문을 던졌다. 백신은 인체에 초기 변이 바이러스에서 발생한 스파이크 단백질에 대응하도록 한다. 최근, 포드는 연구실에 샘플 공급을 주문하는 대신 오미크론 문제의 답을 찾을 한 가지 지름길을 택했다. 그는 WHO가 오미크론이라는 명칭을 지정한 날 무료 인공지능(AI) 소프트웨어를 이용해 오미크론의 게놈에 변환된 아미노산 배열의 구조 생성 실험을 하면서 예측했다.

포드는 한 시간 정도 지나자 첫 번째 결과를 얻고는 재빨리 결과를 온라인에 게재했다. 2021년 12월 초, 포드는 다른 동료 두 명과 함께 AI의 오미크론 구조 관련 연구 논문 전문을 게재했다. 현재 포드가 동료와 게재한 논문은 기존 변이 바이러스의 일부 항체의 오미크론 예방 효과가 감소할 수 있다는 예측 결과를 포함하여 정식 발표 승인을 받은 상태이다.

수브라마니암 교수 연구실에 곧 오미크론 DNA 샘플이 배송됐으며, 연구팀은 12월 21일 자로 DNA 샘플 구조를 현미경으로 관찰한 결과와 함께 실제 항체 테스트 결과를 설명하는 연구 논문을 게재했다. 포드가 초기 예측한 두 가지 결과 중 하나가 꽤 정확하다는 사실이 입증됐다. 포드는 오미크론 DNA의 중앙 원자의 위치와 기존 변이 바이러스의 차이가 수소 원자의 반경과 맞먹는 수준인 약 100만 분의 1이라고 계산했다. 포드는 “AI는 인지한 추측 정보를 매우 빠른 속도로 계산하도록 한다. 코로나19 확산세와 같은 상황에 매우 중요한 요소이다. 앞으로 어떠한 바이러스가 새로 등장하든 누구나 오미크론 구조 계산을 위해 AI를 이용한 것과 같은 과정을 반복하면 된다”라고 말했다.
 
[사진=Unsplash]
[사진=Unsplash]

오미크론 스파이크 단백질 실험에 앞서 포드가 발표한 계산 결과는 최근 들어 AI가 가져온 분자 생물학 분야의 대대적인 변화를 반영한다. 첫 번째 소프트웨어의 단백질 구조 예측 정확도는 알파벳의 영국 AI 연구소 딥마인드(DeepMind)와 워싱턴대학교 연구팀이 완료한 작업 덕분에 오미크론이 발현하기 단 수개월 전에 얻게 된 성과이다. 

포드는 두 가지 AI 소프트웨어를 사용했으나 둘 중 하나라도 오미크론과 같은 변수가 일으킨 사소한 변화 예측을 위해 설계되거나 검증할 능력을 갖추지 못했다. 이 때문에 포드가 계산한 결과는 오미크론 구조를 확실히 제시하기보다는 예측 결과를 제시하는 것에 더 가까웠다. 일부 연구팀은 포드가 제시한 결과에 의구심을 가졌다. 그러나 AI가 제시한 강력한 단백질 구조 예측 결과로 손쉽게 실험을 진행했다는 사실은 최근의 획기적인 발전이 이미 생물학자의 연구와 판단 방식에 변화를 주고 있음을 시사한다.

수브라마니암 교수는 연구실에서 오미크론 구조 예측 실험을 진행하는 동안 오미크론 스파이크 구조 예측 사항을 제시하는 전문가에게서 이메일 4~5통을 받았다고 밝혔다. 그는 “당시 오미크론 구조 예측 관련 메일 다수는 단순히 재미로 보낸 것이었다”라고 말했다. 단백질 구조를 직접 측정하는 과정이 여전히 궁극적인 표준 연구 방식이지만, 미래 질병 발병 가능성을 포함해 AI 예측이 갈수록 연구의 중심이 되고 있다. 수브라마니암 교수는 “AI 예측이 획기적인 변화를 가져오고 있다”라고 말했다.
 
“AI는 인지한 추측 정보를 매우 빠른 속도로 계산하도록 한다. 코로나19 확산세와 같은 상황에 매우 중요한 요소이다."
콜비 포드, 노스캘리포니아대학교 샬럿캠퍼스 컴퓨터 유전학 연구원

단백질 모양이 단백질의 작용 방식을 좌우한다는 점에서 구조 이해가 진화 연구부터 질병 확산으로 이어지는 진화 과정 등 각종 연구를 돕는다. 약학 연구에서 단백질 구조를 밝혀낸다면, 새로운 치료법의 잠재적인 목표를 밝히는 데 도움이 된다.

단백질 구조 결정 과정은 매우 복잡하다. 단백질 구조는 효소와 항체, 기타 여러 생명체 조직 역할을 하는 유기체의 게놈에 변환된 지시 사항에서 조합된 복잡한 분자이다. 단백질은 각각 다른 형태로 작용하는 복잡한 구조로 접힐 수 있는 아미노산이라는 분자 배열로 구성됐다.

그동안 단백질 구조 이해 과정에는 매우 신중한 연구실 실험 과정이 포함됐다. 지금까지 완벽하지 않지만, 어느 정도 알려진 20만여 가지 단백질 구조 대부분 단백질을 결정체로 형성하고 X레이 정보를 제공하는 까다로운 과정을 이용해 구상됐다. 수브라마니암 교수가 사용한 전자현미경 검사 방법과 같이 상대적으로 새로 등장한 방법이 다른 방법보다 더 빠른 속도로 단백질 구조 예측 결과를 제시할 수 있지만, 그 과정이 어렵다.

2020년 말, 오래전부터 이어졌으나 그동안 진전 속도가 느렸던 컴퓨터가 아미노산 구조를 통한 단백질 구조 예측이 가능하리라는 기대가 한순간에 현실이 됐다. 딥마인드의 소프트웨어인 알파폴드(AlphaFold)가 단백질 구조 예측 대회를 통해 정확도가 매우 뛰어나다는 사실이 입증됐기 때문이다. 이에, 대회의 공동 주최자인 존 몰트(John Moult) 메릴랜드대학교 교수는 단백질 구조 예측이라는 수수께끼가 해결됐다고 공식 선언했다. 몰트 교수는 “개인적으로 단백질 구조 예측이라는 난제를 해결하고자 오랫동안 연구해왔다”라며, 딥마인드가 알파폴드와 함께 거둔 성과는 매우 특별한 순간을 나타낸다고 말했다.

단백질 구조 예측의 어려움을 해결하기 위한 순간은 일부 과학자에게 좌절감을 안겨주기도 했다. 딥마인드는 알파폴드의 단백질 구조 예측 방식을 즉시 공개하지 않았다. 단백질 구조 예측 연구에 몰두하는 워싱턴대학교 연구소의 데이비드 베이커(David Baker) 교수는 2021년, 와이어드와의 인터뷰에서 “현재 분자 생물학계는 학계 연구가 커다란 진전을 거두었으나 진전 사항을 바탕으로 연구 과정을 수립할 수 없는 기이한 상황이다”라고 말했다. 베이커 교수 연구팀은 딥마인드가 남긴 단서를 활용해 로제타폴드(RoseTTAFold)라는 오픈소스 소프트웨어 설계를 지시했다. 로제타폴드는 2021년 6월 공개됐으며, 알파폴드와 비슷하지만 정확도는 조금 더 낮다. 알파폴드와 로제타폴드 모두 머신러닝 알고리즘을 바탕으로 이미 알려진 구조 10만여 가지 컬렉션을 이용한 훈련을 거친 뒤 단백질 구조 예측 정확도를 향상했다. 2021년 7월, 딥마인드는 알파폴드 개발 작업을 상세히 작성하고는 누구나 알파폴드를 사용하도록 배포했다. 세계는 순식간에 단백질 구조를 예측할 두 가지 방법을 얻게 되었다.

로제타폴드 개발을 이끈 베이커 교수의 연구소 소속 백민경 박사후 연구원은 이전보다 속도가 훨씬 더 빨라진 단백질 구조가 순식간에 생물학 연구의 표준이 된 사실이 놀랍다고 말했다. 구글 학술검색(Google Scholar)에 공개된 바에 따르면, 워싱턴대학교와 딥마인드의 단백질 구조 예측 소프트웨어 관련 논문이 초기 발표 직후 총 1,200건이 넘는 학술 논문에 인용됐다.

예측 결과가 코로나19 퇴치 작업에 결정적이지 않다는 사실이 입증됐으나 백민경 박사후연구원은 미래 질병 예측 측면에서 단백질 구조 예측의 중요성이 커질 것이라고 말했다. 코로나19 진압 해결책은 알고리즘에서 완벽한 형태로 갑작스레 등장하지는 않지만, 구조 예측이 과학적 전략 수립에 도움이 될 수 있다. 백 연구원은 “예측 구조는 가장 중요한 문제에 대한 실험 노력을 도울 수 있다”라고 말했다. 이어, 현재 로제타폴드의 항체 구조 예측 정확성을 확보하고 단백질을 모두 결합했을 때 단백질에 침입하기 위한 노력을 펼치고 있다고 전했다. 결과적으로 전염병 프로젝트에서 로제타폴드가 더 유용해질 것이다.

매우 주목할 만한 성과를 거두었으나 단백질 예측 소프트웨어가 분자와 관련된 모든 정보를 드러내지는 않는다. 단백질의 단일한 정적 구조를 제시하면서 단백질 분자가 다른 분자와 상호작용할 때 발생하는 선과 움직임을 포착하지 않는다. 알고리즘은 이미 알려진 구조의 데이터베이스로 훈련 과정을 거친다. 데이터베이스는 자연의 완벽한 다양성보다는 실험으로 가장 쉽게 구상할 수 있는 분자 구조와 더 가깝다. 코펜하겐대학교 크레스텐 린도르프 라르센(Kresten Lindorff-Larsen) 교수는 알고리즘 사용 빈도도 증가하고, 유용할 것이라고 말했다. 다만, 그는 “알고리즘 예측 방식이 실패하면서 단백질 구조 관련 내용을 더 깊이 배워야 한다”라고 말했다.

수브라마니암 교수가 발표한 논문은 스파이크 단백질 구조 이외에도 AI가 아직 정복하지 못한 분야인 스파이크의 표적이 된 인간 단백질과 묶인 스파이크의 통합 구조도 설명한다. 연구 결과는 오미크론의 구조 변화는 숙주 세포가 더 강해지면서 과거 발생한 변이 바이러스 항체 저항 능력이 더 강해지도록 한다. 백신 접종률이 높은 지역사회에서도 오미크론 확산 범위가 매우 넓은 이유이기도 하다.

수브라마니암 교수는 “언제나 최고의 표준 연구 방식은 직접적인 측정이다. 10억 달러 규모의 약물 개발 계획을 이끈다면, 대중은 해당 연구의 실제 결과를 알고자 할 것이다”라고 말했다. 이어, 그는 오미크론 구조 실험 작업이 종종 AI의 예측을 통해 정보를 얻게 된다고 전했다. 수브라마니암 교수는 “AI가 학계의 사고방식을 바꾸었다”라고 언급했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
This AI Software Nearly Predicted Omicron’s Tricky Structure
이 기사를 공유합니다
RECOMMENDED