인공지능 프로그램 알파폴드가 구조를 예측한 단백질은 2억개가 넘는다. 지금까지 실험으로 구조가 밝혀진 단백질 20만개의 1천배에 이른다. 그 결과 단백질 우주도 그만큼 확장됐다. 딥마인드 제공
강석기 ㅣ과학칼럼니스트
단백질은 탄수화물, 지방과 함께 3대 기본 영양소다. 우리 몸에 존재하는 수만~수십만 종류의 단백질은 각종 생체반응을 촉진하는 효소에서 세포 골격 구실 등 다양한 기능을 수행하고 있다. 이는 다른 생물도 마찬가지다.
세포 안에서 단백질 기능을 제대로 이해하려면 그 구조를 알아야 한다. 단백질은 아미노산 수십~수천개가 염주 구슬처럼 이어진 상태에서 적절하게 접혀 안정된 3차원 구조를 유지하고 있다. 20세기 중반 엑스(X)선 회절법으로 미오글로빈과 헤모글로빈 단백질 구조가 밝혀진 이래 지금까지 20만개의 단백질 구조가 밝혀졌다. 단백질 구조를 밝히는 것을 별의 발견에 비유해 이들의 총체를 ‘단백질 구조 우주’ 또는 ‘단백질 우주’라고 부른다.
그러나 이는 빙산의 일각이다. 게놈 해독 기술이 눈부시게 발전하면서 아미노산 서열이 밝혀진 단백질이 수억개에 이르고 있기 때문이다. 단백질 구조 규명 속도도 빨라졌다지만 ‘뛰는 놈 위에 나는 놈’이라고 격차가 오히려 벌어졌다.
그런데 구글 자회사 딥마인드의 인공지능 알파폴드가 단백질 구조 규명의 구원투수로 등장했다. 기계학습으로 기존 단백질 구조 데이터를 흡수해 자기 것으로 만든 알파폴드는 단백질의 아미노산 정보를 바탕으로 구조를 예측한다. 지난해 말 공개된 알파폴드 단백질 구조 데이터베이스에는 무려 2억1400만개의 단백질 구조가 들어 있다. 실험으로 구조가 밝혀진 단백질의 1천배 규모로, 그만큼 단백질 우주도 커진 셈이다.
지난주 학술지 ‘네이처’에는 알파폴드의 단백질 우주를 분석한 논문이 실렸다. 2억개가 넘는 단백질 구조를 유형에 따라 분류했더니 약 200만개 무리로 나뉘는 것으로 밝혀졌다. 한 무리(은하)는 평균 100개의 단백질(별)로 이뤄진 셈이다. 이 가운데 3분의 1은 기능을 전혀 모르는 단백질로 이뤄져 있다고 한다.
알파폴드 같은 인공지능 단백질 구조 예측 프로그램을 신약 개발에 활용하는 연구도 활발하다. 예를 들어 항체 신약을 만들 때 기존처럼 보유한 항체를 일일이 테스트하는 대신 인공지능을 활용하면 시간과 비용을 크게 줄일 수 있다.
알파폴드(엄밀히 말하면 알파폴드2)를 개발한 딥마인드의 데미스 허사비스 대표와 존 점퍼 연구원은 지난 9월 미국판 노벨 생리의학상으로 불리는 래스커상을 수상했다. 데미스 허사비스라는 이름에서 2016년 알파고가 이세돌을 꺾은 사건이 떠오를 것이다. 최근 학술지 ‘미국 국립과학원 회보’에 실린 기고문에 따르면, 단백질 구조 예측 인공지능 프로그램을 만드는 게 허사비스의 원래 목적이었고 알파고는 세상의 관심을 끌기 위한 미끼였다고 한다.
이세돌에게 승리하고 영국으로 돌아온 허사비스는 본격적으로 알파폴드1 개발에 착수했고 2018년 단백질 구조 예측 학술대회에 나가 1등을 차지해 주위를 놀라게 했다. 그러나 평균 오차가 수소원자 6~7개 거리라 쓸모는 없었다. 그 뒤 단백질 분야와 인공지능 분야 모두를 섭렵한 점퍼가 합류해 개발한 알파폴드2로 2020년 대회에서 오차를 수소원자 1개 거리로 줄이며 센세이션을 불러일으켰다. 기고문은 인공지능 알파폴드의 작동 원리를 설명하고 있지만 정작 알파폴드가 어떻게 이처럼 뛰어난 결과를 내놓는가는 개발자들조차도 제대로 이해하지 못하고 있다고 덧붙였다. 앞으로 인공지능이 어디까지 나아갈지 기대와 두려움이 교차한다.