"화학 물질" 해석에 대한 설명
오늘 공부할 내용은 인코딩된 DNA 화학과 ML을 이용하여 "화학 물질" 해석(Unlocking the "Chemome" with DNA-Encoded Chemistry and Machine Learning)에 대한 내용입니다. 단백질을 이해하고 조절하여 사람 병을 치료하는 연구가 많이 되고 있습니다. 이렇게 생활을 지탱하고 병을 만드는 생물학적 네트워크 이해는 복잡함을 띄고 있습니다. 이를 이해하기 위한 한 가지 방법은 "chemical probe(=특정 단백질을 촉진시키거나 억제시키는 분자)"를 이용하는 것이지만 단지 4% 단백질의 "chemical probe"을 현재까지는 찾아냈습니다. 고등학교 이후에 거의 보지 않은 화학 분야라서 읽고 이런 게 있구나 정도를 아는 데에 의의를 두었습니다. 정말 어려운 포스팅이었습니다.
물리적 스크리닝과 가상 스크리닝
Chemical probe를 찾아내기 위해 고분자 공간에서 테스트할 만한 hit 분자를 스캐닝 해야 합니다. 하지만 기존에 쓰고 있는 물리적 스크리닝 방법으로는 거대한 고분자 공간을 계산하기 어려움이 있습니다. 광범위한 화학 공간에서 [관심 있는 단백질과 물리적으로 유용한 상호 관계를 갖는 분자(hits)]를 찾는 방법을 구축해야 합니다. 단백질과 연관 있을 가능성이 있는 분자를 계산적으로 평가할 수 있는 "가상 스크리닝(virtual screening)"이 있습니다. 이를 이용하면 효율적이고 빠르게 소분자를 찾을 수 있고 치료 화합물도 빠르게 알아낼 수 있습니다.
라이브러리 기반의 물리적 스크리닝과 GCNN 기반의 가상 스크리닝
이를 위해 DNA-인코딩된 고분자 라이브러리(DNA-encoded small molecule libraries) 기반의 물리적 스크리닝과 GCNN(graph convolutional neural network) 기반의 가상 스크리닝을 이용하여 효과 있는 분자를 찾아내는 기법을 고안했습니다. 라이브러리의 퀄리티와 스크리닝 처리 과정은 좋은 결과물을 도출하는데 중요한 요소입니다.
물리적 스크리닝 과정에서는 DELs(DNA-encoded small molecule libraries)를 이용하는데 여기서 각 분자는 그 분자에 대한 고유한 바코드로 DNA 파편에 부착됩니다. DEL은 각 분자를 구별하여 한 공간에 있을 수 있게 하는 좋은 방법입니다.
① 화학 핸들(ex. NH2)과 함께 고유한 DNA 바코드가 부착된 화학 파편(fragment)들을 만듭니다.
② ①의 파편들은 다른 화학 핸들(ex. HO)이 부착된 파편들과 합쳐져 다른 리액션들로 분리됩니다. 두 가지의 화학 파편들은 화학 핸들에 반응하여 융합되고, DNA 파편들도 하나의 바코드처럼 보이도록 서로 연결이 됩니다.
라이브러리가 생성되면 관심 있는 단백질에 같이 혼합해 보면서 결합되는 소분자를 찾아낼 수 있습니다. DNA 파편을 추적하면 원래 어떤 형태의 DEL이 단백질과 상호 작용을 했는지 쉽게 추적 가능합니다. 이 데이터를 기반으로 ML 모델을 만들어 임의로 선택한 소분자가 특정 단백질과 연관 있는 예측 가능합니다. 물리적 스크리닝 시에 남아있던 소분자를 Positive로 두고 나머지 모든 소분자를 Negative로 두고 학습하며, input에 가장 맞는 graph convolutional neural network 이용합니다.
하이브리드한 방법의 실험 결과와 논의점
두 개의 학습 모델(RF, GCNN)과 세 개의 데이터셋(sEH (a hydrolase), ERα (a nuclear receptor), and c-KIT (a kinase))을 이용해봤을 때 GCNN이 더 잘 나왔고 DELs를 쓰지 않은 기존의 virtual screening에 비해 자동화, 다양화, 양적으로나 질적으로 더 좋은 결과가 나왔습니다. 이 분야에 대해서 잘 몰라서 그렇긴 하지만, 일단 기존 시스템과 다르게 하이브리드하게 시스템을 만든 것이 큰 장점인 듯합니다. 굳이 알고리즘을 만드는 것뿐만 아니라 이렇게 다양한 분야에서 도메인에 맞게 AI 시스템을 점점 적용해가는 것도 연구의 중요한 부분이라는 생각이 듭니다. 정말 어려운 주제였습니다.