2種類の深層学習手法の組み合わせにより新薬開発が加速:産総研が薬剤とタンパク質の化学的相互作用を予測する手法を開発

 

課題

薬剤は標的とするタンパク質との化学的相互作用を介して、薬効や副作用という形で人体に影響を及ぼします。そのため、薬剤とタンパク質の相互作用の有無を予測することは新薬開発に置いて重要な課題です。この反応は非常に複雑な化学的過程であるため機械学習を用いて予測モデルを構築することが期待されています。
しかし、薬剤とタンパク質は構造が異なるため、疾患治療に有効な薬剤とタンパク質の組み合わせを高速で高精度に予測することは困難でした。さらに、人工知能が予測した結果は解釈が難しく応用への障壁となっていました。
そこで、国立研究開発法人 産業技術総合研究所(産総研)の機械学習研究チームは、インテリジェントバイオインフォマティクス研究チームと共同で、2種類の深層学習手法の組み合わせで薬剤とタンパク質の相互作用を予測する新たな手法を提案しました。さらに、提案手法では化学的相互作用部位を予測・可視化することで解釈性の高い結果を得ることができます。

解決方法

産総研のグループは、薬剤の分子構造情報とタンパク質のアミノ酸の配列情報を入力として、入力した組み合わせの化学的相互作用の有無を出力とするネットワークを構築しました。
予測のためのネットワークは、化学と生物学の知識に基づき、グラフニューラルネット(GNN)畳み込みニューラルネットワーク(CNN)という構造の異なる2種類のネットワークを組み合わせています。
薬剤には原子と結合をグラフ構造として表現できるグラフニューラルネットワーク(GNN)、タンパク質にはアミノ酸の配列を配列構造データとして表現できるため畳み込みニューラルネットワーク(CNN)を活用します。
まず、この2種類のネットワークを組み合わせたネットワークにより化学的相互作用の有無を予測するように学習します。
さらに、相互作用部位を特定するためにニューラルアテンションメカニズムを用いた学習を行います。

どうなったか

実験には3万5千以上の薬剤とタンパク質の化学的相互作用のデータを用いて行いました。
その結果、予測精度は9割超となり、既存のドッキングシミュレーションや他の深層学習の手法と比較して3~10%精度が向上しました。
化学的相互作用の有無の割合が、1対5のように偏ったデータで学習した結果では、提案手法の精度が他の手法に比較して高い結果となりました。
化学的相互作用部位の予測を行うことで、予測した部位の可視化が可能になりました。これにより、化学・生物学の知識と照らし合わせることができるため、解釈性が向上しました。

まとめ

この手法を用いることで、新薬開発の加速だけでなく、人間の勘や経験では到達できない革新的な薬剤の開発も期待できます。
産総研は今後、薬剤やタンパク質の3次元立体構造を利用した手法を開発し、精度の向上、詳細な解析、三次元構造での化学的相互作用部位の検証を目指すとしています。

なお、今回紹介した手法は、学術雑誌Bioinformaticsに掲載されています。

参考資料

(宮澤和貴)