分子の物性値をディープラーニングで高速に予測:原子間ポテンシャル関数を取り入れたグラフニューラルネットワークによる分子化合物の物性値予測

課題

世の中には非常に多くの化学物質が存在しています。洗剤や薬品等様々な形で我々の生活を豊かにしている化学物質ですが、大量生産されている化合物は膨大な組み合わせの中の0.02%にも満たないものです。より優れた機能や新しい機能を持つ化合物を生成するためには様々な原子の組み合わせを検証する必要がありますが、それらの組み合わせをひとつずつ生成、測定することは膨大な時間を要します。化学物質の分子構造から特性を理論計算する手法も数多く提案されていますが、それらの手法にも様々な設備や専門知識、また多くの時間が必要でした。一方で近年のディープラーニング技術の進歩により、分子構造の情報から物性値を予測するモデルが複数提案されています。しかしそれらのモデルでも、分子構造情報の表現が複雑であったり、学習するパラメータ数が非常に多く学習が困難であるなどの課題がありました。
このような課題に対して、産業技術総合研究所 人工知能研究センター 機械学習研究チームの椿真史 研究員は、東京大学 溝口照康 准教授との共同研究においてネットワーク中に原子間相互作用の影響力とポテンシャル関数の構造を組み込んだディープラーニングモデルを用いることで高速、高精度に分子化合物の物性値を予測可能なモデルを発表しました。

解決方法

従来のディープラーニングの手法を用いた物性値の予測モデルでは、ネットワークの構造が複雑で巨大であるために非常に多くのパラメータを学習させる必要がありました。また分子の情報をネットワークに入力する際にはそれぞれの分子の原子価状態等を記述する必要があり、利用障壁が高いという問題がありました。今回提案されたディープラーニングモデルは、グラフニューラルネットワーク(Graph Neural Netrok)と呼ばれる構造を基に原子間のポテンシャル関数(今回のモデルではモースポテンシャル関数と呼ばれるポテンシャル関数)と原子間の距離に応じた結合の強さを表現するパラメータをネットワーク中に設定しています。またネットワークに入力する分子構造データを分子中に含まれる原子の種類とその位置に基づいた特徴ベクトル表現とし、それぞれの原子毎にはランダムな種類ベクトルが付与されます。ネットワークの学習時には、ポテンシャル関数のパラメータや原子特徴ベクトルのパラメータを分子の物性値に対する予測誤差のみから学習する手法を採用しています。
実験に利用されたネットワークは主に6層のもので、低次の層には局所的な2つの原子間の相互作用やポテンシャル関数が、高次の層にはより分子全体の大域的な原子間の相互作用が表現されるようになっています。ネットワークの最終層ではそれぞれの原子ベクトルの情報を集約して分子ベクトルを生成し、そのベクトルから物性値を予測します。このようなネットワーク構造や学習手法には前述したグラフニューラルネットワークや、言語翻訳の分野で近年注目されているアテンションメカニズム(Attention mechanism)が利用されています。モデルの詳細に関しては産業技術総合研究所のプレスリリースこちらを参照ください。

どうなったか

QM9と呼ばれるCHONF(炭素、水素、酸素、窒素、フッ素)を含んだ約13万種類の分子化合物からなるデータベースを用いて提案モデルを学習し、物性値の予測を行いました。実験の結果、QM9に含まれる13種類の物性値の内8種類の値において従来のディープラーニングモデルよりも予測精度が高いことが示されました。またモデルにおいて学習された原子間のポテンシャル関数と理論計算の結果を比較したところ、それらの結果がよく一致することが確認されました。モデル学習には分子の物性値に関する誤差情報しか用いていないにもかかわらず、ポテンシャル関数の構造をネットワークに埋め込むことによって物理化学的に解釈可能な特徴がネットワークに獲得されました。これは従来のモデルにはなかった特性で、ディープラーニングモデルが学習した情報を検証することに役立つと考えられます。提案モデルは理論計算手法よりも高速に物性値を予測できるとともに、理論計算でも誤差の発生しやすい原子数の多い分子に対して、物性値の予測精度が高いことが明らかになりました。この結果は、大規模なな分子化合物を実際に実験的に生成する際に、分子化合物の選別に提案モデルを利用する価値があることを示しています。

まとめ

ディープラーニングの技術を利用することで分子の構造情報から物性値を予測する手法について紹介しました。大規模な分子化合物の特性が高速に、かつ精度よく予測可能になることで、より新しい機能や効果を持つ薬剤の開発等が加速すると考えられます。
提案されたモデルでは、近年ディープラーニングを用いた言語翻訳モデルで注目されているアテンションメカニズムと呼ばれるアイディアが利用されています。産業技術総合研究所の同チームは今回のようにグラフニューラルネットワークとアテンションメカニズムを利用することで薬剤とタンパク質の化学的相互作用を予測する手法も開発しています(こちらをご覧ください)。ある分野で注目されていた手法が別の分野の問題解決に利用できることもあるため、様々な分野で注目されている手法を定期的に調査することが重要になると考えられます。

参考資料

(堀井隆斗)