トップページ  >  研究活動  >  研究成果 ピックアップ  >  AIによる医薬設計プロセスの効率化と次世代創薬AI事業への取り組み

AIによる医薬設計プロセスの効率化と次世代創薬AI事業への取り組み

HPC/AI駆動型医薬プラットフォーム部門 創薬化学AIアプリケーションユニット ユニットリーダー 本間光貴

理化学研究所計算科学研究センター(R-CCS)では、2021年4月に新たにHPC/AI駆動型医薬プラットフォーム部門が加わりました。本記事では、この部門のうち理研横浜キャンパスを拠点とする「創薬化学AIアプリケーションユニット」(ユニットリーダー 本間光貴)について、AIによる医薬設計プロセスの効率化と次世代創薬AI事業への取り組みを中心に紹介します。これまで有効な医薬品がなかった難病や希少疾患に対する画期的な医薬品が、より短期間で効率的に開発されることが期待されます。

(代表者:理化学研究所 計算科学研究センター HPC/AI駆動型医薬プラットフォーム部門 創薬化学AIアプリケーションユニット ユニットリーダー 本間光貴)

創薬の研究開発期間や費用の削減の切り札となるインシリコ創薬

世界の人口増加や高齢化に伴い、がんなどの難病、患者数の少ない希少疾患に加えて、COVID-19などの新興再興感染症の新規治療薬の開発が期待されています。一方で、従来の創薬では分子量が500程度以下の低分子化合物が主流でしたが、現在では、より大きな中分子や抗体等のバイオ医薬品へ移行してきています。また、副作用等の安全性についての基準も年々厳しくなっており、創薬の難易度が非常に高くなり、製薬企業では年々創薬が困難になってきています。今や創薬の研究開発期間は10年以上に及び、欧米では、年間5~6兆円が研究開発に充てられています。そこで、欧米を中心に2000年代後半から、研究開発期間と費用を削減すべく産官学連携によるオープンイノベーションが進められてきました。

このような中、日本においても、2010年4月に理化学研究所の野依良治前理事長のリーダーシップの下、「創薬・医療技術基盤プログラム(DMP)」と呼ばれる創薬のオープンイノベーションプログラムがスタートしました。また、2015年には産官学連携によるオープンイノベーションのための組織として日本医療研究開発機構(AMED)が発足しました。その間、人工知能についての技術革新があり、2016年11月には、京都大学 大学院医学研究科および理化学研究所 医科学イノベーションハブ推進プログラムの奥野恭史教授を代表とする「ライフインテリジェンスコンソーシアム(LINC)」が発足しました。LINCの目的は人工知能(AI)ならびにビッグデータ技術の開発により、製薬・化学・食品・医療・ヘルスケアなどライフサイエンス分野を発展させることです。現在、製薬企業やIT企業など100社以上が参画し、産官学連携でAI創薬など各種課題に取り組んでいます。

このLINCの副代表の一人でありDMPなどを通して10年以上にわたりインシリコ創薬を推進してきたのが、理化学研究所 生命機能科学研究センター 制御分子設計研究チーム およびHPC/AI駆動型医薬プラットフォーム部門 創薬化学AIアプリケーションユニット の本間光貴 チームリーダー/ユニットリーダーです。インシリコ創薬とは、計算科学によりコンピュータの中で薬を開発する創薬手法です。本間研究室では現在、奥野教授らとともに、2020年8月に発足したAMEDの産学連携による創薬支援推進事業「次世代創薬AI開発(DAIIA)新しいタブで開きます」(2020年8月~2025年3月)に取り組んでいます。

製薬企業との連携によるAIシステムの開発

創薬までには、図1のようなプロセスをたどります。その中で本間研究室がインシリコによる研究開発を進めているのが主に「リード探索」から「リード最適化」までのプロセスです。

これまでの研究において、創薬に応用可能なAI技術に関しては開発が進んでいましたが、AI構築には、学習データが必要であり、公開されているデータだけでは十分に実用的で適用範囲の広いAIを作り出すことは不可能でした。本間研究室では、AMED DAIIA事業の一環で、エーザイや武田薬品などDAIIAに参画している製薬企業17社(2021年7月現在)に社内で保有しているデータを出し合ってもらい、創薬までのプロセスにおいて有用なAIの開発に取り組んでいます。それにより、これまで時間がかかっていた各プロセスを効率化し飛躍的に短縮することが期待されます。

目的とする病気の医薬品を開発する場合、まず出発点になる化合物の探索から始める必要があります。これは多数の医薬品の候補となる化合物のデータベースの中から目的とする病気の原因となるタンパク質に適合する化合物を探索するプロセスです。

図1:新薬の開発のプロセス。ターゲット探索から臨床試験、承認、薬物治療に至るまでは長い道のりをたどる。
出典:ライフインテリジェンスコンソーシアム(LINC)ウェブサイト新しいタブで開きますの図より一部抜粋

医薬品として有望視されるための化合物の条件としては、活性・薬効(病気の原因となっているタンパク質との結合力など医薬品としての効果)やADME (医薬品の体内における振る舞い )、毒性・副作用などがあり、医薬品として承認されるまでにはすべての条件を満たしていなければなりません(図2)。

従来の創薬では、AIを全く使わないか、部分的に利用する段階に留まっていましたが、本間研究室ではまず活性・薬効、ADME、毒性・副作用などすべての条件を満たす化合物を網羅的なAIシステムを使って探索し、AIが有望と予測した化合物を中心に最適化を進めることにより、リード探索における効率化を進めています。

特に2015年以降はディープラーニング(深層学習)の性能向上やビッグデータにより、AIの性能が大きく向上しました。AIなどコンピュータを使ってターゲット探索をすることを「インシリコスクリーニング」と言います。これまでインシリコスクリーニングには、分子の振る舞いを原子レベルで計算機上に再現する分子シミュレーションが活用されてきました。それに対し、本間研究室で注力しているのがシミュレーションとAIの融合によるスクリーニングの効率化です。

図2:医薬品を新たに開発する上では、薬効だけでなく活性・薬効やADME、毒性・、副作用などを確認しすべての条件を満たしていなければならない。
A:吸収(absorption)、D:分布(distribution)、M:代謝(metabolism)、E:排泄(excretion)

AIはビッグデータを使って学習させることで、薬効、体内動態、毒性等のプロファイルが良好な化合物が持つべき規則性をモデル化し、それにより、多くの化合物の中から薬効等の性質が良好な化合物を探索できるようになります。AIの学習効果は、元になるデータの質と量に大きく依存するため、ビッグデータが不可欠です。

本間研究室では化合物探索の段階において、約5億4300万種類に及ぶ医薬品候補の低分子データが蓄積されたデータベースを保有しており、このデータベースを基にシミュレーションとAIを組み合わせた医薬品設計を進めています。これまで40~50種類のターゲット(病気の原因となるタンパク質)を対象にインシリコスクリーニングを実施してきました。

さまざまなAIを開発し創薬プロセスを加速

インシリコスクリーニング等の化合物探索によって見出された化合物(ヒット化合物)は、いわば医薬品の原石のようなものです。ヒット化合物はリード探索のプロセスに進みます。リード化合物とは、新しい医薬品を「導き出す(=リードする)化合物」という意味であり、病気のモデル動物での薬効を示す化合物です。

AIにより提案された構造は、計算機上の仮想的な分子ではなく、有機合成によって実際の試験用のサンプルを得るプロセスに進みます。しかし、化合物の合成は容易なことではありません。通常、化合物の合成においては構造式を基に、その一部分となる試薬を組み合わせて合成します。合成が容易か否かは従来、熟練した研究者や技術者が長年の経験や過去の実験データを基に判断してきました。

本間研究室では、奥野教授らと共同で、合成の難易度を判断できるAIの開発も行っています。これはモンテカルロ木探索手法と呼ばれるAlphaGoにも使われている経路探索手法を用いて、合成経路を探索するというものです。AIを使うことで、どの順番で合成すれば成功率の高い合成ができるか予測できるため、合成の効率化を図ることができます。

 活性・薬効、ADME 、毒性などの予測に関しては、「転移学習」と呼ばれるAI学習法などを取り入れています。転移学習とは、たとえば、AIを使ってライオンの画像を抽出したいものの、AIに学習させるためのライオンの画像が少ないため、豊富にある猫の画像データを転用してAIに学習させるといった技術です。マルチタスク学習は、転移学習を発展させたもので、たとえば、猫の画像データを使ってライオンだけでなく、ヒョウやピューマなど他のネコ科の動物も抽出できるようになるといった技術です。

この例を医薬品に当てはめて説明しましょう。人間の体の中には数万種類のタンパク質がありますが、構造が似ているものが数多く存在します。これは、進化の過程において既に存在しているタンパク質を少し変えて別の機能を発現させるようにした方が、新たにタンパク質を作るよりも容易だからです。しかし、その結果、病気の原因となるタンパク質と似た構造をもつタンパク質が数多く存在することになりました。これが、医薬品の副作用の原因のひとつになっています。それに対し、AIによる転移学習やマルチタスク学習を適用させることで、同じようなタンパク質であっても区別できるようになり、少ないデータしかないタンパク質に対しても精度の高い予測が可能となります(図3)。

図3:LINCおよびDAIIAの下、本間研究室では、創薬に適用できるさまざまなAIを開発している ADMET=ADME&T(Toxicity)

量子力学計算によるシミュレーションも

DAIIAは5年間のプロジェクトで、現在2年目です。終了予定年度である2024年度までに収集したデータを使ってAI創薬プラットフォームを構築することで、創薬までの期間の半減を目指しています(図4)。

現在、DAIIAでは、主に「富岳」による大規模計算により基礎研究を進めています。一方、DAIIAに参画している17社の製薬企業が今後、応用研究を進めていく上では、各社内のシステムを使って予測できるようにする必要があります。そのため、すでに開発したAIや現在開発中のAIは各社内に移植して利用できるようにしていく計画です。また、「富岳」を使うことで、シミュレーションやAIの精度を大幅に向上できるため、セキュリティに細心の注意を払った上で、各企業のシステムと接続できるようにし、必要に応じて「富岳」で計算するといった使い分けが重要になってきます。

図4:DAIIAでは2024年度を目標にAI創薬プラットフォームを構築

加えて、分子シミュレーションに関してはこれまで、主に分子をモデル化した分子力場に基づくシミュレーションである「MD法」※1を使ってタンパク質などの動きを再現してきました。シミュレーションには、シュレーディンガー方程式に基づく量子力学的なシミュレーションもあり、本間研究室では、量子力学的な手法の一つである「フラグメント分子軌道法(FMO法)」を使った計算を「富岳」を使って実行しています。FMO法は、タンパク質のような大きな分子に対しても電子のエネルギー状態を非常に精密に計算できるのが特徴です。それにより、世界で初めてタンパク質の量子力学シミュレーション結果をデータベース化し、公開しています。現在のところ、データ件数は約1万3000件ですが、今後も増やしていく予定です。

タンパク質の第一原理量子力学シミュレーションは計算規模が非常に大きく、FMO法を使わなければ、たとえ「富岳」であっても相当の時間がかかりますが、FMO法によって高速に計算できるようになりました。
 
現在、欧米や中国では、製薬分野だけでなくあらゆる分野において、デジタルトランスフォーメーション(DX)が推し進められています。日本においても日本全体でDXを推進し、デジタルデータを活用したAIの開発が不可避となっています。そのため、本間研究室では、LINCやDAIIAなどの下、製薬分野におけるAI化、ひいてはDXを産官学連携で強力に推し進めていく計画です。

関連リンク

(2021年10月7日)