大規模データ解析と人工知能技術によるがんの起源と多様性の解明

トップページ「富岳」について「富岳」でできる！できた！「富岳」でできた！（研究成果ピックアップ）大規模データ解析と人工知能技術によるがんの起源と多様性の解明

大規模データ解析と人工知能技術によるがんの起源と多様性の解明

東京医科歯科大学 M＆Dデータ科学センターセンター長　宮野悟特任教授

今回は、東京医科歯科大学と株式会社富士通研究所の研究チームによるスーパーコンピュータ「富岳」を使った「大規模データ解析と人工知能技術によるがんの起源と多様性の解明」を紹介します。これは、説明可能な人工知能（AI）を使い、「富岳」上で発がんに関連している可能性の高い遺伝子間のネットワークを推定することで、発がんや転移、再発のメカニズムを解明しようというものです。
（代表者：東京医科歯科大学 M＆Dデータ科学センターセンター長　宮野悟特任教授）

死亡リスクの高い「転移がん」

今や日本人の2人に1人ががんにかかると言われており、がんはすべての人にとって身近な病気です。遺伝子が変異し、異常を起こすことによって発症します。

白血病など血液を作る臓器から発生するがん、肺がんや乳がん、胃がんなど上皮細胞から発生するがん（上皮性がん）、そして、骨肉腫など骨や筋肉などの非上皮細胞から発生するがんの3種類に大別されます。

このうち、上皮性がんは、放置しておくと増殖を続け、周囲に広く浸潤していき、やがて遊走して血管やリンパ管に入り込みます。そして、他の臓器に転移します。再発や転移する前の最初のがんを「原発がん」、転移先で増殖したがんのことを「転移がん」と言います。実は、原発がんに比べて転移がんの方が何倍も死亡リスクが高く、そのため、「転移を制するものががんを制す」と言われています。

このように、がん細胞が周囲の細胞との接着機能を失い、遊走することを「上皮間葉転換（EMT＝Epithelial Mesenchymal Transition）」と言います。しかしながら、浸潤やEMTのメカニズムはよくわかっておらず、上皮性がんの転移を防ぐことができていないのが現状です。

遺伝子同士のネットワーク構造を「京」などのスパコンを使って抽出

ゲノム解析などこれまでのさまざまな研究から、浸潤に関連する遺伝子やEMTに関連する遺伝子など、どの遺伝子が転移に深く関与しているのかの特定が進められてきました。しかしながら、すべての細胞は、遺伝子同士が複雑なネットワークを形成しており、ある遺伝子が別の遺伝子に指令を出すことで、遺伝子の発現を制御しています。このしくみはがん細胞においても例外ではありません。

したがって、浸潤やEMTのメカニズムを解明するには、単に関連している遺伝子を特定するだけでは不十分であり、関連している遺伝子同士がどのようなネットワークを形成しているのか、そのネットワーク構造の中で、特に浸潤やEMTに重要な役割を果たしているネットワークはどれなのか、そして、その司令塔となっている遺伝子はどれなのかなどを明らかにする必要があります。

そのため、宮野悟特任教授と富士通の研究チームはこれまで、東京大学医科学研究所ヒトゲノム解析センターのスーパーコンピュータやスーパーコンピュータ「京」を使い、「ネットワークプロファイリング」と呼ばれるネットワークを推定するプログラムを動かすことで、がん細胞の転移や再発に関連している可能性の高い遺伝子が形成しているネットワーク構造の抽出に取り組んできました。それにより、個々の遺伝子レベルではわからない転移や再発のメカニズムの解明や新たなメカニズムの発見を目指してきました。

その結果、たとえば、がんの再発リスクの高い人と再発リスクの低い人はそれぞれどのようながん細胞の遺伝子のネットワーク構造をもっているかを可視化することに成功しました（図1）。しかしながら、遺伝子間のネットワーク構造に関するデータは非常に大規模で複雑であるため、計算性能の問題から、計算に1カ月～数カ月を要するほか、計算結果をメカニズムの解明や新たな発見に結び付けることはできませんでした。

そこで、「富岳」成果創出加速プログラムの下、今回、宮野特任教授がリーダーを務める、東京医科歯科大学と富士通研究所の研究チームが共同で取り組んだのが、説明可能な人工知能（AI）を開発し、「富岳」に適用させることでした。

「富岳」に説明可能なAIを適用

まず、「富岳」の開発方針であるコデザイン※1 の下、2016年に富士通研究所が開発し、「京」でも稼働させていたAI技術「Deep Tensor（ディープテンソル）」を、「富岳」に適用させました。

Deep Tensorは、グラフ構造のデータを高精度に学習し、解析できる機械学習技術です（図2）。多様な表現形式をもつグラフ構造をベクトルや行列を拡張したテンソルと呼ばれる数学を使って表現しているのが特徴です。グラフ構造とは、頂点と頂点同士の関係を表したデータ構造のことです。遺伝子間のネットワーク構造はまさにグラフ構造をしており、解析にうってつけです。

今回、Deep Tensorを「富岳」に適用したことで、ネットワークプロファイリングとDeep Tensorにより、約2万個の遺伝子データで構成される大規模なネットワーク構造を、50ノードといった少ない計算資源しか使わなかったにもかかわらず、1日足らずで計算を完了することができました。それにより、複雑で大規模なネットワーク構造のうち、どのネットワーク構造が、浸潤やEMTに関与しているのかを高精度で予測できるようになりました。

2016年10月20日富士通研究所プレスリリース

一方で、従来のDeep Tensorは、AI技術全般に言えることですが、途中の計算過程がブラックボックス化していました。それが浸潤やEMTに関するメカニズム解明を困難にしていました。そこで、Deep Tensorを説明可能なAI技術にするため、今回、新たに「TRIP」というプログラムを開発しました。それにより、Deep Tensorの予測結果の根拠を示すことができるようになりました（図3）。

これらの成果により初めて、これまで10年以上にわたる研究を通して特定されてきた上皮性がんの転移に関連する遺伝子同士のネットワーク構造の中で、特に、浸潤やEMTの発現に重要な役割を果たしているネットワーク構造はどれなのか、そして、その根拠は何なのかが明らかになりました。

このことは、今後、説明可能なAI及び「富岳」のような計算性能の極めて高いスーパーコンピュータが、がんをはじめ、あらゆる生命科学の研究において不可欠なツールであり、これまで想像もしなかったような新たな発見をもたらす可能性を秘めていることを示唆しています。

今後も本研究チームでは、「富岳」による大規模データ解析と説明可能なAI技術を駆使することで、さまざまながんの発生や転移、再発のメカニズムの解明、ひいては生命科学のさらなる発展への寄与を目指します。

1 コデザイン：計算機科学的な開発（ハードウェアなど）とアプリケーション開発を協調しながら進めるという方法で、「富岳」の開発で重点的に取り組んだ。

大規模データ解析と人工知能技術によるがんの起源と多様性の解明