ソーシャルネットワーキングサイトには、投稿写真に写る人物を特定する機能が備わっています。この魔法のような機能は、機械学習と呼ばれる技術によるものです。機械学習アルゴリズムが顔の特徴の微妙なパターンを分析することで、これまでタグ付けしたことのない人物や見知らぬ人物でさえ識別が可能となります。
この機械学習の技術によって、ノバルティスの研究者による創薬や開発の方法にも変革が起きています。ソーシャルネットワーキングサイトが機械学習を使ってコンピューター画面上に現れる人物を分類するように、ノバルティスの研究者はこの技術を活用して、異なる薬剤候補化合物で処理した細胞のデジタル画像を分類しています。機械学習アルゴリズムが視覚的に類似した効果を示す化合物を瞬時にグループ分けするのです。研究室での実験や人間による目視検査は時間を要するため、生物学的洞察が得られるまでに何カ月もかかることもありますが、画像を自動識別するコンピューターアルゴリズムにより、その速さは飛躍的に向上します。創薬にかかる時間を機械学習によって短縮できる可能性があり、その結果、患者さんに新しい治療法をより早く届けられることにつながると期待されています。
ノバルティスバイオメディカル研究所(NIBR)のインフォマティクス・フォー・ケミカル・バイオロジー・アンド・セラピューティクス(Informatics for Chemical Biology and Therapeutics)の責任者であるジェレミー・ジェンキンス(Jeremy Jenkins)は、次のように述べています。「機械学習は、新たな治療法の可能性をかつてないほど効率よく私たちに示してくれます。薬がどう作用するかを教えてくれる、ほかにはない優れた能力を持っています」
AIの「目」が細胞変化を予測
このほど、ノバルティスの研究者は、特殊な機械学習技術であるディープラーニング(深層学習)を独自に進化させ、目と脳による視覚画像の処理プロセスを模倣する技術を他に先駆けて開発しました。人間の目はさまざまな色合いの光を感知します。目と緊密に連携する神経回路は、感知したパターンを、身の回りの見覚えのある物体や顔、他の生物といった色や形に変換します。研究チームは、この人間に生来備わる機能からヒントを得てこのプロセスをシミュレーションし、コンピューター化した神経回路に、薬剤候補化合物によって誘発された細胞内の微妙な形態学的な変化を認識するように学習させました。
研究チームは、初めに「教師あり学習」(分析対象となる入力データに対し、分析結果である「正解」の出力データも併せて学習させる方法)のアプローチでディープラーニングを進めました。これは、化合物の処理によって生じる細胞の形態変化やタンパク質の活性変化といった特定の効果を、システムが自ら認識できるようになるまで学習させるものです。特定の作用を示すことがわかっている化合物で処理した細胞の画像をコンピューター上の神経回路に見せて訓練し、さまざまな薬剤の作用機序に関連する視覚的パターンを習得させました。次に、作用機序を明示せずに、100種類以上の化合物で処理された細胞の画像を用いて検証を試みました。
コンピューター化した神経回路は、化合物の用量を変えても、化合物がどのように細胞に影響するかを正確に予測しました。「これは、システムを使えば、薬剤が生物学的にどのような作用を及ぼすのかをデジタル画像から即時に判断できるということです。予測精度はほぼ100%でした」と、NIBRエメリーヴィル(米カリフォルニア州)の 感染症部門の研究責任者のウィリアム・ゴディネス(William Godinez)は述べます。この研究チームは2017年7 月に、そのアプローチと結果を学術誌バイオインフォマティクス(Bioinformatics)1で発表しました。
既成概念の枠を超える
ゴディネスらはさらに、「正解データ」をひも付けた訓練を必要としない「教師なし学習」システムの開発でも大きな前進をみせました。「教師なし」のアルゴリズムは、化合物で処理された細胞画像を自動的に選別し、分類します。
このシステムによって、これまで研究者が考えもしなかったような生物学的変化も明らかになっています。なかには、臨床応用の可能性を示すものもあります。「これまで特定のタイプの効果しか探ってこなかったため、既成概念の枠にとらわれていた」と、ジェンキンスが率いるNIBRの研究グループのメンバーで、ゴディネスが博士研究員だった際のアドバイザーでもあったシエン・ジャン(Xian Zhang)は説明します。
「教師なし」の機械学習システムには、そのような限界はありません。さまざまな化合物がどのように細胞に影響するかを、過去の想定に縛られることなく、単純に画像を分類し共通した視覚的パターンでグループ化するのです。「アルゴリズムが何を見ているのか、アルゴリズム自体がわかっているわけではありませんが、それは問題ではありません。アルゴリズムが細胞間の相違を見つけられれば、人間が新しい仮説を立て、検証できるようになります」とジャンは述べます。
機械学習活用の可能性は、創薬プロセスの初期段階から臨床試験にまで広がると、ジェンキンスは語ります。創薬で時間を要するプロセスの1つは、疾患モデル細胞を用いた化合物試験です。こういった試験では通常、生物学的活性をもたらす、さらなる検討に値する化合物を見つけるために、細胞サンプルをそれぞれ念入りに分析しなければなりません。このスクリーニングプロセスを加速させるため、研究チームは、これまで時間をかけて得た実験画像を用いて機械学習アルゴリズムを訓練し、未検証の化合物に対して、さらなる検討の価値があるかどうかを迅速に予測しようとしています。まず3,000種類の化合物から始めていますが、最終的には、この機械学習によるスクリーニングを、ノバルティスが保有する約150万種類の化合物すべてに拡大することを目指しています。「単に大規模なスクリーニングを行うのではなく、より賢いスクリーニングを行う必要があります」とジェンキンスは述べます。
機械学習アルゴリズムを活用すれば、臨床試験中に得られるさまざまな画像を分類し、導き出されたデータの特徴と治療に対する患者さんの反応を照合できるようになることも考えられます。そうなれば、実験的な治療法に対して将来的に患者さんがどのような反応を示すのかが予測でき、最も高い有効性が期待できる患者さんに的を絞って臨床試験を実施するための情報が得られる可能性もあります。
医薬品の研究は複雑で、コンピューターシミュレーションによる一貫した創薬プロセスは、すぐに実現できるわけではなく、また一企業だけで成し遂げられることでもありません。「疾患の特徴、化合物の特性、実験条件など、関連するさまざまな要素を考慮しながら、どのように機械学習を応用できるか、学ぶべきことはまだたくさんあります」とジャンは慎重です。その一方で、「機械学習は数々の重要なプロセスを加速させるものであり、私たちが手掛ける創薬プロジェクトの多くをスピードアップできるのではないかと考えています」とジェンキンスは期待しています。