data 42 プログラム、それはノバルティスのデータとデジタル領域への大いなる挑戦です

ノバルティスは、人間の探求心とコンピュータの専門的知識がデジタル研究開発用デジタルプラットフォームdata42による豊富なデータの活用を可能にすると確信しています。

Aug 19, 2020

人工知能はすでに数十年にわたって研究が続けられていますが、ディープラーニングの領域における最近の進展により、データサイエンティストたちは驚くべき飛躍を遂げることができました。データを入力することにより学習する従来の機械学習アルゴリズムとは異なり、ディープラーニングは多層状のアルゴリズムを適用することによって「人工ニューラルネットワーク」を創出し、独力で学習や知的判断を行うことができます。

この新興分野をリードする企業の一つ、アルファベット社傘下のディープマインド(DeepMind)社は、今から3年ほど前、非常に複雑な中国のボードゲーム「碁」で人間の棋士を倒し、同様の人工知能アプローチを駆使して、2019年にはタンパク質の形状予測において生物学者をも打ちのめしました。

これらの画期的な進歩は新たな研究の道を開くものであり、現代の医学あるいは経営面において最も大きいとされる課題のいくつかを解決するのに役立つ可能性が期待されています。これには、増加し続ける研究開発費の抑制だけでなく、現時点でごく限られた治療の選択肢しかない、もしくは治療法が存在しない疾患に対する革新的な治療法の発見なども含まれています。

実際にこれらは極めて大きな挑戦です。新たな治療法を市場に導入するには、現状では20億米ドルを超える投資が必要であり、平均で10年以上の期間が必要です。しかも、臨床段階で10の化合物の試験が実施されとしても上市にたどり着く化合物はたった1つです。

すべてのデータがキュレートされれば、新たなインサイトが生まれる可能性は膨大なものになると考えられています。

医療現場でもそのニーズが次第に高まってきています。米国では過去10年間に約500種類の薬剤が承認されましたが、医療へのニーズは依然として高いままです。例えば、アルツハイマー病のような慢性および加齢に伴う病気の多くはいまだに治療が難しく、現時点で知られている7000を超える稀少疾患の大部分は、革新的な治療の選択肢が見つかっていません。

「もちろん、この新たなデータとデジタル技術を活用して一体何が見つけられるのかはまだわかっていません。」そう語るのは、data42のテクノロジーリーダーであるパスカル・ブーケ(Pascal Bouquet)です。「それでも私たちは、現時点では得ることができない新たなインサイトを見い出せると強く信じています。かつて見たことのない貴重な情報を発見でき、さらに長期的には、データのみに基づいた創薬が可能になると確信しているのです。」

こういった期待は、従来の製薬企業によるデジタル専門知識強化への精力的な取り組みにつながっているだけでなく、革新的な治療法を開発し、従来の医薬品開発モデルを覆すことを目指すGoogleやIBM、Appleといった新たな企業のヘルスケア領域への参入にも結びついています。

データプロバイダーのピッチブック(PitchBook)によれば、2018年には、ヘルスケアにおける人工知能スタートアップ事業に、ベンチャー投資家だけで10億米ドルを超える投資が注入されました。しかも、市場は今後、さらに活発になる可能性が高いのです。コンサルタント企業のエベレストグループ(Everest Group)は、人工知能技術への医療総投資額は、2017年の15億米ドルから2020年までには60億米ドル以上になると予想しています。

患者200万人年分のデータ

ノバルティスはこの新興分野において他者に先んじていると確信しています。「我々のシステムには約200万人年分の患者データがあります。」と、ブーケは述べています。「これは、人工知能ツールを応用してデータを選別し、従来知り得なかった医薬品と疾患の相関関係を見つける上で役に立つ、極めて重要な資産です。」

このビジョンを実現するためには、すべての臨床データと研究データ(さらに将来的にはリアルワールドデータや画像データ、センサーデータ)をまず構造化し、いわゆる 「データレイク」(data lake) を創出するための単一のプラットフォームに移行しなければなりません。 これは口でいうほど簡単ではありません。個々のデータセットは、例えば性別や年齢、家族、疾患の状態など、多様なパラメータを用いてデータポイントを表わしていることが多いからです。

「機械が学習できるよう、これらのデータをすべてクリーニングし、キュレートしなければなりません。これは非常に困難で面倒な作業ですが、データサイエンティストたちを煩わしさから解放し、データに関する疑問の解明に集中させることができるようになります。」と語るのは、data42で製品開発を主導するピーター・シュパイアー(Peter Speyer)です。

データサイズはかなりのものになります。研究開発のインプットだけでも、20ペタバイトのデータで構成されています。これはMP3プレーヤーで言えば、約4万年分の音楽に相当します。

当社のシステムには約200万人年分の患者データが蓄積されています。これは、人工知能ツールを応用してデータを選別し、従来知り得なかった医薬品と疾患の相関関係を見つける上で役に立つ、極めて重要な資産です。

データの持つ貴重な情報の掘り起こし

ノバルティスバイオメディカル研究所(NIBR)、グローバル医薬品開発部門(GDD)、そして、ノバルティスビジネスサービス(NBS)から100人を超える社員が参画するこのチームは、これまでに素晴らしい進展を遂げてきました。2000以上の臨床試験データをプラットフォームに取り込み、データの奥深くに埋め込まれた新たな情報を見つけ出す可能性のある多くのの機械学習モデルをテストしました。

data42のリーダーシップチームは、牽引力を高めると同時に結果を適切に検証するため、極めて具体的で明確な課題にフォーカスした、ビジネス主導の短期的目標を設定しています。最近始まったこれらのプロジェクトの一つは、関節リウマチ領域における生物学的特性をもとにして疾患のサブタイプを特定しようというものです。

「このプロジェクトでは、関節リウマチ領域における既存の治験データのクリーニングに取り組んでいます。これは比較的短期間で完了できる課題です」と、シュパイアーは語っています。「目標は、我々の治療法のいずれかに対して高い反応を示すサブグループを特定することです。こういったサブグループが発見できれば、この領域を担当するチームは新たな治験を計画し、臨床現場でこれらの所見に対する試験を実施できるようになるでしょう。」

疑問を通じて考えること

現在行われている他のプロジェクトの中で、チームは対象となる特定のがんにおける疾患の進行についても研究を進めています。

多くのことがまだこれからですが、data42のチームはデータの微調整を行い、これまでに万人の目をくぐり抜けてきた情報のかけらを発見できるような膨大なデータレイクの創出に取り組んでいます。

「すべてのデータがキュレートされれば、新たなインサイトが生まれる可能性は膨大なものになると考えています。」と、シュパイアーは語ります。「つまり、例えば心不全に関する疑問がどのようなものであっても、対象疾患として心不全が取り込まれていれば、―それが併存疾患であれ、副作用であれ-、我々は心不全に関するデータを抽出して分析することができます。これがdata42の拡張性なのです。」

data42がその期待に応えることができれば、データサイエンティストと研究ラボや臨床現場にいる科学者との連携のあり方を変えていく可能性も生まれます。「データを準備するデータサイエンティストと、疑問点を理解し、データから何を取り出さなければならないかを把握している科学者の連携が強化されていくのを目の当たりにすることになるでしょう」と、ブーケは説明します。

新たなデジタルツールは、取り込まれるインプットと同等の働きをするもので、生物学者や化学者、あるいは医師にとって代わるというものではありません。「質問をきちんと作成すれば、解決策は思ったよりも複雑ではないでしょう。」と、プリュックバウム(Plueckebaum)は説明します。「あらゆる疑問にこの人工知能が必要なわけではありません。質問によっては、統計に立ち返るだけですむこともあります。正しいデータを見つけて、正しい手法を適用すれば、答えは得られます。人工知能の有無にかかわらず、疑問を通じて考えることにより、より早く、またより良いインサイトに到達することができます。」

メイン画像:フィリップ・ブエリ(Philip Buerli)によるイラスト

data42により、#ノバルティスはデータサイエンスを活用して研究開発の再創造に取り組んでいます。 #AI #reimaginingmedicine(医療の未来を描く)