本文へジャンプ

「GENIAC」プロジェクトで世界最大の分子特化型基盤AIモデル「SG4D10B」を開発しました
―創薬ベンチマーク3指標において世界1位の性能を達成―

2025年8月22日
NEDO(国立研究開発法人新エネルギー・産業技術総合開発機構)
SyntheticGestalt株式会社

NEDOと経済産業省が実施する、生成AIの開発力強化に向けたプロジェクト「GENIAC」において、SyntheticGestalt株式会社は世界最大の分子情報特化型基盤AIモデル「SG4D10B」を開発しました。

創薬や新素材開発をはじめとする新分子の開発プロセスは、複雑な分子情報の組み合わせの中から優位な効果を得られる可能性がある構造を絞り込む過程に、膨大なコストと時間が必要となっています。

今回開発した分子特化型基盤AIモデル「SG4D10B」は、SyntheticGestaltが世界的な化合物サプライヤーとの共同研究を通じて得られた化合物データの中から、100億件を学習データとして活用することで、膨大な化合物の構造パターンの学習に成功しています。この基盤モデルは世界標準の創薬ベンチマークにおける重要な3指標(毒性、透過性、安定性)で世界1位の性能を達成しており、創薬のみならず農薬や新素材などの幅広い分野において、開発プロセスの効率化に大きく寄与することが期待できます。

図1 「SG4D10B」の特徴

図1 「SG4D10B」の特徴

1.概要

製薬業界では、新薬開発プロセスにおける効率化が急務となっており、データ量の少なさと分子情報の複雑さという課題が存在し、分子向けに開発された人工知能(AI)は十分な精度を得られていないのが現状でした。

図2 製薬業界でのAIモデル開発の課題

図2 製薬業界でのAIモデル開発の課題

SyntheticGestaltは2024年10月から研究開発を開始した、GENIAC※1サイクル2に参画し、NEDOからの支援を受けて、世界最大の分子情報に特化した基盤AIモデル「SG4D10B※2」の開発に成功しました。SG4D10Bを活用することで、新分子の発見に必要な実験のコストと時間を削減することが期待されます。

2.今回の成果

(1)モデル設計構築

分子は物理化学的に3次元構造を有し、さらに複数の立体配座を取り得るため、本研究で開発した基盤AIモデル「SG4D10B」では革新的な4D技術を採用しました。この4D技術により、分子の複雑な立体構造を加味しながら活性や毒性などの特性を高精度で予測することを可能にしています。また、「SG4D10B」は世界的な化合物サプライヤーであるEnamine社との共同研究を通じて得られた化合物データの中から、100億件を学習データとして活用することで、膨大な化合物の構造パターンの学習に成功しています。この基盤モデルは、世界標準の創薬ベンチマーク※3において、三つの重要な指標(毒性、透過性、安定性)で世界1位の性能を達成しました。

(2)社会実装

1億件の化合物データで事前学習を行った「SG4D10B」の小型モデル「SG4D100M※4」をGoogle Cloud MarketplaceおよびAWS Marketplaceにて無償公開しています。また、このたび実際にウェット試験を実施して得られた7770件のフラグメント化合物※5の活性データをAIモデルの評価用データとして、SyntheticGestaltのGitHub内のパブリックレポジトリにて公開しています。現在は、大鵬薬品工業株式会社をはじめとする国内の複数の製薬企業と利活用を推進※6しています。これらの開発技術は国際的にも高く評価され、2025年3月には世界最大級のAIカンファレンスである「NVIDIA GTC 2025」の現地、米国・サンノゼにて登壇発表を行いました。

3.今後の予定

GENIACでの成果を基盤として、今後は国際市場への本格的な展開を推進していく予定です。また、さらなる技術革新を通じて次世代基盤モデルの開発を継続し、精度の飛躍的向上を実現していきます。これにより、創薬のみならず、新分子発見のため実験にかかるコストと時間の削減が必要な化粧品や農薬、新素材などの幅広い分野で開発プロセスのさらなる効率化に貢献していきます。

【注釈】

※1 GENIAC
国内の生成AIの開発力強化を目的とし、「GENIAC(Generative AI Accelerator Challenge)」と称し、生成AIのコア技術である基盤モデルの開発に対する計算資源の提供支援などを実施するプロジェクトです。
GENIACプロジェクト
※2 SG4D10B
SyntheticGestaltが開発した世界最大の分子特化型基盤AIモデル。従来の分子AI技術の課題である予測精度と汎化(はんか)性能の低さを解決し、製薬企業や化学メーカーなどが保有する小規模データからでも高精度なモデル開発が実現可能です。また、開発期間の大幅短縮と研究コスト削減により、新薬や新素材開発の効率化に貢献できます。
※3 創薬ベンチマーク
AIモデルの性能評価に用いる指標として、AI創薬分野ではTherapeutics Data Commons(TDC)が標準的に使用されています。TDCは、毒性や透過性、安定性などのさまざまな指標の性能評価を目的として、機械学習のデータセットとタスクおよびそのリーダーボードを提供しています。
※4 SG4D100M
SG4D100Mは以下のリンク先にて公開しています。
Google Cloud Marketplace
AWS Marketplace
※5 フラグメント化合物
創薬初期に活用される小さくシンプルな構造の化合物です。効率的な候補物質の探索に用いられます。
※6 製薬企業と利活用を推進
以下のような事例があります。
大鵬製薬ニュースリリース(2025年6月4日)「大鵬薬品とSyntheticGestalt 生成AIを活用したシステイノミクス創薬の基盤拡充に向け技術検証を開始」

4.問い合わせ先

(本ニュースリリースの内容についての問い合わせ先)

NEDO AI・ロボット部 生成AIチーム チーム長:遠藤、担当:萩原 TEL:044-520-5241

SyntheticGestalt 人事広報部 TEL:03-4570-8634

(その他NEDO事業についての一般的な問い合わせ先)

NEDO 経営企画部 広報企画・報道課 TEL:044-520-5151 E-mail:nedo_press[*]ml.nedo.go.jp

E-mailは上記アドレスの[*]を@に変えて使用してください。

  • ※新聞、TVなどで弊機構の名称をご紹介いただく際は、“NEDO(国立研究開発法人新エネルギー・産業技術総合開発機構)”または“NEDO”のご使用をお願いいたします。

関連ページ