医療LLMについて概説をします.
[目次]
LLM(大規模言語モデル)は, 基本的にはTransformerアーキテクチャーをベースとし, ネット上などから収集した大量のコーパスを学習データとしてNext word prediction(次の単語を予測するタスクにおける尤度最大化)によって学習される. 学習データにはあらゆる文章を含み, これが基盤モデルとして利用される.
GPTやGeminiなどビッグテックが中心的に開発しているLLMは「なんでもこなせる」汎用的なLLMを目指していることが多い. これには膨大な学習データおよびモデルサイズが必要とされている.
一方で, ドメイン特化と呼ばれる開発の方向性もある. これはある特定のユースケースやタスクを想定し, それらにおいて高い能力を発揮できるようなLLMの開発を目指すという意味である. 「ドメイン」に相当するものは様々考えられるが, 特に医療、金融、法律などが代表的な領域例である. しかし, 業界的な意味でのドメイン以外でも, 例えば「日本語」「和風」などもドメイン特化の一例とされることもある.
医療LLMは原則として事前学習済みの汎用LLMをベースとし, それらに対して医療ドメインのコーパスで更なる学習(継続事前学習, ファインチューニング, 強化学習 etc.)を施して開発される. これには, スクラッチで0からLLMを事前学習するのはどの機関にとっても大変すぎると言う理由と, そのようにベース能力が存在した方がドメイン特化の能力を獲得しやすいと思われているという理由とがある. ドメイン特化においては独自に追加の学習等が必要となるが, 非公開のモデルはその組織しか着手することができないため, 公開されているオープンモデルを用いた研究開発も盛り上がっている.
Googleが発表した医療マルチモーダルモデルです. テキストの処理のみならず, 医療分野の多くのドメイン・データに対応しています. モデルは非公開です. アメリカの医師国家試験に相当するベンチマークMedQAにて, 91%を達成しました.
スイスのEPFLが中心となって開発しているEnglish-centricなオープンな医療LLMです. 近年はOpenMeditronという形で小規模なモデルの開発が加速しています. 初期のMeditron(70Bモデル)はMedQAで70%近くの正答率を達成しました.
香港中文大学のWang Benyouが率いるFreedomIntelligenceが開発しているChinese-centricなオープンな医療LLMです. 70Bのモデルでは, MedQAでも83%を達成しました. 8Bのモデルでも, MedQAで72%を達成しました.
PFN社が公開している72Bサイズのモデルです. Qwen2.5-72Bに対し医療関連文書を用いて継続事前学習を行なったと記載があります. 医師国家試験ベンチマークにおいて, GPT-4oを上回るスコア(約86%)を達成しました.
2025/4/29現在, Yahooニュースで取り上げられていると予想されますが, 詳細は不明です.
私がCTOを務める(株)EQUESのGENIAC事業で開発した製薬ドメイン特化LLMです. モデルサイズは7Bと現場でも実装しやすい軽量なものとなっています. ドメインは医療とは少しずれていますが, 医師国家試験ベンチマークでのスコアでは同サイズのモデルを上回り, 65%を達成しました.
より詳細にご興味がある方は私が作成していますまとめ資料をぜひご覧ください.