Mistral Medium 3.5とは?意味・仕組み・実務での使い方をわかりやすく解説

Mistral Medium 3.5とはに関する記事のアイキャッチ画像 - Mistral Medium 3.5とは?意味・仕組み・実務での使い方をわかりやすく解説 AI×コーディング

閉じたホスト型のAPIに全リポジトリやプロンプトを預けず、それでもフロンティア級に近いコーディング/エージェント挙動を狙いたい。そう考えるチームにとって、Mistral Medium 3.5は現実的な選択肢に入ってきました。Mistral Medium 3.5とは、Mistral AIが公開した128B密オープンウェイトのコーディング/エージェントモデルです。

「オープンウェイトって結局なに?」「Claude Sonnet 4.6と何が違うの?」——この記事は、そうした定義レベルの疑問に最初に答えてから、料金・性能・セルフホスト要件・実務での使われ方まで順に整理していきます。

この記事の要点

  • 128B密・256Kコンテキスト・Modified MITのオープンウェイトモデル(2026年4月下旬公開)
  • Mistral公式値でSWE-bench Verified 77.6%/τ³-Telecom 91.4(Claude Sonnet 4.6の報道値79%台に近い性能帯)
  • 料金は入力$1.50・出力$7.50(百万トークン)、約4GPUからセルフホスト可能

なお、料金・API仕様・モデルIDは更新が速い領域です。本記事の数値とコード例は概念理解のための最小例であり、実運用前には各公式ドキュメントで最新の値を確認してください。

Mistral Medium 3.5とは:一言で言うと

Mistral Medium 3.5とは、Mistral AIが2026年4月下旬に公開した、128B(1280億パラメータ)の密オープンウェイトモデルです。コーディングとエージェント的なワークフローに最適化されています。

ここで言う「密(dense)」とは、推論のたびに全パラメータを使うタイプの構造を指します。一部の専門家だけを呼び出すMoE(Mixture of Experts、混合エキスパート)型とは対照的な設計です。Mistral公式の説明では、指示追従・推論・コーディングを1つのモデルにまとめた「エージェント用途とコーディング用途に最適化したフロンティア級のマルチモーダルモデル」と位置づけられています。

ポイントを整理すると、この製品が置かれている場所は「中間ゾーン」です。ノートPC1台で動かすには大きすぎる。けれど、コードもプロンプトも実行トレースも、すべて閉じたホスト型サービスに渡したくはない。そういうチームに向けた、自前で抱え込める選択肢として設計されています。ライセンスはModified MIT(修正版MIT)で、重み(モデルの中身そのもの)が公開されている点が、APIだけ提供する一般的な商用モデルとの最大の差です。

仕組みと基本スペックをもう少し詳しく

Mistral Medium 3.5の仕組みは、要するに「1セットの重みで指示追従・推論・コーディングをこなし、入力に応じて考える深さを変えられる」モデルです。マルチモーダル入力にも対応します。

何ができるモデルか

このモデルが得意とするのは、信頼性の高いマルチツール呼び出しと、複数ステップにまたがる長期タスクです。エージェントとして動くとき、AIは「検索する→結果を読む→次のツールを呼ぶ→失敗したらやり直す」といった一連の判断を何度も繰り返します。途中で文脈を見失ったり、ツールの呼び出しを間違えたりすると、長い作業ほど崩れやすくなる。Mistral公式によれば、Medium 3.5はこの長いトレース(一連の処理の連なり)を安定して走らせることに焦点を当てているとされます。

入力はテキストだけでなく画像も受け付けます。ビジョンエンコーダ(画像をモデルが扱える形に変換する部分)は、可変サイズ・可変アスペクト比の画像をゼロから学習したもので、決まった解像度に切り詰めず多様な画像を処理できる構造です。スクリーンショットや図表を含む作業との相性を意識した設計といえます。

主要スペック

スペック面では、まずコンテキストウィンドウが256K(約25万トークン)と長い点が目を引きます。コンテキストウィンドウとは、モデルが一度に読み込める文章量の上限のこと。256Kあれば、大きめのコードベースや長い設計ドキュメントを丸ごと渡しても、文脈を保ったまま作業させやすくなります。

特徴的なのが、リクエストごとに調整できる推論強度です。簡単な質問では浅く速く、難しい設計判断では深く考えさせる、という切り替えを呼び出し単位で指定できます。常に最大強度で回すとコストも応答時間も膨らむため、タスクの重さに合わせて使い分けられる仕組みは実務で効いてきます。基本構造をAPI呼び出しのイメージで示すと、次のようになります。

from mistralai import Mistral

# モデルIDの正確な表記は公式ドキュメントで確認(公式APIは mistral-medium-3-5 系)
client = Mistral(api_key="YOUR_API_KEY")

resp = client.chat.complete(
    model="mistral-medium-3-5",
    messages=[
        {"role": "user", "content": "このバグの原因を説明して修正案を出して"},
    ],
)
print(resp.choices[0].message.content)

これはあくまで全体の流れをつかむための最小例です。推論強度の指定方法やツール呼び出しの細かいパラメータは、公式のAPIリファレンスに沿って調整してください。なお、公式APIで使うモデルIDは mistral-medium-3-5 系の表記が示されており、vLLM/Vibeなどのローカル構成では mistral-medium-3.5 のようなaliasが使われる場合があります。最新のモデルIDはMistralのモデルカード・APIドキュメントで確認してください。

SWE-bench・τ³-Telecomで見る性能

Mistral Medium 3.5の性能は、コーディング系とエージェント系の代表的なベンチマークで、オープンウェイトとしては上位に位置します。Mistral公式によれば、SWE-bench Verifiedで77.6%、τ³-Telecomで91.4を記録しています。

SWE-bench Verifiedの数値が示すもの

SWE-bench Verifiedとは、実際のGitHubイシューを解決できるかをモデルに解かせる、コーディング能力の代表的な指標です。人手で検証済みの課題セットを使うため、コーディングモデルの比較で広く参照されます。Mistral公式値ではSWE-bench Verified 77.6%。Claude Sonnet 4.6の公表・報道値は79%台とされており、コード修正ベンチ上では近い帯に入ったと見られます。ただし実行条件やharness差があるため、直接の優劣ではなく性能帯の目安として扱うのが安全です。クローズドな最前線のすぐ下、これまでのオープンウェイト最前線より上、という距離感です。

ただし注意したいのが、このスコアが示すのはあくまで特定ベンチでのコード修正能力という点。ベンチマークの数値が近いことと、ご自身の実タスクで体感品質が同じであることは別物です。コードの読みやすさ、説明のわかりやすさ、用途別の適性(事実確認・要約・対話など)は、本記事では未評価です。導入を検討する際は、手元の代表的なタスクで実際に走らせて確かめてください。

エージェント/ツール利用ベンチでの評価

τ³-Telecom(Tau-3 Telecom)は、通信ドメインを題材に、ツール呼び出しやエージェント的な多段作業の信頼性を測るベンチマークです。コードを書く力とは別に、「ツールを正しい順番で、正しい引数で呼べるか」を評価する軸になります。91.4というスコアは、Medium 3.5がエージェント用途を意識して作られたという公式の位置づけと整合する結果です。

整理すると、SWE-benchは「コードを直す力」、τ³-Telecomは「道具を使いこなす力」を見ている、と捉えるとわかりやすいでしょう。両方で高い数値が出ている点が、このモデルを「コーディング+エージェント」の二枚看板で語れる根拠になっています。

料金とセルフホスト要件

Mistral Medium 3.5の料金は、API利用で入力$1.50・出力$7.50(百万トークンあたり、2026年時点)です。Mistral公式によれば、これは主要なホスト型コーディングモデルの約半額(入力側)にあたります。

API利用時のコスト感

入力$1.50という価格は、長いコンテキストを多用するエージェント用途で効いてきます。エージェントは過去のやり取りやコードベースを繰り返し読み込むため、入力トークンがかさみがち。入力単価が抑えられていると、長コンテキストを前提とした使い方でも費用が膨らみにくくなります。複数の価格比較では、Medium 3.5の位置は「Claude Sonnetより安く、Claude OpusやGPT-5.5より安い」レンジに収まると報告されています。

価格はモデルやプランの改定で変わりやすい項目です。エージェント用途は呼び出し回数が多く、入力トークンが積み上がりやすいため、本番投入の前に想定ワークロードで概算コストを試算しておくと安全です。

約4GPUからのセルフホストと運用上の前提

セルフホスト(自前のサーバーで動かす運用)は、Mistral公式によれば「最少4 GPUで可能」とされています。ただし、必要なGPU種別・精度・量子化・KVキャッシュの余裕・コンテキスト長によって実要件は変わります。128B denseのため、BF16/FP16では重みだけでも約256GB級になり、実運用では4×80GB級以上やFP8/量子化、tensor parallel構成などを前提に見積もるのが安全です。

ここで重要なのが、オープンウェイト×Modified MITが意味するもの。重みが手元にあるということは、コードもプロンプトも実行トレースも、外部の推論APIへ送らずに運用できる選択肢が生まれるということです。ただし「データが一切外に出ない」と無条件に言い切れるわけではありません。あくまで自前ホストで完結させ、外部のモデルAPIや外部Web検索機能を使わない構成にした場合の話です。外部サービスと連携すればそこからデータは出ますし、Modified MITは標準のMITとは条件が一部異なるため、商用利用や再配布の範囲はライセンス原文での確認が前提になります。「自前で抱え込める余地がある」と理解するのが正確でしょう。

Claude Sonnet 4.6など「閉じたホスト型」との違い

Mistral Medium 3.5と、Claude Sonnet 4.6に代表される閉じたホスト型モデルの最大の違いは、重みが公開され自前ホストできるかどうかにあります。性能の距離は縮まっており、選定の分かれ目は「データをどこに置くか」に移りつつあります。

両者を並べると、違いがはっきりします。

比較項目 Mistral Medium 3.5 閉じたホスト型(例: Claude Sonnet 4.6)
提供形態 オープンウェイト(重み公開) API提供のみ(重み非公開)
自前ホスト 約4GPUから可能 不可(提供元のインフラ上で動作)
ライセンス Modified MIT 提供元の利用規約
データの置き場所 自前構成なら手元で完結可 提供元のサービスに送信
SWE-bench Verified 77.6%(公式値) 約79%(報道値)/近い性能帯

この表だけ見ると性能が近い分、判断は用途次第になります。コードやトレースを外に出せない事情があるチーム、規制やコンプライアンス上データの所在を自分で管理したいチームなら、自前ホストできるMedium 3.5に分があります。一方、インフラ運用の手間を一切かけたくない、すぐにAPIで使い始めたいだけなら、ホスト型をそのまま使うほうが立ち上がりは速い。「性能が近いからこそ、運用形態とデータの置き場所で選ぶ」——これが2026年時点の現実的な分け方です。

なお、SWE-benchのスコアが近いことは前述の通りコード修正という測った次元での話です。日々の使い勝手や日本語での応答品質まで同じとは限らないため、最終判断は実タスクでの比較に委ねるのが妥当でしょう。

Mistral Vibeとエージェント運用

Mistral Vibeとは、Mistralが提供する遠隔コーディングエージェント製品で、Medium 3.5がその既定モデルとして従来のDevstral 2を置き換えました。長時間動き続けるコーディング作業を任せる用途を想定しています。

VibeでのリモートセッションとCLI連携

Vibeはリモートのクラウドセッションでタスクを走らせられます。CLIからでもLe Chat(MistralのチャットUI)からでもタスクを起動でき、さらにローカルで動かしているCLIセッションをそのままクラウドへ「teleport(テレポート)」して、手を離れている間も処理を継続させられる仕組みがあります。長く回るリファクタリングやテスト修正を、PCを閉じても止めずに進められるという発想です。

エージェントを長く走らせる運用では、途中でどのツールをどう呼び、どこで失敗したかを追えることが安定運用の前提になります。全経路を追ってトークンの浪費や失敗箇所を可視化する考え方は、AIエージェントのトレーシング実装|全経路を追ってトークン浪費と失敗箇所を可視化でも整理しています。Vibeのようにエージェントを実務へ載せるなら、観測の仕組みもあわせて検討しておくと取りこぼしを減らせます。

Le ChatのWork mode(プレビュー)

Le Chatでは、複数ステップの調査・分析・複数ツールにまたがる作業を扱うWork modeがプレビューとして提供されています。チャットUIを単なる質問の場ではなく、エージェントを走らせる実行環境へと広げる動きです。プレビュー段階の機能なので、提供範囲や挙動は今後変わる可能性があります。現時点で使う場合は、機能の有無や制限を公式の案内で確認してから本番の作業に組み込んでください。

どのチーム・用途で選ぶか

Mistral Medium 3.5を選ぶ判断は、人気や知名度ではなく、データの扱い・用途・インフラ・コンプライアンスへの適合で決めるのが妥当です。これはモデル選定全般に通じる考え方でもあります。

自前ホスト/コンプライアンス重視のチーム

刺さりやすいのは、ノートPC1台には大きすぎるが、コードやトレースを閉じたホスト型に渡したくないチームです。規制業種や、社外秘のコードを扱う開発組織では、データの所在を自分で管理できることが要件になる場面があります。約4GPUで自前ホストできるMedium 3.5なら、フロンティア級に近いコーディング/エージェント挙動を、外部APIに依存しすぎず確保する道が開けます。GPUを4枚そろえる初期投資と運用体制が前提になる点は織り込んでおく必要があります。

コスト・長コンテキスト・エージェント用途での判断

もう1つの判断軸が、入力コストと長コンテキスト、そしてエージェント用途です。入力$1.50という単価は、過去のやり取りや大きなコードベースを繰り返し読ませるエージェントで効いてきます。256Kのコンテキストと組み合わせれば、大規模なリポジトリを抱えた作業も回しやすい。逆に、軽量な単発の問い合わせしかしない、小型ローカルモデルで足りる用途では、128Bを4GPUで抱える構成は過剰になります。その場合はより小さなモデルや、APIだけのホスト型のほうが見合うでしょう。自分のワークロードが「長く・重く・繰り返す」のか「軽く・単発」なのかで、向き不向きが分かれます。

パラメータ 128B(dense / 密モデル)
コンテキスト 256K トークン
入力料金 $1.50 / 百万トークン(2026年時点)
出力料金 $7.50 / 百万トークン(2026年時点)
ライセンス Modified MIT(オープンウェイト)
セルフホスト 約4GPUから可能(公式)
提供元 Mistral AI

まとめ

Mistral Medium 3.5は、128B密のオープンウェイトモデルで、Modified MITライセンスのもとコーディングとエージェント用途に最適化されています。SWE-bench Verified 77.6%・τ³-Telecom 91.4という公式値が示すのは、閉じた最前線のすぐ下、オープンウェイトとしては上位という立ち位置。入力$1.50という料金と約4GPUからのセルフホストが、「データを外に出さずにフロンティア級に近い挙動を得たい」というニーズに応えます。

理解を深める順番としては、まず「オープンウェイトと密モデルの意味」を押さえ、次に「ホスト型APIと自前ホストのどちらが自分の要件に合うか」を整理するとよいでしょう。そのうえで、手元の代表的なコーディング/エージェントタスクで実際に走らせ、ベンチの数値ではなく体感の品質を確かめる。この順で進めれば、導入可否の判断がぶれにくくなります。

よくある質問(FAQ)

Q. Mistral Medium 3.5は無料で使えますか?

重みがオープンウェイトとして公開されているため、自前のGPU環境にダウンロードして動かせます。その意味でAPI課金なしの利用は可能ですが、約4GPUのハードウェアと運用の手間がかかります。API経由で使う場合は入力$1.50・出力$7.50(百万トークン、2026年時点)の従量課金です。

Q. Claude Sonnet 4.6とどちらが速い・優れていますか?

SWE-bench Verifiedでは公式値77.6%で、Claude Sonnet 4.6の報道値79%台に近い性能帯と見られますが、速度や体感品質は本記事では未評価です。最大の違いは性能差より提供形態で、Medium 3.5は重みを公開し自前ホストできる点にあります。実際の優劣はご自身のタスクで比較してください。

Q. セルフホストに必要なGPUはどれくらいですか?

Mistral公式は「最少4 GPUで可能」としています。ただし128B denseはBF16/FP16では重みだけで約256GB級になるため、実際には4×80GB級以上やFP8/量子化、tensor parallel構成が前提になります。必要なGPU種別・精度・コンテキスト長で要件は変わるので、公式情報で確認してください。

Q. ライセンスは商用利用できますか?

ライセンスはModified MIT(修正版MIT)です。標準のMITに近い一方で条件が一部異なるため、商用利用や再配布の可否はライセンス原文での確認が前提になります。「完全なOSS」と無条件に断定はできないため、利用前に範囲を確かめてください。

Q. 日本語には対応していますか?

公式モデルカードでは、対応言語の一つとしてJapaneseが挙げられています。ただし、日本語での詳細な品質評価や用途別ベンチは本記事では確認していません。日本語のコードレビュー、仕様書読解、対話品質が重要なら、実際のプロンプトで試して判断するのが安全です。

参考資料

タイトルとURLをコピーしました