2026年4月16日、AlibabaがHuggingFace上にQwen3.6-35B-A3Bを静かに公開した。総350億パラメータ・MoE構造で動作時は30億しか使わないという設計で、しかも公式は「視覚言語ベンチマークの大半でClaude Sonnet 4.5を上回る」と主張している。35Bクラスのオープンモデルが商用クローズドの最上位と真っ向勝負に来た、という速報だけで済ませるには情報が重すぎる発表。
・Qwen3.6-35B-A3Bは総350億/動作30億パラメータのMoEモデル、FP8版は34.87GB
・公式はClaude Sonnet 4.5超えを主張するが、視覚言語ベンチのみで汎用性能の独立検証はまだない
・Ollama未対応のため個人が試すならLM Studio v0.4.12以降かHuggingFace/vLLM経由が現実解
ニュースの核心:Qwen3.6-35B-A3Bは何者か
Qwen3.6-35B-A3Bとは、Alibabaが公開した総350億パラメータ・動作30億のMoE型マルチモーダルLLMである。
公式ブログ(alibabacloud.com, 2026-04-02)とHuggingFaceのモデルページ(huggingface.co/Qwen/Qwen3.6-35B-A3B, 2026-04-16)、そしてそれを取り上げた国内ニュース(news.yahoo.co.jp, 2026-04-17)の3ソースを突き合わせると、今回の発表は2段構えになっていた。先行する4月2日にクラウド側の商用版「Qwen3.6-Plus」(1Mコンテキスト対応)が投入され、2週間遅れの4月16日にオープンソース版の「Qwen3.6-35B-A3B」がHuggingFaceに降りてきた格好。
スペックの読みどころは2つ。1つ目は総パラメータ350億に対し動作時は30億しか使わないというMoE(Mixture of Experts)の圧縮効率。2つ目はビジョンエンコーダを内蔵したマルチモーダル対応。Alibabaによれば、この350億の器に乗せたビジョン能力が、Anthropic Claude Sonnet 4.5をVQA系ベンチマークで上回ったという。
ストレージ要件は以下のとおり。BF16(フル精度)が71.9GBでコンシューマGPU1枚では厳しい容量だが、FP8量子化版「Qwen3.6-35B-A3B-FP8」は34.87GBまで落ちており、RTX 5090(32GB)でもCPUオフロード併用で触れる射程に入る。1Mコンテキスト対応はPlus版の特徴で、オープン公開された35B-A3B側の最大コンテキストは公式リポジトリの記載に従うこと。
ランタイム対応状況の公式情報はLM Studio v0.4.12以降、HuggingFace transformers、vLLMの3つ。注目すべきは「Ollama未対応」(2026-04-19時点、Ollamaレジストリにslug無し)で、個人ユーザーが最短で試すにはLM Studioのアップデート待ちかHuggingFaceのtransformers直叩きが必要になる。ここでひとつ壁がある。
なぜこのタイミングなのか:背景と文脈
4月という時期にQwen3.6が出てきたこと自体、偶然ではない。直前の市場動向を3つ整理する。
MoEが「正義」になった2026年春
2025年後半から2026年にかけて、350億クラスのDense(全パラメータ動作)モデルは急速に姿を消した。理由は単純で、動作時のVRAMと推論コストが重すぎるから。同じ35Bを名乗っていても、Denseなら35B分の計算が走り、MoEなら30億分しか走らない。推論速度が約10倍違う計算になる局面もある設計。
Alibabaの前世代「Qwen3」シリーズもMoEを採用していたが、今回の3.6で動作パラメータを3B(30億)まで絞り込んだのは、「ローカル実行の現実解」を強く意識した設計判断と読める。8GBクラスのローカルLLMと同等の推論速度で、350億の知識容量を引けるという構図。
クローズドAPIに対するOSSの反撃
Claude Sonnet 4.5への直接言及は、Alibabaの戦略意図を露骨に示している。比較対象が同じAlibabaのQwen-Maxでも、OpenAIのGPT-5系でもなく、Anthropicの中堅グレードAPIだった点に注目したい。Claude Sonnet 4.5はコスト効率が高く、エンタープライズ導入が急速に進んでいるモデル。そこに「無料でダウンロードできるOSSが勝った」と主張することで、「課金して使う必要がない」という価値訴求を狙ったと考えられる。
ただし公平に見て、Alibaba公式の主張は「視覚言語ベンチマークの大半で」という限定付き。テキストのみの推論能力、コーディング、長文要約などでClaude Sonnet 4.5を上回ったとは公式ブログも書いていない。ここを読み飛ばすと、記事を書く側も読む側も過剰評価してしまう。
1Mコンテキストという競争軸
Qwen3.6-Plus側に搭載された1Mコンテキスト(約100万トークン)は、2026年4月時点でGemini 2.5 Proとほぼ同等のスペック。長文処理を武器にしたモデルが「クラウド経由の商用版」にだけ搭載され、OSS版の35B-A3Bには同等機能が降りてきていない点も覚えておきたい事実。実質的にAlibabaは「無料のOSSで話題を作り、長文処理が必要な商用顧客はPlusに誘導する」という二段階の収益構造を組んでいる。
業界への影響:競合と市場はどう動くか
Qwen3.6-35B-A3Bの公開は、3つのプレイヤーに具体的な宿題を投げた。
クローズドAPI提供者への圧力
Anthropic、OpenAI、Googleの3社は、Claude Sonnet 4.5、GPT-5、Gemini 2.5などの中堅APIグレードで、「月数十ドルで使えるクラウドAI」を収益の柱にしている。ここに「同性能を謳うOSSが無料で配布された」というメッセージが刺さると、エンタープライズ顧客は「自社オンプレで回すほうが安いのでは」という検討に踏み切る。
もちろん現実は単純ではない。350億パラメータのFP8版(34.87GB)を動かすには最低でもRTX 5090相当のGPUが必要で、複数ユーザーが同時に叩く本番環境ならA100/H100クラスが現実解。電気代・運用工数・社内SRE人材を含めるとAPIを叩いたほうが安いケースが大半。それでも「交渉材料としてQwen3.6が使える」という事実は、価格改定を遅らせる材料になる。
日本のSaaSベンダーへの影響
国内でClaudeやGPTをバックエンドに組み込んだSaaSを提供しているベンダーは、選択を迫られる。選択肢は3つ。
1つ目は静観。顧客が離脱しない限り、現行のAPIを使い続ける。2つ目はハイブリッド化。機密性が高い用途だけQwen3.6をオンプレで動かし、それ以外はAPIに流す二刀流構成。3つ目はフル置き換え。インフラコストを飲み込んでローカル運用に切り替える。
3つ目は現時点では現実的でない。理由は後述する「ベンチマークの信頼性」と「Ollama未対応」の2点。だが2つ目のハイブリッド路線は、医療・法務・金融など「データを社外に出せない業界向け」のSaaSで一気に現実味を帯びてくる。
日本のローカルLLMコミュニティへの影響
HuggingFace上の公開により、GGUF量子化版は数日〜数週間でコミュニティが作る可能性が高い。過去のQwenシリーズの例を見ると、TheBloke後継のコミュニティ量子化職人が4bit・5bit・6bit版を順次投入するのが通例。4bit量子化まで絞り込めれば、理論上は17〜20GB前後に収まる計算で、RTX 5060 Ti 16GBでもCPUオフロード併用で動作する可能性が出てくる。
つまり「自宅のGPUでClaude Sonnet 4.5と(ベンチマーク上は)対等な視覚言語モデルが動く」という絵が、早ければ5月中に現実になる。この意味は小さくない。
Claude Sonnet 4.5超え主張の読み解き:自サイトローカル実測との切り分け
公式の主張を鵜呑みにしないために、当サイトが2026-04-19に実施したローカル8モデル実測(RTX 5060 Ti 16GB, agent_bench 11タスク)の結果を併記しておく。Qwen3.6-35B-A3B自体は本稿執筆時点で未検証のため、ここで示すのは「同クラスのローカルモデルがClaude Sonnetとどれくらい差があるのか」の相場観。
- claude-sonnet-4-6 (API)
- 10/11 タスク一致 (91%)
- Gemma 4 (8B)(Ollama: gemma4:latest) (ローカル8B)
- 10/11 (91%)
- Phi-4 14B(Ollama: phi4:14b) (ローカル)
- 10/11 (91%)
- DeepSeek R1 8B(Ollama: deepseek-r1:8b) (ローカル)
- 10/11 (91%)
- Gemma 3 12B(Ollama: gemma3:12b) (ローカル)
- 9/11 (82%)
- Mistral 7B(Ollama: mistral:7b) (ローカル)
- 9/11 (82%)
読みどころはこうだ。8B〜14Bクラスのローカルモデル(gemma4, phi4, deepseek-r1)は、11タスクのagent_benchにおいてClaude Sonnet 4.6 APIと全く同じ10/11のスコアを出している。「ローカルはクラウドに劣る」という素朴な直感は、少なくとも特定タスクセットでは崩れていると言える。
一方、この結果をもって「ローカルLLMはClaudeと同等」と結論づけるのは早計。agent_benchの11タスクは網羅的ではなく、複雑な長文推論、マルチステップの計画立案、視覚言語タスクは含まれていない。Alibabaの「Claude Sonnet 4.5超え」主張が「視覚言語ベンチマークの大半で」と限定されていたのと同じ構造。ベンチマーク依存の主張は、対象タスクの範囲を確認せずに一般化してはならない。
ここから導ける解釈は次の3つ。
1つ目は、Qwen3.6-35B-A3Bが視覚言語ベンチで優秀な可能性は十分にあること。既存のQwenシリーズがVQA系で強いトラックレコードを持ち、350億の器にマルチモーダル能力を積んだ今回のモデルが同路線を伸ばしたとしても不思議ではない。
2つ目は、テキスト推論やコーディングについて公式が黙っている意味。ここで勝てていれば必ず比較表に載せるはずが、公式ブログには見当たらない。読者側はこの「語らなかった部分」を冷静に読み取る必要がある。
3つ目は、独立検証がまだ出そろっていないこと。2026-04-19時点で、Qwen3.6-35B-A3BのLiveBench、MMLU-Pro、HumanEvalなど第三者ベンチマークスコアは公表されていない。これらの数値が出そろうのは早くて5月中旬、遅ければ6月。それまでは「公式主張を信じるか・保留するか」の2択しかない。
実務への影響:今すぐ知っておくべきこと
「で、自分の仕事にはどう関係するのか」という問いに答える。業種・役割別に整理する。
AIツール導入を検討中の情シス・DX担当者
短期の対応は「焦って動かない」が正解。理由は3つある。まず独立検証がそろっていないため、ベンチマーク主張の真偽が判断できない。次にOllama未対応のため、手元のPoC環境で再現するハードルが高い。そして量子化版の品質が安定するまでは数週間かかるのが通例。
中期的には、機密データを外に出せない用途(法務文書レビュー、人事情報を扱うRAG、医療記録処理)の候補として名前を残しておけばよい。2026年5〜6月にサードパーティのベンチマーク結果が出そろった段階で、PoC計画に組み込むかを判断する流れが堅実。
ローカルLLMを既に運用しているエンジニア
最優先はLM Studio v0.4.12以降へのアップデート確認。現行環境でQwen3.6-35B-A3B-FP8を読み込めるか、VRAM使用量とトークン生成速度を自分のGPUで計測する。34.87GBのFP8版はRTX 5090(32GB)でもギリギリで、CPUオフロード併用時の実測速度は15〜30tokens/秒程度に落ちる可能性が高いと見ておく(公式ベンチマーク未公表のため推測含む)。
GGUF量子化版(Q4_K_M等)が出たら、そちらを優先する選択肢もある。17〜20GB前後まで絞れれば、RTX 4090・5080・5060 Ti 16GB+一部CPUオフロードの構成で実用速度に届く可能性が出てくる。
SaaSプロダクト開発者
Qwen3.6-35B-A3BをAPIから呼ぶだけの検討なら、Alibaba Cloud経由でQwen3.6-Plus(1Mコンテキスト版)を試すのが最速。ただし国内データレジデンシーを気にするプロダクトでは、Alibaba Cloudのリージョン選定とデータ取り扱い規約を精査する必要がある。
OSS版を自社で回すパターンでは、「Claude Sonnet 4.5比で何が良くなるか」をユースケース単位で定量化すること。画像含むRAG、ドキュメントOCR後の構造化、多言語対応などで既存のAPIコストが月100万円を超えている案件なら、A100/H100のクラウドGPUで回す経済合理性が成立する可能性がある。月10万円以下の案件ではAPI継続が依然として優勢。
個人開発者・プロンプトエンジニア
1つだけ言える現実的アクション。HuggingFaceのモデルカードをブックマークし、サードパーティのGGUF量子化版が出たタイミングでLM Studio経由で試す。無理にBF16やFP8を動かそうとせず、4bit〜5bit量子化を待つのが時間対効果の最適解。
今後の展望:この先3〜6か月で見るべき3つのポイント
Qwen3.6発表の流れは単発のニュースではなく、2026年後半に向けた複数の伏線を含んでいる。観測ポイントを具体的に示す。
観測ポイント1:5月中旬のサードパーティベンチマーク
LiveBench、MMLU-Pro、HumanEval+、SWE-bench Verifiedなど主要第三者ベンチで、Qwen3.6-35B-A3Bのスコアが公表されるタイミング。公式主張の「視覚言語ベンチ勝利」に対し、テキスト推論・コーディング・エージェント能力がどう評価されるかが、このモデルの実力を測る物差しになる。もしテキスト系でも強ければ、Claude Sonnet・GPT-5系のAPI価格改定圧力が一気に高まる展開。逆に視覚特化の域を出なければ、主張は限定的な評価に落ち着く。
観測ポイント2:コミュニティ量子化版の品質
4bit・5bit GGUFが出てきた際の品質劣化度合いを見る。MoEモデルは量子化で性能が落ちやすい傾向があるとされる(Mixtralシリーズでの観測例)。Qwen3.6-35B-A3Bが同じ罠にはまるかは未知数。4bit量子化でもベンチスコアが8割以上を維持できれば、16GB VRAMクラスのGPUで実運用が見えてくる。
観測ポイント3:Alibaba Cloudの価格戦略
Qwen3.6-Plusの商用APIが、OpenAIやAnthropicに対してどの価格帯で投入されるか。OSS版で話題を取った後、クラウド側で利益を回収する流れが定番。1Mコンテキスト対応という機能差をPlus側に限定した理由も、商用顧客との差別化を意図した戦略と考えられる。日本市場での価格設定が発表されれば、国内SaaSのバックエンド選定に直接影響する。
日本企業にとっての中期シナリオ
3〜6か月スパンで現実的に起きそうなことを3点整理する。1点目は、金融・医療・法務のオンプレRAG用途でQwen3.6系がPoC対象に入ること。機密性の高い領域で「自社で完結する」選択肢を求める需要は強く、視覚言語対応は書類OCR後の理解タスクに直結する。
2点目は、AIスタートアップのバックエンド多様化。Claude一本足だったプロダクトが、タスク別にQwen/Claude/GPT-5を使い分ける「マルチモデル構成」に寄る流れが加速しそう。3点目は、大手SIerが「国産・準国産LLM提案」にQwen3.6系を含めてくる可能性。データは国内に置きつつOSS版を自社クラウドで動かす構成は、セキュリティ要件の厳しい官公庁向け案件で需要がある。
よくある質問
Q. Qwen3.6-35B-A3BとQwen3.6-Plusは何が違いますか?
Qwen3.6-PlusはAlibaba Cloud経由の商用API版で、2026年4月2日公開・1Mコンテキスト対応。Qwen3.6-35B-A3BはHuggingFaceで2026年4月16日に公開されたオープンソース版で、総350億・動作30億パラメータのMoEモデル。1Mコンテキストなど一部機能はPlus側に限定されている。
Q. 個人のPCで動かせますか?
FP8量子化版(34.87GB)はRTX 5090(32GB)でもCPUオフロード併用が必要。BF16版(71.9GB)はコンシューマGPU1枚では不可能。現実的な最短ルートは、コミュニティが作成する予定の4bit GGUF量子化版を待ち、LM Studio v0.4.12以降で読み込む流れ。
Q. Ollamaで使えますか?
2026年4月19日時点でOllamaレジストリには登録されていない。HuggingFaceのGGUFファイルを手動でollama createする方法はあるが、公式slug登録を待つほうが確実。LM Studioなら公式対応済み(v0.4.12以降)なので、Ollama派でない人はこちらが早い。
Q. Claude Sonnet 4.5より本当に性能が高いですか?
Alibaba公式は「視覚言語ベンチマークの大半で上回る」と主張しているが、テキスト推論やコーディング分野での比較は公表されていない。独立したサードパーティベンチマークが出そろうのは5月中旬以降と見込まれるため、現時点では「視覚言語タスクでは有望、汎用性能は要検証」という評価が妥当。
Q. 商用利用は可能ですか?
ライセンス条件はHuggingFaceの公式モデルカード記載に従うこと。Qwenシリーズは過去にApache 2.0相当の商用可ライセンスで提供されてきたが、今回の3.6-35B-A3Bの正式条件はモデルカードで要確認。Plus版を商用APIで使う場合はAlibaba Cloudの利用規約が適用される。
まとめ
Qwen3.6-35B-A3Bの公開が持つ意味を3点に絞る。
1点目、350億/30億MoEという設計は「無料でダウンロードできるOSSが商用APIと並ぶ」という構図を視覚言語分野で先に成立させた。AlibabaがClaude Sonnet 4.5を直接指名した意図は、「課金の必要性そのものへの挑戦」と読める。
2点目、ただし「視覚言語ベンチマークで勝った」という公式主張は、対象を限定した条件付き主張であり、テキスト推論やコーディングでの独立検証はまだ出ていない。5月中旬以降のサードパーティベンチマークが出そろうまで、過剰な期待も過剰な失望もしないことが賢明。
3点目、今すぐ動くべきアクションは、情シス・エンジニア・個人それぞれで違う。情シスは独立検証待ち。ローカルLLM運用者はLM Studio v0.4.12以降の準備とGGUF量子化版待ち。SaaS開発者はAlibaba Cloud経由のPlus版PoCと、コスト試算の着手。個人開発者はHuggingFaceモデルカードのウォッチ。
ニュースとしては速いが、実務反映は慎重に。2026年4月のAI業界は、クローズドAPIとOSSの境界線が実質的に溶け始めた転換点として記憶されることになる。次の1か月、第三者ベンチマークとコミュニティ量子化版の品質検証が、このモデルの本当の評価を決める。

コメント