Qwen 3.7 Preview — オープン重みのアイデンティティと『Arena スコア』という新通貨
Qwen 3.7 Preview — オープン重みのアイデンティティと『Arena スコア』という新通貨
Qwen 3.7 Preview が Arena に登場し、Alibaba はテキスト 6 位ラボ、ビジョン 5 位ラボに上がった。だが同じ発表でパラメータ規模もライセンスも公開されなかった。オープン重み陣営のチャンピオンがクローズ寄りへ一歩動いた合図か、それともより大きな発表のための導火線か。
導入 — 「Preview」という但し書き
5月 14日、Alibaba Qwen チームの公式アカウントが短いツイートを投下した。「Qwen3.7-Max-Preview と Qwen3.7-Plus-Preview が Arena に登場した。」添付の表 1 枚にスコアが整理されていた。Max-Preview は Text Arena 総合 13 位、数学 7 位、expert タスク 9 位、ソフトウェア/IT 9 位、コーディング 10 位。Plus-Preview は Vision Arena 16 位。Alibaba はテキスト 6 位ラボ、ビジョン 5 位ラボへと上がった。この位置は Anthropic、OpenAI、Google のすぐ下である。HN スコア 203、コメント 79 で、その週末の話題になった。
表 1 枚の向こうに、微妙な信号がふたつ潜む。第一に、モデル名に「Preview」が付いている。第二に、パラメータ規模もライセンスも公開されていない。HN コメントで kethinov が投げた一文がその情緒を正確に表す。「ユーザーが繰り返し求めた情報 — 小型のオープンソース派生が出るのか、典型的なモデルサイズはどの程度か(9B、70B、200B、122B)、量子化フォーマットに対応するか — が公式発表にない。」つまり Alibaba は自社モデルの能力スコアだけを公開し、そのモデルがオープン重みとして公開されるかについては答えなかった。
この沈黙は単なる発表漏れではない。Qwen シリーズは過去 2 年でオープン重み陣営の事実上のチャンピオンに上り詰めた。Qwen 2、Qwen 2.5、Qwen 3 が順に重みを公開しライセンス条件を明示することで、ローカルで走らせられる SOTA モデル市場を事実上 Alibaba が取った。その流れの自然な次の段階は Qwen 3.7 の重み公開だった。ところが今回の発表は Arena スコアだけを携えて登場した。「Preview」という名は 2 通りの解釈を許す。ひとつは単なる事前告知で、本当の発表は別途近くなされるというもの。もうひとつは Max・Plus のような上位モデルはクローズで運営し、オープン重みはより小さな派生にのみ限るという戦略変更の合図である。
本稿はその 2 つの解釈の間を辿る。まず Qwen 3.7 の Arena スコアがモデル市場で何を意味するか。次に「オープン重みチャンピオン」としての Alibaba の位置がどのように揺らぐか。最後にこの変化が 2026 年後半の LLM 業界の均衡にどんな重さを加えるか。
本文 1 — Arena スコアが指すもの、指せないもの
LMSYS の Arena は過去 3 年で LLM 能力評価の事実上の標準になった。ユーザーが同じ質問への 2 モデルの応答を比べ、好む方を選ぶというシンプルな構造だ。蓄積された選好データから ELO のようなスコアを付ける。学術ベンチマークがモデルの特定能力を測るのに対し、Arena はユーザーが実際に応答に出会ったとき、どちらをより良いと感じるかを測る。両方の測定方式に限界はある。しかし Arena スコアが 5月時点で持つ重さは明確だ。モデルが「実際の使用環境でどの位置にあるか」を測る最速の信号である。
Qwen 3.7-Max-Preview の総合 13 位は、点数だけ見れば圧倒的ではない。だが分解してみると違う。数学 7 位、expert タスク 9 位、ソフトウェア/IT 9 位、コーディング 10 位。すなわち一般会話領域では米 3 大ラボの最新モデルに譲るが、専門領域ではほぼ同じ位置にいる。この分解が重要な理由は、産業利用の比重が大きい領域が一般会話ではなくコーディングと分析だからだ。コーディング 10 位という位置は Claude Sonnet と GPT のコーディング特化派生、Gemini の最新派生のすぐ下に当たる。すなわち産業利用領域では Qwen のスコアが米 3 大ラボのスコアと事実上同じ次元にある。
この差はモデル性能曲線が平坦化しつつあるという 5月の一貫した信号と正確に噛み合う。2024 年までは Arena の上位 5 位は米 3 大ラボのモデルでほぼ埋まっていた。2025 年後半から Qwen、DeepSeek、Mistral などほかの陣営のモデルが上位 10 位に入り始め、2026 年 5月の Qwen 3.7-Max がその流れの頂点だ。ユーザーから見て「どのモデルが圧倒的に良い」という感覚が次第に薄れる。コーディング作業で Claude Sonnet と Qwen 3.7-Max を交互に使って決定的な差を感じないユーザーが増える。この平坦化が新しい流れの出発点だ。
ただし Arena スコアが指せないものもある。第一にツール呼び出し仕様と MCP 互換性。5月の Anthropic-Stainless 取引で見たように、agentic コーディング環境では決定的変数はモデルの生の能力だけではなく、シェル・ファイル・MCP ツールをどれだけ安定的に呼び出せるかにある。Qwen 3.7-Max のツール呼び出し安定性についての情報はまだ少ない。第二にコスト可視性と安定性。Qwen のクローズド API が米 3 大ラボの API と同じ水準の可用性・SLA・観測性を提供するかも情報が少ない。第三に、最も重要なのが重み公開の有無だ。同じ 13 位のモデルでも、Anthropic Sonnet のように API でしか使えないものと、DeepSeek-R1 のようにローカルで走らせられるものでは価値が完全に異なる。5月 14日の Qwen の発表はこの決定的な情報を保留した。
本文 2 — 「オープン重みチャンピオン」のアイデンティティの揺らぎ
Alibaba がオープン重み陣営の事実上のチャンピオンに位置づいた時期は 2024 年の Qwen 2 公開以降だ。同時期に Meta の Llama シリーズが四半期ずつ遅れていったことで、重み公開の主導権が Alibaba に移った。Qwen 2.5 と Qwen 3 が順に 7B、14B、32B、72B などさまざまなサイズで重みを公開し、ライセンスも十分に開かれて商用利用まで可能になった。韓国や日本の小規模会社も自社データで Qwen をファインチューンして自社サービスへ載せる事例が当たり前になった。この流れこそ Alibaba の本当の影響力だ。単なるモデル能力ではなく、オープン重み生態系の標準モデルの座である。
5月の Qwen 3.7 発表がこの座を揺らす可能性がある。2 つのシナリオを並べてみる。
シナリオ A:単なる事前告知。 Preview は字義通り正式発表前の事前告知で、近く重みが公開される。この場合 Alibaba のオープン重みチャンピオンの座はさらに固まる。Anthropic、OpenAI、Google のクローズドモデルと能力面でほぼ同位置にあるモデルを誰もがローカルで走らせられるようになれば、それ自体が市場均衡を揺さぶる。ユーザーは「この作業はクローズド API が必要か、ローカル Qwen で足りるか」という問いを初めて真剣に問うようになる。この流れが固まれば、クローズド API への価格圧力は急峻に下がる。
シナリオ B:上位モデルのクローズ化。 Max と Plus は Qwen シリーズで初めて登場する派生ではない。2025 年後半から Alibaba は Qwen-Max というクローズド API 専用派生を別に運用してきた。Max は最大モデルで、重みは公開しない。Plus と Turbo はその下の段階で、一部の重みが公開されるか API のみで提供される。5月の発表がこのパターンを固めるものなら、Qwen 3.7-Max と Plus はクローズド API のみで提供される可能性が高く、オープン重みはその下のサイズの派生 — Qwen 3.7-Coder 30B のような — に限って公開されることを意味する。この場合 Alibaba のチャンピオン位置は次第にふたつへ分かれる。上はクローズド API の競合になり、下はオープン重みのチャンピオン座を保つ。2 つの座は同じ会社の中でも別事業である。
HN コメントの空気は 2 つのうちシナリオ B のほうを疑う。bachmeier は「今使っているモデルは Qwen3-Coder-30B-A3B-Instruct だ。64GB RAM、i5-13400 CPU で GPU なしで動く。Gemma 4 E4B は数分考え込むが Qwen は 3-5 秒だ。これだけ制限されたハードでこれだけのことができるとは信じがたい」と書いた。こうしたユーザーがオープン重みチャンピオンとしての Qwen に頼っている。rspoerri のコメントも似ている。「Qwen 3.6 27B は 3090 1 枚で大きなコンテキストを取りつつ安定して回る最初のモデルだった。」このユーザーから見れば、5月の Max・Plus 発表が彼らの手に入る重みを伴わないなら、それはチャンピオン座が揺らぐ合図に読める。
Alibaba から見れば 2 つのシナリオの選択は難しい。シナリオ A へ進み Max の重みまで公開すれば、オープン重み陣営の単独チャンピオンとして固まる。だがこれまでの事業モデルは Qwen-Max のクローズド API 売上に一部依存していた。シナリオ B へ進めばクローズド API 売上は保たれるが、オープン重みチャンピオンとしてのアイデンティティに亀裂が入る。この亀裂は単なるブランド毀損ではなく、今後の四半期にオープン重み陣営の他の挑戦者 — DeepSeek、Mistral、あるいは新規参入者 — にチャンピオン座を譲りかねないリスクだ。
本文 3 — Arena スコアが新しい通貨になる風景
ここで一歩下がって 5月のモデル市場全体を見よう。1 週間で起きた出来事をまとめると、パターンが鮮明だ。5月 14日に Modal が cold start を 40 倍縮めたと発表し(GPU 推論の経済学の変化)、同じ週に Cloudflare が Project Glasswing のレポートを公開し(攻撃セキュリティ frontier モデルの時代)、5月 18日に Anthropic が Stainless を買収し(SDK・MCP インフラの内製化)、5月 14日に Qwen 3.7 Preview が登場した(オープン重み陣営の新たな頂点)。4 つの出来事は表面的には別領域だが、同じ大きな流れの別の面である。
その大きな流れはシンプルだ。モデル性能自体の差別化が平坦化し、その平坦な風景の上で新しい通貨が作られる。 新しい通貨は Arena スコアのようなユーザー選好指標、ツール呼び出しの安定性、cold start 短縮の数値、サイバーセキュリティ能力の controlled access のような運用ディテールの帰結だ。モデル自体のスコアだけ見れば、米 3 大ラボ、Alibaba、DeepSeek、Mistral の差は縮まるが、運用ディテール領域では各社の差が再び開く。
この風景の中での Alibaba の位置は微妙だ。モデル能力自体としては Arena 13 位まで上がってきたが、運用インフラの厚み — MCP ツール生態系、ツール呼び出し仕様の安定性、agentic コーディング環境統合 — では米 3 大ラボより一歩以上後れている。Qwen のツール呼び出し仕様は OpenAI の関数呼び出しと互換になるよう作られたが、その互換の安定性はまだ同水準ではない。MCP サーバー生態系で Qwen を一級で支援する道具は少ない。agentic コーディング環境で Claude Code の位置に Qwen を差し込んで同じ効果を出した事例はほとんどない。すなわち Alibaba はモデル自体では 3 大ラボと同じ位置に入ったが、そのモデルを取り囲む運用インフラでは四半期以上遅れている。
この差を埋めるには時間がかかる。その時間に Alibaba が何をするかこそが 5月の発表後の見どころだ。ひとつの可能性は Alibaba が自前の agentic 道具 — Qwen Code のようなもの — を急速に育てて運用インフラの差を埋めることだ。もうひとつの可能性は Alibaba がモデル能力だけを急速に上げ、運用インフラは米 3 大ラボのインフラの上で — Qwen を MCP サーバーとして接続する形で — 副次的に使わせることだ。2 つの経路の選択が Alibaba モデル事業の次の四半期を決める。
韓国と日本の企業ユーザーから見れば、5月の Qwen 3.7 発表は微妙な可能性を開く。データ主権が重要な領域 — 金融、医療、政府 — では米 3 大ラボの API をそのまま使うのが難しい場合が多い。その領域で Qwen のようなモデルをローカルに立てられるという事実は、事業的に大きな価値を持つ。日本政府傘下の LLM 評価機関が 5月から Qwen シリーズを独自評価している事実も同じ文脈にある。だがその価値が実現するにはシナリオ A — Alibaba が Max の重みまで公開 — が起きねばならない。シナリオ B が固まればデータ主権の問題は同じ場所に残る。
結論 — Arena スコアとライセンスの間の距離
冒頭の二つの問いに戻ろう。Qwen 3.7-Max が Arena 13 位に入ったという事実は何を意味するか。そして「Preview」という但し書きとライセンス未公開はどのシナリオを指すのか。
第一の問いへの答えはモデル能力平坦化の最新証拠だ。米 3 大ラボと Alibaba の間のモデル能力差が 5月時点で事実上消えた。この平坦化はユーザーには良いことであり、モデル各社にとっては新しい通貨 — 運用インフラの厚み、ツール呼び出し仕様、agentic 環境統合 — で差別化を再構築せねばならない圧力である。
第二の問いへの答えは 2 つのシナリオの間にある。Alibaba が Max の重みまで公開すればシナリオ A。クローズで運用し小さな派生だけを公開すればシナリオ B。HN コミュニティの空気はシナリオ B を疑うが、5月の発表だけでは断定できない。今後 2-3 週間以内に Alibaba の次の動きがどちらに振れるかで決まる。
本稿が残すメッセージは一行だ。モデル能力の平坦化の上で、本当の決定変数はモデル能力そのものではなく、その能力がどのライセンスで誰の手に渡るかである。 Arena スコアは 5月の新しい通貨だが、ライセンスはその通貨を誰が使えるかを決める。Qwen 3.7-Max の 13 位スコアより、「Preview」という但し書きが次の四半期の市場均衡により大きな重さを持つ。その但し書きが次の発表でどんな形に解消されるかを見れば、オープン重み陣営のアイデンティティがどこへ向かうかが見えてくる。
出典: