Bonsai Image 4B — 1.125 ビット重みで iPhone に収まった 4B Diffusion モデル

2026 年 6 月 1 日、PrismML の Bonsai Image 4B 発表が HN の上位に上がり 261 点と 92 コメントを集めた。4B パラメータの Diffusion Transformer の重みを {-1, +1} の 1.125 effective bits または {-1, 0, +1} の 1.71 effective bits に量子化した二つの変種。モデルサイズはフル精度の 7.75 GB から 0.93 GB (1-bit) または 1.21 GB (ternary) に縮まり、iPhone 17 Pro Max のメモリ予算内に収まる。512×512 の画像を 9.4 秒で生成。「FLUX.2 Klein の 88 ~ 95 % の精度」を維持しながら 8.3 倍のサイズ縮小を実現した、という主張だ。これは Diffusion モデルのエッジデバイス時代の幕開けなのか、もう一つのベンチマークマーケティングなのか。

導入 — ‘iPhone で 512×512’ が持つ重み

まず発表のタイトル数字を整理する。Bonsai Image 4B は二つの変種でリリースされた。第一は 1-bit 変種 — 重みを {-1, +1} の二値とし、FP16 のスケールファクタを掛ける形式で、effective bit 数は 1.125。第二は ternary 変種 — 重みを {-1, 0, +1} の三値とする形式で、effective 1.71 bits。両変種とも元の 4B パラメータ Diffusion Transformer の 7.75 GB のメモリフットプリントを 0.93 GB / 1.21 GB に縮めた。

この縮小の意味がどこで可視化されるか。発表の一行が正確に指す — “the full-precision FLUX.2 Klein 4B pipeline does not fit within the device memory budget, while both Bonsai Image variants run on-device” (フル精度 FLUX.2 Klein 4B のパイプラインはデバイスのメモリ予算に収まらないが、両 Bonsai Image 変種はオンデバイスで動作する)。iPhone 17 Pro Max の利用可能メモリ予算は通常 4 ~ 6 GB。7.75 GB のモデルは OS / 他アプリと共存できない。1.21 GB のモデルなら共存できる。この単純な境界の通過が Diffusion モデルの使用パターン全体を変える。

発表が最も強調する一行 — “Local inference changes that” (ローカル推論がそれを変える) — が設計意図を要約する。クラウド Diffusion API の単価 (呼び出しあたり $0.02 ~ $0.10)、レイテンシ (4 ~ 15 秒のコールドスタート)、そしてプライバシー (写真データの外部送信) という三つの制約を同時に解こうとする試みだ。しかしこのすべての約束はただ一つの問いに縛られる — 1.125 ビットに縮めた重みは本当にフル精度の 88 ~ 95 % の品質を保つのか、それともベンチマーク数字の影に本質的な損失が隠れているのか。

本文 1 — ‘effective 1.125 bits’ の技術的意味とベンチマークの二面

まず effective bit 数の技術的意味を整理する。「1-bit 重み」という表現はしばしば誤解を生む。純粋な 1 ビットは二つの値 ({+1, -1} または {0, 1}) しか表現できない。しかし Diffusion Transformer の活性値分布は平均が 0 に近く分布しているため、純粋な 1 ビットでは十分な表現力が出ない。そこで「BitNet b1.58」型の方式が登場した。{-1, 0, +1} の三値 (effective 1.58 bits) でゼロの重みを明示的に表現し、sparsity と表現力を同時に得るアプローチだ。

Bonsai の二つの変種はこの二つのアプローチの変奏だ。1-bit 変種は {-1, +1} の二値重みに行列ごとの FP16 スケールファクタを掛けて effective 1.125 bits というやや高い情報密度を得る。ternary 変種は {-1, 0, +1} に effective 1.71 bits — BitNet b1.58 よりわずかに高い (PrismML の実装ディテールによる差)。両アプローチとも行列乗算をビットシフトと加算だけで — 乗算なしで — 実装可能にし、メモリ帯域の節約と共に演算効率の向上も得る。

ベンチマークのタイトル数字は次の通り。GenEval, HPSv3, DPG-Bench の三指標で:

モデル                     GenEval   HPSv3    DPG-Bench
Ternary Bonsai Image 4B    0.723   12.22     0.851
1-bit Bonsai Image 4B      0.671   11.15     0.822
FLUX.2 Klein 4B            0.819   12.84     0.853

この表が指すのは、フル精度 FLUX.2 Klein の GenEval 0.819 に対し ternary が 88.3 %, 1-bit が 81.9 % の精度を保つ、ということだ。DPG-Bench (テキスト → 画像整合) では ternary が 99.8 %, 1-bit が 96.4 % — ほぼ損失なし。HPSv3 (人間の選好スコア) では ternary が 95.2 %, 1-bit が 86.8 %。

ここで発表の一行を見直す — “Ternary Bonsai retains 95% of the FLUX.2 Klein 4B accuracy … 1-bit retains 88%“。この一行は上記三指標の加重平均に近い。単一指標ではなく加重平均という点が微妙だ。ある指標 (特に HPSv3 の人間選好) では 1-bit の損失がより大きい。マーケティングの単一数字 (88 % / 95 %) が加重平均だという事実をユーザーが認識することが重要だ。

速度面の数字はよりシンプルだ — “Bonsai Image 4B generates a 512x512 image in 9.4 seconds on an iPhone 17 Pro Max” (iPhone 17 Pro Max で 512×512 の画像を 9.4 秒で生成)。同じモデルが Mac M4 Pro ではフル精度の MFLUX パイプラインに対し 5.6 倍高速。速度向上の主因はメモリ帯域の削減だ — 重みが 6.4 ~ 8.3 倍小さくなれば、メモリから重みを読み出す時間が同じ比率で減り、それがモデル推論の総時間を支配する。

本文 2 — ‘クラウド Diffusion’ の単価カーブと Bonsai が作る亀裂

Bonsai が指す流れの意味は、この発表という単一の出来事ではなく、Diffusion モデルの単価カーブ全体の変化シグナルである点だ。二段階でほどく。

第一段階: ‘4B の意味’。 Stable Diffusion 1.5 (2022) は 0.9B パラメータで始まった。SDXL (2023) が 3.5B, FLUX.1 (2024) が 12B, FLUX.2 (2026 初頭) が 24B と 4B の二変種でリリースされた。「Klein」変種 (4B) は FLUX.2 の小型変種で、フル変種 (24B) の約 70 % の品質を維持しつつ高速推論を目指した。Bonsai が量子化のベースとして 4B 変種を選んだのは合理的だ — 24B の量子化は同じ圧縮比でも絶対値が大きく (24B / 8.3 = 2.9 GB でも iPhone には収まらず)、0.9B の量子化は絶対品質が低すぎる。

この意味は、Diffusion モデルカテゴリに新しい分岐点が生まれるということだ — 「エッジデバイス用 4B 量子化」と「クラウド用 24B フル精度」の二系統。同じモデルファミリーが二つの利用シナリオを別々にサービスする。Bonsai のリリースは前者の初の本格的試みだ。

第二段階: ‘クラウド API の単価圧力’。 クラウド Diffusion API の呼び出しあたり単価 ($0.02 ~ $0.10) がどう圧力を受けるか。シンプルなシナリオで見よう。一人のユーザーが 1 日 50 回画像を生成する (デザインツールの一般的な使用パターン)。クラウド API で月の使用量は 1,500 回、呼び出しあたり $0.05 なら月 $75。そのユーザーに Bonsai を搭載したデザインアプリがあれば、同じ使用量は $0 + わずかなバッテリー消費だ。1,500 回の呼び出しが 0 に落ちる単価差が年間で $900。

この単価差はすべてのユーザーに適用されるわけではない。デザインのプロは 24B フル精度の品質を譲れない。しかし一般ユーザー (SNS のコンテンツ制作, 学生, 趣味ユーザー) の使用パターンは 88 % の品質で十分だ。そしてその利用者層の規模はデザインのプロより一桁大きい。つまりクラウド Diffusion API の売上が最大の市場は一般ユーザー層で、その市場が Bonsai 系のエッジ推論へ流出する圧力を受ける。

HN の 92 コメントで最も共感を集めた一行がこのシナリオを正確に指す — 情緒の要約 — 「Diffusion API の価格モデルが LLM API の価格モデルと同じ道を歩むが、LLM はすでにエッジへ流出する圧力を受けており、Diffusion もいまその圧力の中に入った (the diffusion API price model now faces the same edge-shift pressure as LLM APIs)」。OpenAI の DALL-E API 売上, Midjourney のサブスクリプション売上, Stability AI の API 売上が同じ種類の圧力を受け始めている。この圧力の最初の測定時点が次の 6 ~ 12 ヶ月だ。

この圧力が絶対的ではない二つの理由も同時に指摘しておく。第一に、ユーザー側のモデル / 重み管理コスト だ。Bonsai の 0.93 ~ 1.21 GB がモバイルデバイスへダウンロードされる必要がある。モバイルネットワーク / デバイスストレージ / モデル更新サイクルの運用コストがユーザー側に新たに発生する。第二に、モデルファミリーの分岐コスト だ。Bonsai は FLUX.2 Klein の量子化変種だが、他のベースモデル (Stability の SD3, OpenAI の DALL-E 4) は自前の量子化変種を作らねばならない。この分岐コストがどのモデルファミリーがエッジ市場の標準となるかを決める。

本文 3 — ‘エッジ Diffusion’ の次の分岐点

Bonsai の発表が指す流れが次の 12 ~ 18 ヶ月でどう展開するか、四つに整理する。

第一の分岐は ‘量子化標準の統合’ だ。現在の Diffusion 量子化は 1-bit, 1.58-bit, ternary, 4-bit (Q4) のような複数の方式が競合する。12 ヶ月以内に一つか二つの標準 — 最有力候補は BitNet b1.58 の変種 — に収束する可能性が高い。この収束が起きれば、モバイルランタイム (iOS Core ML, Android NNAPI, Qualcomm AI Engine) がその標準をハードウェアレベルで加速し始める。Bonsai の 5.6 倍の高速化が、その時点には 15 倍 ~ 30 倍に拡大する。

第二の分岐は ‘エッジデバイス SDK の標準化’ だ。現在のモバイル Diffusion 推論は各ツール (MFLUX, Diffusers.js, Core ML Tools) が独自 SDK を持つ。標準 (例: ONNX の Diffusion 拡張) が登場すれば、一つのモデルがすべてのデバイスで一貫して動作する。Bonsai の発表自体が標準化圧力の一部だ — 同じモデルが Apple Silicon と CUDA の二つの環境で一貫して動作するという主張がすでに含まれる。

第三の分岐は ‘エッジ + クラウドハイブリッド Diffusion’ だ。ユーザーの初稿 (draft) はエッジの 88 % 品質モデルで素早く生成し、ユーザーが気に入った案を選んだときだけ、その案をクラウドの 24B フル精度モデルへ送って最終レンダリングを行う。単価モデルで見ると、クラウド呼び出しが平均 10 分の 1 ~ 30 分の 1 に減る。このハイブリッドパターンが Adobe Firefly, Canva のようなデザイン SaaS の単価モデルを 6 ~ 12 ヶ月以内に再編する。

第四の分岐は ‘プライバシー / 規制の圧力’ だ。EU の AI Act, 米国の州別 AI データ保護法案が、写真 / 画像データの外部送信に次第に重い義務を課す。医療画像, 未成年者の写真, 身元確認画像のような領域でクラウド Diffusion API の利用が事実上ブロックされる。このブロックの圧力がエッジ Diffusion の単価 / 品質カーブを市場が受け入れる臨界点まで引き下げる。Bonsai の 88 % 品質がこの臨界点に十分かはドメインごとに分かれる問いだが、医療分野 (予備診断補助用の可視化) ではすでに十分だという評価が出始めている。

四つの分岐すべてが同じ方向を指すわけではない。量子化標準統合 (第一) とエッジ SDK 標準化 (第二) はカテゴリの成熟を加速するが、ハイブリッドパターン (第三) はクラウド API の売上を部分的に守る。プライバシー圧力 (第四) はエッジへの移動を強制的に加速する。四つの分岐の合成が作る市場形状が 12 ~ 18 ヶ月後に可視化されるだろう。

結論 — ‘1.125 ビット’ という数字の本当の意味

Bonsai Image 4B の発表が HN の 261 点を集めた本当の理由は単一モデルのリリースではない。「1.125 ビットで十分だ」という仮定が Diffusion モデルカテゴリで通るならば、クラウド Diffusion API の単価モデル自体が圧力を受け始める という診断だ。LLM カテゴリですでに起きたこと (BitNet, Llama 3 8B の 4-bit 量子化, Phi-3 のモバイル推論) が Diffusion カテゴリで本格的に始まるシグナルだ。

この診断が実務者に投げかけるメッセージは三つに分かれる。第一に、Diffusion API への依存度が高い製品を運用中なら、エッジ推論バックエンド (Bonsai または同等) の統合を 9 ~ 12 ヶ月以内に検討する。ユーザーの 88 % が 88 % の品質で十分なら、その 88 % の単価が 0 へ落ちることが売上構造に直接影響する。第二に、クラウド Diffusion 売上に依存するビジネス (DALL-E, Midjourney の API 売上エクスポージャ部分) の単価圧力を測定する。第三に、新しいデザインツールを作るなら「エッジ優先」のデフォルトの使用シナリオをまず設計し、クラウドはオプションのアップグレードとして置くパターンを検討する。

最後に一つの問いを投げかけて閉じる。LLM のエッジ推論が 6 ヶ月以内に GPT-4o の API 売上にどれだけ圧力を与えるかを我々が測り始めたとき、Diffusion の同じ時点が到来したのが 6 月 1 日の Bonsai 発表だ。我々の製品がこの二つの圧力のどちら側に立っているか、そしてその上で次の 12 ヶ月で何をするかが、次の四半期の意思決定の最大の単一変数だ。

出典:

https://prismml.com/news/bonsai-image-4b
HN discussion: https://news.ycombinator.com/item?id=48346257