Bonsai Image 4B — 1.125 비트 가중치로 iPhone 위에 들어간 4B 디퓨전 모델

2026 년 6 월 1 일, PrismML 의 Bonsai Image 4B 발표가 HN 의 상단에 올라 261 점과 92 코멘트를 모았다. 4B 파라미터 디퓨전 트랜스포머의 가중치를 {-1, +1} 의 1.125 effective bits 또는 {-1, 0, +1} 의 1.71 effective bits 로 양자화한 두 변종이다. 모델 크기는 풀 정밀도의 7.75 GB 에서 0.93 GB (1-bit) 또는 1.21 GB (ternary) 로 줄어, iPhone 17 Pro Max 의 메모리 예산 안에 들어간다. 512×512 이미지를 9.4 초에 생성. ‘FLUX.2 Klein 의 88 ~ 95 % 정확도’ 를 유지하면서 8.3 배 크기 감소를 이뤘다는 주장이다. 이는 디퓨전 모델의 엣지 디바이스 시대의 시작인가, 또 하나의 벤치마크 마케팅인가.

도입 — ‘iPhone 에서 512×512’ 가 가진 무게

먼저 발표의 표제 숫자를 정렬한다. Bonsai Image 4B 는 두 변종으로 출시됐다. 첫째는 1-bit 변종 — 가중치를 {-1, +1} 의 이진 값으로 두고 FP16 의 스케일 팩터를 곱하는 형식, effective bit 수는 1.125. 둘째는 ternary 변종 — 가중치를 {-1, 0, +1} 의 삼진 값으로 두는 형식, effective 1.71 bits. 두 변종 모두 원본 4B 파라미터 디퓨전 트랜스포머의 7.75 GB 메모리 풋프린트를 0.93 GB / 1.21 GB 로 줄였다.

이 감소의 의미가 어디서 가시화되는가. 발표의 한 줄이 정확히 짚는다 — “the full-precision FLUX.2 Klein 4B pipeline does not fit within the device memory budget, while both Bonsai Image variants run on-device” (풀 정밀도 FLUX.2 Klein 4B 파이프라인은 디바이스 메모리 예산에 들어가지 않지만, 두 Bonsai Image 변종은 모두 온디바이스로 작동한다). iPhone 17 Pro Max 의 가용 메모리 예산은 통상 4 ~ 6 GB. 7.75 GB 모델은 OS / 다른 앱과 공존할 수 없다. 1.21 GB 모델은 공존할 수 있다. 이 단순한 경계 통과가 디퓨전 모델의 사용 패턴 전체를 바꾼다.

발표가 가장 강조하는 한 줄 — “Local inference changes that” (로컬 추론이 그것을 바꾼다) — 이 디자인 의도를 요약한다. 클라우드 디퓨전 API 의 단가 (호출당 $0.02 ~ $0.10), 지연 (4 ~ 15 초의 콜드 시작), 그리고 프라이버시 (사진 데이터의 외부 전송) 라는 세 제약을 동시에 풀어내려는 시도다. 그러나 이 모든 약속이 단 하나의 질문에 묶여 있다 — 1.125 비트로 줄인 가중치가 정말로 풀 정밀도의 88 ~ 95 % 의 품질을 유지하는가, 아니면 벤치마크 숫자의 그림자에 본질적 손실이 숨겨져 있는가.

본문 1 — ‘effective 1.125 bits’ 의 기술적 의미와 벤치마크의 두 면

먼저 effective bit 수의 기술적 의미를 정렬한다. ‘1-bit 가중치’ 라는 표현은 종종 오해를 낳는다. 순수한 1 비트는 두 값 ({+1, -1} 또는 {0, 1}) 만 표현 가능하다. 그러나 디퓨전 트랜스포머의 활성값 분포가 평균 0 가까이 분포해 있어, 순수 1 비트로는 충분한 표현력이 안 나온다. 그래서 ‘BitNet b1.58’ 류의 방식이 등장했다. {-1, 0, +1} 의 삼진 값 (effective 1.58 bits) 으로 영(零) 가중치를 명시적으로 표현해 sparsity 와 표현력을 동시에 얻는 접근이다.

Bonsai 의 두 변종은 이 두 접근의 변주다. 1-bit 변종은 {-1, +1} 의 이진 가중치에 행렬별 FP16 스케일 팩터를 곱해, effective 1.125 bits 라는 약간 더 높은 정보 밀도를 얻는다. ternary 변종은 {-1, 0, +1} 에 effective 1.71 bits — BitNet b1.58 보다 약간 높다 (PrismML 의 구현 디테일에 따른 차이). 두 접근 모두 행렬 곱셈을 비트 시프트와 덧셈만으로 — 곱셈 없이 — 구현 가능하게 만들어, 메모리 대역폭의 절감과 함께 연산 효율의 향상도 얻는다.

벤치마크의 표제 숫자는 다음과 같다. GenEval, HPSv3, DPG-Bench 세 지표에서:

모델                     GenEval   HPSv3    DPG-Bench
Ternary Bonsai Image 4B    0.723   12.22     0.851
1-bit Bonsai Image 4B      0.671   11.15     0.822
FLUX.2 Klein 4B            0.819   12.84     0.853

이 표가 가리키는 것은, 풀 정밀도 FLUX.2 Klein 의 GenEval 0.819 대비 ternary 가 88.3 %, 1-bit 가 81.9 % 의 정확도를 유지한다는 것이다. DPG-Bench (텍스트-이미지 정렬) 에서는 ternary 가 99.8 %, 1-bit 가 96.4 % — 거의 손실이 없다. HPSv3 (인간 선호 점수) 에서는 ternary 가 95.2 %, 1-bit 가 86.8 %.

여기서 발표의 한 줄을 다시 본다 — “Ternary Bonsai retains 95% of the FLUX.2 Klein 4B accuracy … 1-bit retains 88%”. 이 한 줄은 위 세 지표의 가중 평균에 가깝다. 단일 지표가 아니라 가중 평균이라는 점이 미묘하다. 어떤 지표 (특히 HPSv3 의 인간 선호) 에서는 1-bit 의 손실이 더 크다. 마케팅 단일 숫자 (88 % / 95 %) 가 가중 평균이라는 사실을 사용자가 인지하는 것이 중요하다.

속도 측면의 숫자는 더 단순하다 — “Bonsai Image 4B generates a 512x512 image in 9.4 seconds on an iPhone 17 Pro Max” (iPhone 17 Pro Max 에서 512×512 이미지를 9.4 초에 생성). 같은 모델이 Mac M4 Pro 에서는 풀 정밀도 MFLUX 파이프라인 대비 5.6 배 빠르다. 속도 향상의 주된 원인은 메모리 대역폭의 감소다 — 가중치가 6.4 ~ 8.3 배 작아지면 메모리에서 가중치를 읽어 오는 데 드는 시간이 같은 비율로 줄고, 그것이 모델 추론의 총 시간을 지배한다.

본문 2 — ‘클라우드 디퓨전’ 의 단가 곡선과 Bonsai 가 만드는 균열

Bonsai 가 가리키는 흐름의 의미는 이 발표 단일 사건이 아니라, 디퓨전 모델의 단가 곡선 전체의 변화 신호라는 점이다. 두 단계로 풀어 본다.

첫 단계: ‘4B 의 의미’. Stable Diffusion 1.5 (2022) 는 0.9B 파라미터로 시작했다. SDXL (2023) 이 3.5B, FLUX.1 (2024) 이 12B, FLUX.2 (2026 초) 가 24B 와 4B 의 두 변종으로 출시됐다. ‘Klein’ 변종 (4B) 은 FLUX.2 의 작은 변종으로, 풀 변종 (24B) 의 약 70 % 품질을 유지하면서 빠른 추론을 목표로 했다. Bonsai 가 양자화의 베이스로 4B 변종을 고른 것은 합리적이다 — 24B 의 양자화는 같은 비율의 압축으로도 절대값이 크고 (24B / 8.3 = 2.9 GB 도 iPhone 에 안 들어감), 0.9B 의 양자화는 절대 품질이 너무 낮다.

이 의미는 디퓨전 모델 카테고리에 새 분기점이 생긴다는 것이다 — ‘엣지 디바이스용 4B 양자화’ 와 ‘클라우드용 24B 풀 정밀도’ 의 두 갈래. 같은 모델 패밀리가 두 사용 시나리오를 다르게 서빙한다. Bonsai 의 출시는 첫 갈래의 첫 본격 시도다.

둘째 단계: ‘클라우드 API 의 단가 압력’. 클라우드 디퓨전 API 의 호출당 단가 ($0.02 ~ $0.10) 가 어떻게 압력받는가. 단순한 시나리오로 보자. 한 사용자가 하루에 50 회 이미지를 생성한다 (디자인 도구의 일반적 사용 패턴). 클라우드 API 로 한 달 사용량은 1,500 회, 호출당 $0.05 면 월 $75. 그 사용자에게 Bonsai 가 탑재된 디자인 앱이 있다면, 같은 사용량이 $0 + 약간의 배터리 소비다. 1,500 회의 호출이 0 으로 떨어지는 단가 차이가 일년이면 $900.

이 단가 차이가 모든 사용자에게 적용되는 것은 아니다. 디자인 전문가는 24B 풀 정밀도의 품질을 포기할 수 없다. 그러나 일반 사용자 (소셜 미디어 콘텐츠 제작, 학생, 취미 사용자) 의 사용 패턴은 88 % 의 품질로 충분하다. 그리고 그 사용자층의 규모는 디자인 전문가의 한 자릿수 큰 규모다. 즉 클라우드 디퓨전 API 의 매출이 가장 큰 시장은 일반 사용자층이고, 그 시장이 Bonsai 류의 엣지 추론으로 빠져나갈 압력을 받는다.

HN 의 92 코멘트에서 가장 공감을 받은 한 줄이 이 시나리오를 정확히 짚는다 — 정서 요약 — “디퓨전 API 의 가격 모델이 LLM API 의 가격 모델과 같이 가는데, LLM 은 이미 엣지로 빠지는 압력을 받고 있고, 디퓨전도 이제 그 압력 안에 들어왔다 (the diffusion API price model now faces the same edge-shift pressure as LLM APIs)”. OpenAI 의 DALL-E API 매출, Midjourney 의 구독 매출, Stability AI 의 API 매출이 같은 종류의 압력을 받기 시작했다. 이 압력의 첫 측정 시점이 다음 6 ~ 12 개월이다.

이 압력이 절대적이지 않은 두 가지 이유도 함께 짚어야 한다. 첫째, 사용자의 모델 / 가중치 관리 비용 이다. Bonsai 의 0.93 ~ 1.21 GB 가 모바일 디바이스에 다운로드되어야 한다. 모바일 네트워크 / 디바이스 저장소 / 모델 업데이트 주기의 운영 비용이 사용자 측에 새로 생긴다. 둘째, 모델 가족의 분기 비용 이다. Bonsai 는 FLUX.2 Klein 의 양자화 변종이지만, 다른 베이스 모델 (Stability 의 SD3, OpenAI 의 DALL-E 4) 은 자기 양자화 변종을 만들어야 한다. 이 분기 비용이 어느 모델 가족이 엣지 시장의 표준이 될지를 결정한다.

본문 3 — ‘엣지 디퓨전’ 의 다음 분기점들

Bonsai 의 발표가 가리키는 흐름이 다음 12 ~ 18 개월에 어떻게 풀려 갈지, 네 갈래로 정리한다.

첫째 갈래는 ‘양자화 표준의 통합’ 이다. 현재 디퓨전 양자화는 1-bit, 1.58-bit, ternary, 4-bit (Q4) 같은 여러 방식이 경쟁한다. 12 개월 안에 한두 표준 — 가장 유력한 후보는 BitNet b1.58 의 변종 — 으로 수렴할 가능성이 높다. 이 수렴이 일어나면 모바일 런타임 (iOS Core ML, Android NNAPI, Qualcomm AI Engine) 이 그 표준을 하드웨어 수준에서 가속하기 시작한다. Bonsai 의 5.6 배 가속이 그 시점에는 15 배 ~ 30 배로 커진다.

둘째 갈래는 ‘엣지 디바이스 SDK 의 표준화’ 다. 현재 모바일 디퓨전 추론은 각 도구 (MFLUX, Diffusers.js, Core ML Tools) 가 자기 SDK 를 가진다. 표준 (예: ONNX 의 디퓨전 확장) 이 등장하면 한 모델이 모든 디바이스에서 같이 작동한다. Bonsai 의 발표 자체가 표준화 압력의 일부다 — 같은 모델이 Apple Silicon 과 CUDA 두 환경에서 일관되게 작동한다는 주장이 이미 들어 있다.

셋째 갈래는 ‘엣지 + 클라우드 하이브리드 디퓨전’ 이다. 사용자의 첫 시안 (draft) 은 엣지의 88 % 품질 모델로 빠르게 생성하고, 사용자가 마음에 드는 시안을 골랐을 때만 그 시안을 클라우드의 24B 풀 정밀도 모델에 보내 최종 렌더링을 한다. 단가 모델로 보면, 클라우드 호출이 평균 10 분의 1 ~ 30 분의 1 로 줄어든다. 이 하이브리드 패턴이 Adobe Firefly, Canva 같은 디자인 SaaS 의 단가 모델을 6 ~ 12 개월 안에 재편한다.

넷째 갈래는 ‘프라이버시 / 규제의 압력’ 이다. EU 의 AI Act, 미국의 주별 AI 데이터 보호 법안이 사진 / 이미지 데이터의 외부 전송에 점점 무거운 의무를 부과한다. 의료 이미지, 미성년자 사진, 신원 확인 이미지 같은 영역에서 클라우드 디퓨전 API 의 사용이 사실상 차단된다. 이 차단의 압력이 엣지 디퓨전의 단가 / 품질 곡선을 시장이 받아들이는 임계점으로 끌어내린다. Bonsai 의 88 % 품질이 이 임계점에 충분한지가 도메인별로 갈리는 질문이지만, 의료 분야 (예비 진단 보조용 시각화) 에서는 이미 충분하다는 평가가 나오기 시작했다.

네 갈래가 모두 같은 방향을 가리키지는 않는다. 양자화 표준 통합 (첫째) 과 엣지 SDK 표준화 (둘째) 는 카테고리의 성숙을 가속하지만, 하이브리드 패턴 (셋째) 은 클라우드 API 의 매출을 부분적으로 보호한다. 프라이버시 압력 (넷째) 은 엣지로의 이동을 강제로 가속한다. 네 갈래의 합성이 만드는 시장 모양이 12 ~ 18 개월 후 가시화될 것이다.

결론 — ‘1.125 비트’ 라는 숫자의 진짜 의미

Bonsai Image 4B 의 발표가 HN 의 261 점을 모은 진짜 이유는 단일 모델의 출시가 아니다. ‘1.125 비트로 충분하다’ 는 가정이 디퓨전 모델 카테고리에서 통한다면, 클라우드 디퓨전 API 의 단가 모델 자체가 압력을 받기 시작한다 는 진단이다. LLM 카테고리에서 이미 일어난 일 (BitNet, Llama 3 8B 의 4-bit 양자화, Phi-3 의 모바일 추론) 이 디퓨전 카테고리에서 본격적으로 시작되는 신호다.

이 진단이 실무자에게 던지는 메시지는 세 갈래다. 첫째, 디퓨전 API 의존도가 큰 제품을 운영 중이라면, 엣지 추론 백엔드 (Bonsai 또는 동등) 의 통합을 9 ~ 12 개월 안에 검토한다. 사용자의 88 % 가 88 % 의 품질로 충분하다면, 그 88 % 의 단가가 0 으로 떨어지는 것이 매출 구조에 직접 영향을 준다. 둘째, 클라우드 디퓨전 매출에 의존하는 비즈니스 (DALL-E, Midjourney 의 API 매출 노출 부분) 의 단가 압력을 측정한다. 셋째, 새 디자인 도구를 만든다면 ‘엣지 우선’ 의 디폴트 사용 시나리오를 먼저 설계하고, 클라우드를 옵션 업그레이드로 두는 패턴을 검토한다.

마지막으로 한 가지 질문을 던지면서 닫는다. LLM 의 엣지 추론이 6 개월 안에 GPT-4o 의 API 매출에 얼마나 압력을 줄지를 우리가 측정하기 시작했을 때, 디퓨전의 같은 시점이 도착한 것이 6 월 1 일의 Bonsai 발표다. 우리의 제품이 이 두 압력 가운데 어느 쪽 위에 서 있는지, 그리고 그 위에서 다음 12 개월에 무엇을 할 것인지가, 다음 분기 의사결정의 가장 큰 단일 변수다.

출처:

https://prismml.com/news/bonsai-image-4b
HN discussion: https://news.ycombinator.com/item?id=48346257