Qwen 3.7 Preview — 오픈 가중치의 정체성과 ‘Arena 점수’ 라는 통화

Qwen 3.7 Preview 가 Arena 에 등장하면서 알리바바는 텍스트 6번 랩, 비전 5번 랩이 됐다. 그러나 같은 발표에서 파라미터 크기와 라이선스는 공개되지 않았다. 오픈 가중치 진영의 챔피언이 폐쇄 쪽으로 한 발 옮기는 신호인가, 아니면 더 큰 발표를 위한 사전 도화선인가.

도입 — “Preview” 라는 단서

5월 14일 알리바바 Qwen 팀의 공식 계정이 짧은 트윗을 올렸다. “Qwen3.7-Max-Preview 와 Qwen3.7-Plus-Preview 가 Arena 에 올라갔다.” 첨부된 표 한 장에 점수가 정리돼 있었다. Max-Preview 는 Text Arena 전체 13위, 수학 7위, expert 작업 9위, 소프트웨어/IT 9위, 코딩 10위. Plus-Preview 는 Vision Arena 16위. 알리바바는 텍스트 6번 랩, 비전 5번 랩으로 올라섰다. 이 자리는 Anthropic, OpenAI, Google 다음에 위치한다. HN 점수 203점, 79 코멘트로 그 주말의 화제가 됐다.

표 한 장 너머로 미묘한 신호가 두 가지 깔려 있다. 첫째, 모델 이름에 “Preview” 가 붙어 있다. 둘째, 파라미터 크기와 라이선스가 공개되지 않았다. HN 코멘트 가운데 kethinov 가 던진 한 줄이 그 정서를 정확히 드러낸다. “사용자들이 반복해서 요청한 정보 — 작은 오픈소스 변형이 나올지, 전형적인 모델 크기는 어느 정도인지(9B, 70B, 200B, 122B), 양자화 포맷을 지원하는지 — 가 공식 발표에 없다.” 즉 알리바바는 자기 모델의 능력 점수만 공개하고, 그 모델이 오픈 가중치로 풀릴지에 대해서는 답하지 않았다.

이 침묵은 단순한 발표 누락이 아니다. Qwen 시리즈는 지난 2 년 동안 오픈 가중치 진영의 사실상 챔피언으로 자리잡았다. Qwen 2, Qwen 2.5, Qwen 3 가 차례로 가중치를 풀고 라이선스 조건을 명시하면서, 로컬에서 돌릴 수 있는 SOTA 모델 시장을 사실상 알리바바가 가져갔다. 그 흐름의 자연스러운 다음 단계는 Qwen 3.7 의 가중치 공개였다. 그런데 이번 발표는 Arena 점수만 들고 등장했다. “Preview” 라는 이름은 두 가지 해석을 가능하게 한다. 하나는 단순한 사전 공지로, 진짜 발표는 곧 따로 한다는 것이다. 다른 하나는 Max·Plus 같은 상위 모델은 폐쇄로 운영하고, 오픈 가중치는 더 작은 변형으로만 풀겠다는 전략 변경의 신호다.

이 글은 그 두 해석 사이를 따라간다. 먼저 Qwen 3.7 의 Arena 점수가 모델 시장에서 무엇을 의미하는가. 다음에 “오픈 가중치 챔피언” 으로서 알리바바의 자리가 어떻게 흔들리는가. 마지막에 이 변화가 2026년 후반 LLM 산업의 균형에 어떤 무게를 더하는가.

본문 1 — Arena 점수가 가리키는 것, 가리키지 못하는 것

LMSYS 의 Arena 는 지난 3 년 동안 LLM 능력 평가의 사실상 표준이 되었다. 사용자가 동일한 질문에 대해 두 모델의 응답을 받고 선호하는 쪽을 고르는 단순한 구조다. 누적된 선호 데이터로 ELO 같은 점수를 매긴다. 학술 벤치마크가 모델의 특정 능력을 측정한다면, Arena 는 사용자가 실제로 응답을 만났을 때 어느 쪽을 더 좋다고 느끼는가를 측정한다. 두 측정 방식 모두 한계가 있다. 그러나 Arena 점수가 5월 시점에 갖는 무게는 분명하다. 모델이 “실제 사용 환경에서 어느 정도 자리에 있는가” 를 가늠하는 가장 빠른 신호다.

Qwen 3.7-Max-Preview 의 전체 13위는 그 점수만 놓고 보면 압도적이지 않다. 그러나 분해해 보면 다르다. 수학 7위, expert 작업 9위, 소프트웨어/IT 9위, 코딩 10위. 즉 일반 대화 영역에서는 미국 빅 3 의 최신 모델에 밀리지만, 전문가 영역에서는 거의 같은 자리에 있다. 이 분해가 중요한 이유는, 실제 산업 사용 가운데 비중이 큰 영역이 일반 대화가 아니라 코딩과 분석이기 때문이다. 코딩 10위라는 자리는 Claude Sonnet 과 GPT 의 코딩 특화 변형, 그리고 Gemini 의 최신 변형 다음에 위치한다. 즉 산업 사용 영역에서는 Qwen 의 점수가 미국 빅 3 의 점수와 사실상 같은 차원에 있다.

이 차이는 모델 성능 곡선이 평탄해지고 있다는 5월의 일관된 신호와 정확히 맞물린다. 2024년까지만 해도 Arena 의 상위 5위는 미국 빅 3 의 모델로 빈틈없이 채워져 있었다. 2025년 후반부터 Qwen, DeepSeek, Mistral 같은 다른 진영의 모델이 상위 10위 안으로 들어오기 시작했고, 2026년 5월의 Qwen 3.7-Max 는 그 흐름의 정점이다. 사용자 입장에서 어느 모델이 “월등히 좋다” 는 감각이 점점 옅어진다. 코딩 작업에서 Claude Sonnet 과 Qwen 3.7-Max 를 번갈아 써 보고 결정적 차이를 못 느끼는 사용자 비율이 늘어난다. 이 평탄화가 새 흐름의 출발점이다.

다만 Arena 점수가 가리키지 못하는 것이 있다. 첫째, 도구 호출 사양과 MCP 호환성이다. 5월의 Anthropic-Stainless 거래에서 본 것처럼, agentic 코딩 환경에서 결정적 변수는 모델의 원시 능력만이 아니라 그 모델이 셸·파일·MCP 도구를 얼마나 안정적으로 호출하는가다. Qwen 3.7-Max 의 도구 호출 안정성에 대한 정보는 아직 적다. 둘째, 비용 가시화와 안정성이다. Qwen 의 폐쇄 API 가 미국 빅 3 의 API 와 같은 수준의 가용성·SLA·관찰성을 제공할지에 대해서도 정보가 적다. 셋째, 가장 중요한 것은 가중치 공개 여부다. 같은 13위 모델이라도 Anthropic Sonnet 처럼 API 로만 쓸 수 있는 것과, DeepSeek-R1 처럼 로컬에서 직접 돌릴 수 있는 것은 가치가 완전히 다르다. 5월 14일의 Qwen 발표는 이 결정적 정보를 보류했다.

본문 2 — “오픈 가중치 챔피언” 의 정체성 흔들림

알리바바가 오픈 가중치 진영의 사실상 챔피언으로 자리잡은 시기는 2024년 Qwen 2 의 공개 이후다. 같은 시기에 Meta 의 Llama 시리즈가 한 분기씩 늦어지면서 가중치 공개의 주도권이 알리바바로 이동했다. Qwen 2.5 와 Qwen 3 가 차례로 7B, 14B, 32B, 72B 같은 다양한 크기로 가중치를 풀었고, 라이선스도 충분히 열려 있어 상업 사용까지 가능했다. 한국과 일본의 작은 회사들도 자사 데이터로 Qwen 을 fine-tune 해 자체 서비스에 띄우는 사례가 흔해졌다. 이 흐름이 알리바바의 진짜 영향력이다. 단순한 모델 능력이 아니라, 오픈 가중치 생태계의 표준 모델 자리다.

5월의 Qwen 3.7 발표가 이 자리를 흔들 가능성이 있다. 두 가지 시나리오를 따져 보자.

시나리오 A: 단순한 사전 공지. Preview 는 단어 그대로 정식 발표 전 사전 공지이고, 곧 가중치가 공개될 것이다. 이 경우 알리바바의 오픈 가중치 챔피언 자리는 더 굳어진다. Anthropic, OpenAI, Google 의 폐쇄 모델과 능력 면에서 거의 같은 자리에 있는 모델을 누구나 로컬에서 돌릴 수 있게 되면, 그 자체로 시장 균형을 흔든다. 사용자는 “이 작업은 폐쇄 API 가 필요한가, 로컬 Qwen 으로 충분한가” 라는 질문을 처음으로 진지하게 묻게 된다. 이 흐름이 굳어지면, 폐쇄 API 의 가격 압력이 가파르게 떨어진다.

시나리오 B: 상위 모델의 폐쇄화. Max 와 Plus 라는 이름은 Qwen 시리즈에서 처음 등장하는 변형이 아니다. 2025년 후반부터 알리바바는 Qwen-Max 라는 폐쇄 API 전용 변형을 따로 운영해 왔다. Max 는 가장 큰 모델이고, 가중치를 공개하지 않는다. Plus 와 Turbo 는 그 아래 단계로, 일부 가중치가 공개되거나 API 로만 제공된다. 5월의 발표가 이 패턴을 굳히는 것이라면, Qwen 3.7-Max 와 Plus 는 폐쇄 API 로만 제공될 가능성이 높고, 오픈 가중치는 그 아래 크기의 변형 — Qwen 3.7-Coder 30B 같은 — 으로만 풀린다는 뜻이다. 이 경우 알리바바의 챔피언 자리는 점점 둘로 갈라진다. 위로는 폐쇄 API 의 경쟁자가 되어 가고, 아래로는 오픈 가중치의 챔피언 자리를 지킨다. 두 자리는 같은 회사 안에서도 다른 사업이다.

HN 코멘트의 분위기는 두 시나리오 가운데 시나리오 B 쪽을 더 의심한다. bachmeier 의 코멘트는 “지금 쓰고 있는 모델은 Qwen3-Coder-30B-A3B-Instruct 다. 64GB RAM 의 i5-13400 CPU 에서 GPU 없이 돌아간다. Gemma 4 E4B 는 몇 분간 생각하는데 Qwen 은 3-5초다. 이렇게 제한된 하드웨어에서 얼마나 많은 것을 할 수 있는지 믿기 어렵다” 고 적었다. 이런 사용자들이 오픈 가중치 챔피언으로서의 Qwen 에 의지하고 있다. rspoerri 의 코멘트도 비슷하다. “Qwen 3.6 27B 가 처음으로 3090 한 장으로 큰 컨텍스트를 쓰며 안정적으로 도는 모델이었다.” 이 사용자들의 입장에서 5월의 Max·Plus 발표가 그들 손에 들어오는 가중치를 동반하지 않는다면, 그건 챔피언 자리가 흔들리는 신호로 읽힌다.

알리바바 입장에서 두 시나리오 사이의 선택은 어렵다. 시나리오 A 로 가서 Max 의 가중치까지 공개하면, 오픈 가중치 진영의 단독 챔피언으로 굳는다. 그러나 그 동안의 사업 모델은 Qwen-Max 의 폐쇄 API 매출에 일부 의지해 왔다. 시나리오 B 로 가면 폐쇄 API 매출은 유지되지만, 오픈 가중치 챔피언으로서의 정체성에 균열이 생긴다. 이 균열은 단순한 브랜드 손상이 아니라, 향후 분기에 오픈 가중치 진영의 다른 도전자 — DeepSeek, Mistral, 또는 새 진입자 — 에게 챔피언 자리를 내줄 위험이다.

본문 3 — Arena 점수가 새 통화가 되는 풍경

여기서 한 발 물러서 5월의 모델 시장 전체를 보자. 한 주 동안 일어난 일들을 묶어 보면 패턴이 또렷하다. 5월 14일 Modal 이 cold start 를 40배 줄였다고 발표했고(GPU 추론의 경제학 변화), 같은 주에 Cloudflare 가 Project Glasswing 보고서를 공개했고(공격 보안 frontier 모델의 시대), 5월 18일 Anthropic 이 Stainless 를 인수했고(SDK·MCP 인프라의 내재화), 5월 14일 Qwen 3.7 Preview 가 등장했다(오픈 가중치 진영의 새 정점). 네 사건은 표면적으로는 다른 영역이지만, 같은 큰 흐름의 다른 면이다.

그 큰 흐름은 단순하다. 모델 성능 자체의 차별화가 평탄해지고, 그 평탄한 풍경 위에서 새 통화가 만들어진다. 새 통화는 Arena 점수 같은 사용자 선호 측정값, 도구 호출 안정성, cold start 단축 수치, 사이버 보안 능력의 controlled access 같은 운용 디테일의 결과물이다. 모델 자체의 점수만 보면 미국 빅 3, 알리바바, DeepSeek, Mistral 의 차이가 좁아지지만, 운용 디테일의 영역에서는 회사들의 차이가 다시 벌어진다.

이 풍경에서 알리바바의 위치는 묘하다. 모델 능력 자체로는 Arena 13위까지 올라왔지만, 운용 인프라의 두께 — MCP 도구 생태계, 도구 호출 사양의 안정성, agentic 코딩 환경 통합 — 에서는 미국 빅 3 보다 한참 뒤져 있다. Qwen 의 도구 호출 사양은 OpenAI 의 함수 호출과 호환되도록 만들어졌지만, 그 호환성의 안정성은 아직 같은 수준이 아니다. MCP 서버 생태계에서 Qwen 을 일급으로 지원하는 도구는 적다. agentic 코딩 환경에서 Claude Code 의 자리에 Qwen 을 끼워 넣고 같은 효과를 내는 사례는 거의 없다. 즉 알리바바는 모델 자체로는 빅 3 와 같은 자리에 들어왔지만, 그 모델을 둘러싼 운용 인프라에서는 한 분기 이상 뒤져 있다.

이 격차가 좁혀지는 데에는 시간이 든다. 그 시간 동안 알리바바가 무엇을 할 것인가가 5월의 발표 이후 보아야 할 것이다. 한 가지 가능성은 알리바바가 자체 agentic 도구 — Qwen Code 같은 — 를 빠르게 키우면서 운용 인프라의 격차를 메우는 것이다. 다른 가능성은 알리바바가 모델 능력만 빠르게 올리고, 운용 인프라는 미국 빅 3 의 인프라 위에서 — Qwen 을 MCP 서버로 연결하는 형태로 — 부수적으로 사용하게 두는 것이다. 두 경로의 선택이 알리바바 모델 사업의 다음 분기를 결정한다.

한국과 일본의 기업 사용자 입장에서 보면, 5월의 Qwen 3.7 발표는 묘한 가능성을 연다. 데이터 주권이 중요한 영역 — 금융, 의료, 정부 — 에서는 미국 빅 3 의 API 를 그대로 쓰기 어려운 경우가 많다. 그 영역에서 Qwen 같은 모델을 로컬에 띄울 수 있다는 것은 사업적으로 큰 가치를 가진다. 일본 정부 산하의 LLM 평가 기관이 5월부터 Qwen 시리즈를 자체 평가하고 있는 것도 같은 맥락이다. 그러나 그 가치가 실현되려면 시나리오 A — 알리바바가 Max 의 가중치까지 공개 — 가 일어나야 한다. 시나리오 B 가 굳어지면, 데이터 주권 문제는 같은 자리에 남아 있다.

결론 — Arena 점수와 라이선스 사이의 거리

처음의 두 질문으로 돌아가자. Qwen 3.7-Max 가 Arena 13위에 들어왔다는 사실은 무엇을 의미하는가. 그리고 “Preview” 라는 단서와 라이선스 미공개는 어떤 시나리오를 가리키는가.

첫 번째 질문에 대한 답은 모델 능력 평탄화의 최신 증거다. 미국 빅 3 와 알리바바 사이의 모델 능력 격차가 5월 시점에서 사실상 사라졌다. 이 평탄화는 사용자에게는 좋은 일이고, 모델 회사들에게는 새 통화 — 운용 인프라의 두께, 도구 호출 사양, agentic 환경 통합 — 에서 차별화를 다시 만들어야 하는 압력이다.

두 번째 질문에 대한 답은 두 시나리오 사이에 있다. 알리바바가 Max 의 가중치까지 공개하면 시나리오 A 다. 폐쇄로 운영하고 작은 변형만 공개하면 시나리오 B 다. HN 커뮤니티의 분위기는 시나리오 B 를 더 의심하지만, 5월 발표만으로는 단정할 수 없다. 다음 2-3 주 안에 알리바바의 다음 움직임이 어느 쪽인지 가려진다.

이 글이 남기는 메시지는 한 줄이다. 모델 능력의 평탄화 위에서 진짜 결정 변수는 모델 능력 자체가 아니라, 그 능력이 어떤 라이선스로 누구의 손에 들어가는가다. Arena 점수는 5월의 새 통화지만, 라이선스는 그 통화를 누가 쓸 수 있는지를 결정한다. Qwen 3.7-Max 의 13위 점수보다, “Preview” 라는 단서가 다음 분기의 시장 균형에 더 큰 무게를 갖는다. 그 단서가 다음 발표에서 어떤 형태로 해소되는지를 보면, 오픈 가중치 진영의 정체성이 어디로 갈지가 보인다.

출처: