当前位置:首页>排行榜>Google 开源模型排行榜第三:Gemma 4 用 31B 参数打败了数百亿规模的对手,靠的是什么?

Google 开源模型排行榜第三:Gemma 4 用 31B 参数打败了数百亿规模的对手,靠的是什么?

  • 更新时间 2026-04-04 14:41:04
Google 开源模型排行榜第三:Gemma 4 用 31B 参数打败了数百亿规模的对手,靠的是什么?

没有发布会,只有一条推文

2026年4月2日凌晨,没有硅谷惯有的盛大发布仪式。

Google DeepMind CEO Demis Hassabis 只在 X 上发了一条简短消息,Gemma 4 就这样上线了。

几小时内,Arena AI 开源模型排行榜刷新:一个名为 Gemma 4 31B Dense 的模型,以 307 亿参数杀入全球开源前三。在它上方,是参数量数倍于它的庞然大物;在它下方,是过去一年统治社区的几支老牌主力。

与此同时,26B A4B MoE 位列第六——这个模型推理时只激活 38 亿参数,却在排行榜上击败了通义千问 Qwen3-235B(2350亿参数)和 Meta Llama-3.1-405B(4050亿参数)。

这不是参数量的游戏,这是工程效率的游戏。

 四款模型,四个战场ou
Gemma 4 这次一口气发布了 4 个规格,覆盖从手机到数据中心的完整算力梯度:

|模型             |总参数 |激活参数|上下文 |定位       |
|---------------|----|----|----|---------|
|E2B        |51亿 |23亿 |128K|手机/边缘设备  |
|E4B       |80亿 |45亿 |128K|笔记本/树莓派  |
|26B A4B MoE|252亿|38亿 |256K|工作站/开发者  |
|31B Densea |307亿|全激活 |256K|服务器/高质量场景|

E2B 和 E4B 名字里的”E”是 Effective(有效参数)的缩写,采用 Per-Layer Embeddings 技术——嵌入表虽大,但不参与实际推理计算,实际运行成本远低于总参数所暗示的水平。E2B 在部分设备上内存占用可以压到 1.5GB 以下,手机跑 AI 不再只是噱头。

26B MoE 的设计更进一步:128个专家,每次推理只激活 8 个加 1 个共享专家,推理速度接近 4B 模型,但能力远超 4B 水平。同等显存下,推理速度比能力相当的密集模型快约 2.5 倍。

三组数据,说明这次跃进有多大

跟上一代 Gemma 3 27B 相比,Gemma 4 31B 的提升幅度超出了大多数人的预期:

数学:
AIME 2026 竞赛测试,从 20.8% 跳到 89.2%——同一类任务,四倍多的提升。

代码:
Codeforces ELO 从 110 拉到 2150,已超过大多数人类程序员的水平;LiveCodeBench v6 从 29.1% 到 80.0%。代码是这次进步最大的方向。

长上下文
MRCR v2 128K 测试从 13.5% 到 66.4%。这是 Gemma 系列长期以来的短板,这次一次性补回来了。

大模型的 256K 上下文配合”交替局部滑动窗口注意力”机制,在”大海捞针”测试中 256K 满载状态下信息检索准确率保持在 99% 以上——整本技术手册塞进去,一样能找到对的那句话。


小模型的意外:E2B 打出的数字

E2B 只有 23 亿有效参数,但在 MMLU Pro 上拿到 60.0%。对比是:上一代 Gemma 3 27B 是 67.6%。

差距只有 7.6 个百分点,参数量差了 10 倍以上。

这两个小模型还有一个大模型没有的能力:原生音频支持。E2B 和 E4B 各自带了约 3 亿参数的音频编码器,支持语音识别和语音翻译,最长处理 30 秒音频。在手机端,语音是刚需。在服务器场景里,这个能力不是优先级——这个配置选择,本身就说明了 Google 的产品逻辑。

多模态:原生融合,不是外挂

所有四款模型都支持图片和视频输入(视频按帧处理,最长 60 秒)。

关键在”原生”两个字。不同于通过外挂视觉编码器实现的拼接式多模态,Gemma 4 的视觉处理组件与语言解码器共享相同的 Transformer 层和嵌入空间——图像的空间位置感知和细节理解直接在模型内部完成,而不是两套系统拼在一起。

实际效果:在文档 OCR(OmniDocBench)上,编辑距离从 0.365 降到 0.131,表格、流程图、手写公式的识别和理解质量直接提升。

视觉 token 预算可手动配置(70 到 1120 五档):低预算换速度,高预算换精度。处理视频大量帧时用低预算,OCR 精细识别时用高预算——一个参数,调整资源分配方式。

Apache 2.0:这比技术指标更重要

Gemma 1、2、3 用的都是 Google 自己的许可协议,虽然允许商用,但有 MAU 限制和用途审查条款,一直是企业级开发者站队时的顾虑。

Gemma 4 全系改为 Apache 2.0。

Apache 2.0 是开源社区最认可的商业友好型许可证之一,可以自由修改、分发、商用,没有用户量门槛,没有额外条款。

Hugging Face 联合创始人兼 CEO Clément Delangue 的评价是:“Apache 2.0 协议是一个巨大的里程碑。”

更直白地说:这次协议变更,意味着医疗、国防、金融等对数字主权极度敏感的领域,可以直接以”无锁”状态使用 Gemma 4,不需要再权衡许可条款。这是 Google 用许可证换覆盖率的明确信号——放弃”控制税”,换取生态渗透率。

端侧:直接嵌进 Android 系统

这是 Gemma 4 最具战略意义的一步,但在技术社区的讨论里被严重低估。

通过 Android AICore 开发者预览版,E2B 和 E4B 被直接集成进 Android 系统级接口。在 Pixel 手机和树莓派上,新模型推理速度比上一代提升 4 倍,电池消耗降低 60%。

“系统级接口”这四个字意味着:应用开发者可以直接调用系统内置的 Gemma 4,不需要自己打包模型、不占用应用安装包体积、不需要重复下载——就像调用摄像头或麦克风一样。

对 Google 来说,这是一场关于移动生态控制权的战役。如果 Gemma 4 成为 Android 上 AI 能力的默认底层,那后续所有 Android 上的 AI 应用,都是在 Google 铺好的基础上建造的。

Agent 工作流:ADK 同步发布

Gemma 4 原生支持函数调用和结构化 JSON 输出,可以调用外部工具和 API。

Google 同步发布了 Agent Development Kit(ADK),一个开源的 Agent 框架,专门配合 Gemma 4 的 Agent 能力设计。E2B/E4B 端侧也能跑 Agent,Google AI Edge Gallery 里已有示范应用。

这个组合的含义:不只是”更聪明的对话模型”,而是能自主规划任务、调用工具、持续执行的本地 Agent 基础设施。

怎么用:主流框架全支持

本地部署:

```python
# Hugging Face Transformers
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "google/gemma-4-31b-it"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

# 31B Dense 未量化需要 80GB H100,量化后可跑消费级显卡
# 26B MoE 推理时仅激活 4B,消费级 GPU 友好
```

llama.cpp 也已支持,可以直接下载 GGUF 格式权重运行。

云端:

- Google Cloud Vertex AI:部署到自己的 Vertex AI endpoint,完全控制
- 26B MoE 版本将作为完全托管的无服务器模型在 Model Garden 上线
- Cloud Run:基于 NVIDIA RTX PRO 6000 Blackwell GPU 运行

和竞品的横向对比

31B Dense 在 Arena AI 开源排行榜位列第三,26B MoE 位列第六。

位列第三的模型,参数量只有 307 亿。能在开源榜上排它前面的,都是参数量高出数倍甚至十倍以上的模型。

这张排行榜背后的逻辑变了:不再是谁的参数多谁赢,而是单位参数能力密度谁更高。

Gemma 4 26B MoE 的逻辑极端化了这个方向——252亿总参数,推理时只激活 38 亿,但在能力评测上打败了十倍以上参数量的对手。

如果这个趋势持续,AI 硬件的算力门槛就会一直在降。

写在最后

这次 Gemma 4 发布,表面看是一个技术升级,实质是 Google 在开源 AI 领域做的一次战略重新定位。

许可证从限制性变为 Apache 2.0——放弃控制,换覆盖率。

架构从”大就是强”变成”有效参数才算数”——放弃军备竞赛,换工程效率。

端侧直接集成进 Android 系统——放弃应用层,抢操作系统层。

三个方向,指向同一个目标:让 Gemma 成为 AI 能力的基础设施,而不是众多选项之一。

基础设施不需要排名第一,只需要无处不在。

你会在什么场景下考虑用 Gemma 4?端侧部署、本地开发,还是 Agent 工作流?欢迎评论区聊聊你的用法。

最新文章

随机文章