当前位置：首页>排行榜>Google 开源模型排行榜第三:Gemma 4 用 31B 参数打败了数百亿规模的对手,靠的是什么?

Google 开源模型排行榜第三:Gemma 4 用 31B 参数打败了数百亿规模的对手,靠的是什么?

更新时间 2026-04-04 14:41:04

没有发布会，只有一条推文

2026年4月2日凌晨，没有硅谷惯有的盛大发布仪式。

Google DeepMind CEO Demis Hassabis 只在 X 上发了一条简短消息，Gemma 4 就这样上线了。

几小时内，Arena AI 开源模型排行榜刷新：一个名为 Gemma 4 31B Dense 的模型，以 307 亿参数杀入全球开源前三。在它上方，是参数量数倍于它的庞然大物；在它下方，是过去一年统治社区的几支老牌主力。

与此同时，26B A4B MoE 位列第六——这个模型推理时只激活 38 亿参数，却在排行榜上击败了通义千问 Qwen3-235B（2350亿参数）和 Meta Llama-3.1-405B（4050亿参数）。

这不是参数量的游戏，这是工程效率的游戏。

四款模型，四个战场ou
Gemma 4 这次一口气发布了 4 个规格，覆盖从手机到数据中心的完整算力梯度：

|模型 |总参数 |激活参数|上下文 |定位 |
|---------------|----|----|----|---------|
|E2B |51亿 |23亿 |128K|手机/边缘设备 |
|E4B |80亿 |45亿 |128K|笔记本/树莓派 |
|26B A4B MoE|252亿|38亿 |256K|工作站/开发者 |
|31B Densea |307亿|全激活 |256K|服务器/高质量场景|

E2B 和 E4B 名字里的”E”是 Effective（有效参数）的缩写，采用 Per-Layer Embeddings 技术——嵌入表虽大，但不参与实际推理计算，实际运行成本远低于总参数所暗示的水平。E2B 在部分设备上内存占用可以压到 1.5GB 以下，手机跑 AI 不再只是噱头。

26B MoE 的设计更进一步：128个专家，每次推理只激活 8 个加 1 个共享专家，推理速度接近 4B 模型，但能力远超 4B 水平。同等显存下，推理速度比能力相当的密集模型快约 2.5 倍。

三组数据，说明这次跃进有多大

跟上一代 Gemma 3 27B 相比，Gemma 4 31B 的提升幅度超出了大多数人的预期：

数学：
AIME 2026 竞赛测试，从 20.8% 跳到 89.2%——同一类任务，四倍多的提升。

代码：
Codeforces ELO 从 110 拉到 2150，已超过大多数人类程序员的水平；LiveCodeBench v6 从 29.1% 到 80.0%。代码是这次进步最大的方向。

长上下文：
MRCR v2 128K 测试从 13.5% 到 66.4%。这是 Gemma 系列长期以来的短板，这次一次性补回来了。

大模型的 256K 上下文配合”交替局部滑动窗口注意力”机制，在”大海捞针”测试中 256K 满载状态下信息检索准确率保持在 99% 以上——整本技术手册塞进去，一样能找到对的那句话。

小模型的意外：E2B 打出的数字

E2B 只有 23 亿有效参数，但在 MMLU Pro 上拿到 60.0%。对比是：上一代 Gemma 3 27B 是 67.6%。

差距只有 7.6 个百分点，参数量差了 10 倍以上。

这两个小模型还有一个大模型没有的能力：原生音频支持。E2B 和 E4B 各自带了约 3 亿参数的音频编码器，支持语音识别和语音翻译，最长处理 30 秒音频。在手机端，语音是刚需。在服务器场景里，这个能力不是优先级——这个配置选择，本身就说明了 Google 的产品逻辑。

多模态：原生融合，不是外挂

所有四款模型都支持图片和视频输入（视频按帧处理，最长 60 秒）。

关键在”原生”两个字。不同于通过外挂视觉编码器实现的拼接式多模态，Gemma 4 的视觉处理组件与语言解码器共享相同的 Transformer 层和嵌入空间——图像的空间位置感知和细节理解直接在模型内部完成，而不是两套系统拼在一起。

实际效果：在文档 OCR（OmniDocBench）上，编辑距离从 0.365 降到 0.131，表格、流程图、手写公式的识别和理解质量直接提升。

视觉 token 预算可手动配置（70 到 1120 五档）：低预算换速度，高预算换精度。处理视频大量帧时用低预算，OCR 精细识别时用高预算——一个参数，调整资源分配方式。

Apache 2.0：这比技术指标更重要

Gemma 1、2、3 用的都是 Google 自己的许可协议，虽然允许商用，但有 MAU 限制和用途审查条款，一直是企业级开发者站队时的顾虑。

Gemma 4 全系改为 Apache 2.0。

Apache 2.0 是开源社区最认可的商业友好型许可证之一，可以自由修改、分发、商用，没有用户量门槛，没有额外条款。

Hugging Face 联合创始人兼 CEO Clément Delangue 的评价是：“Apache 2.0 协议是一个巨大的里程碑。”

更直白地说：这次协议变更，意味着医疗、国防、金融等对数字主权极度敏感的领域，可以直接以”无锁”状态使用 Gemma 4，不需要再权衡许可条款。这是 Google 用许可证换覆盖率的明确信号——放弃”控制税”，换取生态渗透率。

端侧：直接嵌进 Android 系统

这是 Gemma 4 最具战略意义的一步，但在技术社区的讨论里被严重低估。

通过 Android AICore 开发者预览版，E2B 和 E4B 被直接集成进 Android 系统级接口。在 Pixel 手机和树莓派上，新模型推理速度比上一代提升 4 倍，电池消耗降低 60%。

“系统级接口”这四个字意味着：应用开发者可以直接调用系统内置的 Gemma 4，不需要自己打包模型、不占用应用安装包体积、不需要重复下载——就像调用摄像头或麦克风一样。

对 Google 来说，这是一场关于移动生态控制权的战役。如果 Gemma 4 成为 Android 上 AI 能力的默认底层，那后续所有 Android 上的 AI 应用，都是在 Google 铺好的基础上建造的。

Agent 工作流：ADK 同步发布

Gemma 4 原生支持函数调用和结构化 JSON 输出，可以调用外部工具和 API。

Google 同步发布了 Agent Development Kit（ADK），一个开源的 Agent 框架，专门配合 Gemma 4 的 Agent 能力设计。E2B/E4B 端侧也能跑 Agent，Google AI Edge Gallery 里已有示范应用。

这个组合的含义：不只是”更聪明的对话模型”，而是能自主规划任务、调用工具、持续执行的本地 Agent 基础设施。

怎么用：主流框架全支持

本地部署：

```python
# Hugging Face Transformers
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "google/gemma-4-31b-it"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

# 31B Dense 未量化需要 80GB H100，量化后可跑消费级显卡
# 26B MoE 推理时仅激活 4B，消费级 GPU 友好
```

llama.cpp 也已支持，可以直接下载 GGUF 格式权重运行。

云端：

- Google Cloud Vertex AI：部署到自己的 Vertex AI endpoint，完全控制
- 26B MoE 版本将作为完全托管的无服务器模型在 Model Garden 上线
- Cloud Run：基于 NVIDIA RTX PRO 6000 Blackwell GPU 运行

和竞品的横向对比

31B Dense 在 Arena AI 开源排行榜位列第三，26B MoE 位列第六。

位列第三的模型，参数量只有 307 亿。能在开源榜上排它前面的，都是参数量高出数倍甚至十倍以上的模型。

这张排行榜背后的逻辑变了：不再是谁的参数多谁赢，而是单位参数能力密度谁更高。

Gemma 4 26B MoE 的逻辑极端化了这个方向——252亿总参数，推理时只激活 38 亿，但在能力评测上打败了十倍以上参数量的对手。

如果这个趋势持续，AI 硬件的算力门槛就会一直在降。

写在最后

这次 Gemma 4 发布，表面看是一个技术升级，实质是 Google 在开源 AI 领域做的一次战略重新定位。

许可证从限制性变为 Apache 2.0——放弃控制，换覆盖率。

架构从”大就是强”变成”有效参数才算数”——放弃军备竞赛，换工程效率。

端侧直接集成进 Android 系统——放弃应用层，抢操作系统层。

三个方向，指向同一个目标：让 Gemma 成为 AI 能力的基础设施，而不是众多选项之一。

基础设施不需要排名第一，只需要无处不在。

你会在什么场景下考虑用 Gemma 4？端侧部署、本地开发，还是 Agent 工作流？欢迎评论区聊聊你的用法。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

Google 开源模型排行榜第三:Gemma 4 用 31B 参数打败了数百亿规模的对手,靠的是什么?

最新文章

热门文章

随机文章

Google 开源模型排行榜第三:Gemma 4 用 31B 参数打败了数百亿规模的对手,靠的是什么?

2026年壁挂炉十大品牌权威榜单

12星座难追指数排行榜️

最新文章

热门文章

随机文章