前几天 AI 圈有个小侦探游戏:一个叫 Hunter Alpha 的匿名模型突然杀进 OpenRouter 排行榜前列,每周处理 5000 亿 tokens,累计使用量超过 1 万亿。大家猜是 DeepSeek V4?还是某个神秘新玩家?
3 月 18 日谜底揭晓:小米 MiMo-V2-Pro。
等等,为什么要匿名?
不是谦虚,是测试策略
小米官方的说法是"想看看模型的真实表现"。听起来很合理,对吧?没有品牌光环加持,用户反馈更客观。
但这个逻辑有个致命问题:如果表现很差呢?
假设 Hunter Alpha 上线后 bug 频出,用户吐槽不断,排名垫底——小米会官宣吗?当然不会。这个马甲号会悄悄下线,就像从未存在过。
失败时隐身,成功时官宣。 这才是匿名发布的真实逻辑。
小米不是个例。智谱 AI 的 Pony Alpha 二月份也玩了同样的套路:匿名运行 5 天,确认表现不错,才公布身份。OpenRouter 已经成了大厂的"隐秘测试场"——你以为自己在用新模型尝鲜,其实是在当免费测试者。
数据去了哪里?
更麻烦的是隐私问题。
Hunter Alpha 的服务条款明确写着:会记录所有提示和完成内容用于改进模型。但用户不知道这些数据最终给了谁。你可能在和匿名模型聊工作方案、产品创意,甚至私人问题,结果这些对话被用来训练小米的模型。
匿名发布让问责成为不可能。如果官方模型出现数据泄露,至少有公司背书和法律追责渠道。但匿名模型呢?出了问题找谁?
Meta 的 27 个变体
这个套路背后,藏着更大的问题:排行榜正在变成选择性披露的游戏。
Meta 在 Llama-4 发布前做了什么?私下测试了 27 个不同配置的变体,观察它们在各个榜单上的表现,最后只公布得分最高的那个版本。
这不是个例,是行业常态。大公司可以提交多个版本,悄悄观察数据,保留好成绩,删除差成绩。普通用户看到的排行榜,其实是精心筛选后的"精华版"。
研究人员发现,只需要 10% 的恶意投票,就能让一个模型的排名改变 5 位。匿名发布让这种操纵更容易:不用担心品牌受损,可以随意试错。
Goodhart's Law 正在生效
经济学有个著名定律:当一个指标成为目标,它就不再是个好指标。
排行榜原本是帮用户找到最好模型的工具。但当公司把"冲榜"作为核心目标,优化的就不再是真实能力,而是排行榜分数本身。
针对特定基准测试调优,提交多个版本观察反馈,选择性公布好成绩——这些操作从技术角度完全合法,但彻底扭曲了排行榜的意义。
匿名发布把这一切推向极致。 失败的版本永远不会被看到,成功的才会披上正式身份。你看到的每一个"匿名模型揭晓"新闻,背后都可能有十几个没揭晓的失败案例。
不是技术进步,是营销策略
我不是说小米 MiMo-V2-Pro 不好。从技术指标看,万亿参数、100 万上下文窗口,这些数字确实亮眼。
但问题是:这种发布方式本身就是对用户的不尊重。
把用户当免费测试者,却不告知数据用途;把排行榜当 A/B 测试工具,失败了就当没发生——这不是技术创新,是营销套路。
更糟的是,当这种做法成为行业默认操作,排行榜的公信力就彻底崩塌了。我们看到的不再是"最好的模型",而是"最会玩榜单游戏的公司"。
下次看到"神秘匿名模型横空出世"的新闻,先别急着惊叹。想想这个问题:为什么它不敢用真名?