导读
【导读】独立开发者kai-os发布Carnice-9B——一个基于Qwen3.5-9B的微调模型,但它的目标不是刷榜、不是通用聊天,而是专门为Hermes-Agent框架定制的「Agent大脑」。最低6GB显存即可本地运行,发布24小时内推文浏览量逼近10万,上千人点赞收藏。这可能是2026年AI Agent生态最值得关注的信号:模型训练的下一站,是给框架"量体裁衣"。一个人,一个模型,一个框架
4月4日,一个叫kai-os的独立开发者在X上发了一条推文。
没有公司背景,没有几十人的团队,没有发布会。就是一条推文,配一张带翅膀头盔的logo。
但这条推文在24小时内拿下了近10万浏览、超1000个点赞、1100个收藏。
他发布的东西叫Carnice-9B。
▲ kai-os发布Carnice-9B,24小时内近10万浏览,超千人收藏
Carnice-9B是什么?一个基于阿里Qwen3.5-9B微调的模型。听起来平平无奇——每天HuggingFace上都有几十个新微调模型。
但Carnice-9B跟它们都不一样。
它的模型卡上写得明明白白:这个模型不是为了通用聊天,不是为了刷LMSYS排行榜,它只为一件事而生——在Hermes-Agent框架里当一个靠谱的执行大脑。
"Carnice-9b is a fine-tuned version of Qwen3.5-9b to preform exceptionally well in the hermes-agent harness."
「Carnice-9B是Qwen3.5-9B的微调版本,目标是在Hermes-Agent harness里表现出色。」
这句话的重量,可能比你想象的要大得多。
为什么"只为一个框架训练"这件事很炸裂?
过去两年,AI社区的主旋律是什么?卷通用能力,卷榜单排名,卷参数规模。
GPT-5出来了,Claude跟上,Gemini追赶。每个模型都想成为"全能选手"。
但现实中,真正在跑Agent任务的人发现了一个残酷的事实:通用最强的模型,到了你的Agent框架里,可能连工具都调不利索。
为什么?因为每个Agent框架都有自己的一套"规矩":工具调用的格式、消息的结构、错误恢复的策略、多步执行的编排模式。通用模型没见过这些特定模式,只能靠"碰运气"。
X上一位用户@sudoingX的评论精准地说出了这个痛点:
"this is what the ecosystem needs. models trained specifically for the harness, not generic weights hoping for the best."
「这才是生态真正需要的。模型应该为框架定向训练,而不是拿通用权重碰运气。」

▲ @sudoingX:生态需要的是为框架定向训练的模型,不是通用权重碰运气
Carnice-9B做的正是这件事。它不追求在聊天评测里打败GPT,而是追求一件更具体的事:在Hermes-Agent里,稳定地调用工具、操作终端、控制浏览器、执行多步任务,并且严格遵守Hermes框架期望的消息格式。
这个方向,可能比"训一个更大的通用模型"更重要。
数据飞轮:用强模型喂小模型
Carnice-9B的训练方法值得单独说说,因为它揭示了一条可复制的"Agent模型训练路径"。
kai-os的做法分两个阶段:
第一阶段:推理修复(Reasoning Repair)
在Bespoke-Stratos-17k和NuminaMath-CoT等高质量推理数据上做SFT,先让模型的基础推理能力稳固。
第二阶段:Hermes行为刷新(Hermes-Specific Refresh)
关键来了——kai-os用GLM-5(一个更强的模型)在Hermes-Agent里实际跑任务,收集了大量真实的执行轨迹(traces)。这些轨迹包含了终端操作、文件编辑、浏览器使用、多步工具调用的完整记录。
然后用这些轨迹数据来训练Qwen3.5-9B。
数据规模:4033个prompt,收集了1983条本地任务轨迹、1567条网络任务轨迹,筛选后保留1780条,其中高质量轨迹1627条。
这就是一个完美的"数据飞轮":
强模型跑框架 → 收集真实轨迹 → 训练小模型 → 小模型在同一框架里更稳 → 产出更高质量轨迹 → 继续迭代
而且所有数据集都开源了——`kai-os/carnice-glm5-hermes-traces`,Apache 2.0许可证。
一个独立开发者,就这样搭出了一条完整的Agent模型训练流水线。
6GB显存即可运行:本地Agent的甜点时刻
Carnice-9B另一个让人兴奋的点:本地部署门槛极低。
kai-os同步发布了GGUF量化版本,三个档位:
- Q4_K_M:5.3GB
- Q6_K:6.9GB
- Q8_0:8.9GB
也就是说,一张RTX 3060、一台M4 MacBook Air,甚至一些入门级显卡,都能在本地跑一个专门为Agent框架优化过的9B模型。
"fit onto consumer GPU's all the way down to 6gb (Q4_K_M), but recommended to run in ~12-16gb cards."
「最低适配6GB显存的消费级显卡(Q4_K_M),但建议12-16GB显卡运行效果更佳。」
X上的传播者@outsource_直接把这件事写成了"Breaking News"风格:
▲ @outsource_:本地AI Agent迎来巨大升级,RTX 3060/3070笔记本都在用
消息一出,评论区涌入了大量本地AI玩家。有人立刻下载测试,有人安排了"周日评测日程",有人甚至开始讨论在5美元VPS上跑Agent的可能性。
实战测试:有惊喜,也有坑
当然,真正的考验在于实战。
发布不到24小时,社区里已经有人开始做正经的对比评测了。@Bent302把Carnice-9B和另一款同样基于Qwen3.5-9B的Hermes微调模型Harmonic-Hermes-9B放在一起,同任务、同环境、逐项对比。

▲ @Bent302:Carnice-9B vs Harmonic-Hermes-9B,同任务同环境对比
他的结论很有意思:
"Tok/s isn't the story. Behavior is."
「速度不是重点,行为才是。」
这句话点出了Agent模型评价的核心逻辑——你不能只看每秒生成多少token,你要看它在多步任务中会不会乱调工具、会不会在错误后优雅恢复、会不会格式混乱导致框架解析失败。
评测涵盖了终端操作、网页浏览、子Agent委派、直接编码等多个维度。这种"按任务拆解的行为评测",比跑一个MMLU分数有价值得多。
同时,也有早期用户报告了Carnice-9B的"零失败工具调用"战绩:
"Currently experimenting with Carnice-9b-Q8_0.gguf. Have yet to see a failed tool call. Impressive so far."
「正在测试Carnice-9B的Q8量化版。到目前为止还没碰到一次工具调用失败。表现令人印象深刻。」

▲ @overcritical:测试Carnice-9B,至今没见过一次工具调用失败
但也有人踩了坑。@chillybrosriram在MacBook Air M4上用llama.cpp跑Hermes+Carnice-9B时发现了一个尴尬的问题:
Hermes的启动/工具提示词大约需要12700个token,直接把8K上下文撑爆。即使开到16K/32K,对于简单任务来说速度也非常慢。

▲ @chillybrosriram:Hermes的系统提示词约12.7K token,8K上下文直接失败
这暴露了一个被很多人忽略的问题:模型再好,如果Agent框架的系统提示词本身就占了12000多个token,那你的"有效上下文"就被大幅压缩了。这其实也是Hermes框架需要优化的方向——功能越丰富,"说明书"就越厚,本地小显存玩家的体验就越受限。
好消息是,Qwen3.5-9B原生支持262144个token的上下文窗口,理论上可以扩展到100万+。所以这更多是本地推理引擎配置的问题,而非模型能力的限制。
一个更大的趋势正在浮现
@llmgram在评论中给出了一个冷静但准确的定性:
"Carnice-9b fine-tunes Qwen3.5-9b for Hermes-Agent tasks, not a full rebuild—just targeted SFT for better agent responses. Evolution, not revolution."
「Carnice-9B是对Qwen3.5-9B的定向微调,不是重新构建架构。这是演进,不是革命。」
▲ @llmgram:定向SFT而非重建架构,这是演进,不是革命
没错。但正是这种"演进",可能代表了2026年AI发展最重要的转向之一。
模型训练的战场正在从"谁的通用能力更强",转向"谁在特定运行环境里更可靠"。
想想看:Hermes-Agent有自己的工具协议、消息格式、记忆系统、技能框架。Claude Code有自己的一套。AutoGPT有自己的一套。每个Agent框架都像一个独立的"操作系统"。
过去,我们让同一个"通用大脑"去适配所有操作系统。现在,有人开始给每个操作系统训练专属大脑。
Carnice-9B只是第一个明确打出这面旗帜的。kai-os已经预告了Carnice-27B,瞄准24GB显卡。
当"为框架定制模型"变成一个标准操作,当每个Agent生态都有自己的专用模型,我们今天所理解的"AI模型排行榜"可能会变得毫无意义——因为真正的竞争已经不在模型之间,而在生态之间。
而这一切,是从一个独立开发者的一条推文开始的。
— END —