六大权威榜单登顶,吞吐量提高9倍!英伟达开源全模态模型 Nemotron 3 Nano Omni
先看看核心性能
- 架构:30B-A3B混合专家架构(总300亿参数量,实际激活约30亿);
- 吞吐量提升:比同类开源全模态模型最高提升9.2倍;
- 排行榜表现:在六大权威榜单登顶。文档智能 (MMlongbench-Doc、OCRBenchV2)、WorldSense (视频理解)、DailyOmni (视频理解)、VoiceBench (语音理解)、MediaPerf(行业基准测试);
- 推理成本:在MediaPerf基准测试中实现最低的视频级标注成本。
- GPU支持:官方主要优化了 NVIDIA Ampere、Hopper、Blackwell 架构的企业级GPU。消费级的RTX 30/40/50系列同样支持,可运行4位或5位量化版本。
- 量化与内存要求:原始模型需大量显存,但经过4-bit量化后内存需求大幅降低。使用4位量化,运行大约需要 25 GB 的统一内存或显存。
- 其他注意事项:内存建议至少24GB,推荐 RTX 3090/4090 等高端大显存型号。部署建议搭配 32GB 系统内存。
细心的朋友应该会发现,这几个排行榜大多是“理解”类的排行榜。排行榜中的“理解”是一个综合性的概念,更接近于“感知+认知+推理”的集合。基于跨模态的全面感知去推理和回答复杂问题。那有什么用呢?适合作为智能体框架的主智能体主模型,扮演一个“通用感知调度器”,进行任务理解、中转、分配。