AI 大模型的战局正在加速演变。从 OpenAI 的 GPT-4o 到 Meta 的 Llama,从 Google 的 Gemini 到 xAI 的 Grok,海外厂商在多模态、开源生态、商业化落地等维度持续交锋。国内战场同样激烈,DeepSeek 以极低训练成本冲击高端市场,豆包、千问、Kimi 在不同赛道占据用户心智。本文梳理当前海内外主流 AI 模型与 Agent 的核心实力,并给出场景化选型建议。
一句话总结
海外:OpenAI 领跑,Meta(Llama)和 Google(Gemini)从开源和原生多模态两个方向夹击,微软 Copilot 占据最大商业化份额。
国内:DeepSeek 搅动价格战,呈现"群雄割据"格局,商业化从"比参数"转向"比落地"。
趋势判断
价格战还会继续— DeepSeek 证明了低成本路线可行,API 价格持续下探
端侧部署成为下一个竞争点 — Mino 和苹果的 Apple Intelligence 是风向标
AI Agent从概念走向落地 — Copilot 和 GPT Store 的生态扩张速度是关键
多模态从炫技变成标配 — 音频和视频生成即将改变内容创作行业
国际主流(海外)AI模型与Agent排行榜
ChatGPT(所属公司:OpenAI)热度评级:5/5核心简介:GPT-4o 是目前平衡性最好的多模态大模型,C端用户和B端开发者数量均居全球首位。2022年 ChatGPT 发布后迅速席卷全球,成为这波生成式AI浪潮的起点。目前 API 覆盖文本、图像、音频多个模态,GPT Store 也催生了大量第三方 Agent 应用。微软作为最大投资方,将 GPT 技术深度整合进 Azure 云服务、Office 办公套件和 Windows 操作系统,形成了从个人用户到企业市场的完整覆盖。OpenAI 持续迭代,GPT-5 的传闻也一直在路上。
Microsoft Copilot(所属公司:微软)热度评级:5/5核心简介:打工人和企业用户离不开的 Agent。底层调用 OpenAI 最新 GPT 技术,无缝集成到 Windows、Edge 浏览器和 Office 全家桶。商业化最成功,装机覆盖率最高。企业版 Copilot 已进入大量 500 强公司的日常工作流,个人版 Copilot 则通过 Windows 11 系统级入口触达海量用户。微软的策略很明确:用 OpenAI 的技术底座,配上自己的产品和云生态,形成"技术+场景"的闭环。
Llama(所属公司:Meta)热度评级:5/5核心简介:开源大模型的代表。Llama 3 和 3.1 系列坚持开源,推动了全球大模型创业浪潮。2024年 Llama 3.1 405B 参数版本开源后,打破了"开源落后闭源"的固有认知,许多中小企业和独立开发者第一次用上了能对标 GPT-4 的模型。Meta 的开源策略本质上是生态卡位——开发者基于 Llama 做应用,最终还是会用到 Meta 的广告和数据业务上。
Claude(所属公司:Anthropic)热度评级:4.5/5核心简介:极客和创作者用得比较多。由 OpenAI 前核心团队创立,主打 RLHF(人类反馈强化学习)和 Constitutional AI 安全对齐路线。Claude 3.5 Sonnet 的代码能力较强,长文本连贯性和语气也较接近真人表达。产品设计上不做生成式搜索,不搞聊天机器人社交,专注在"生产力工具"这个赛道。Anthropic 融资金额已超 70 亿美元,背后是 Google 和亚马逊。
Gemini(所属公司:Google)热度评级:4.5/5核心简介:谷歌憋了很久的大招。Gemini 是原生多模态模型,从设计阶段就将文本、图片、音频、视频作为一个整体来训练,而不是拼凑多个单模态模型。配合 Android 系统和 Google Workspace,可以跨设备处理信息。Bard 聊天机器人后来也切换为 Gemini 品牌。Google 在 AI 领域的挑战是"起大早赶晚集"——技术储备很强,但产品化速度一直被吐槽慢半拍。
Perplexity(所属公司:Perplexity AI)热度评级:4.5/5核心简介:全球较火的 AI 搜索引擎。与传统大模型不同,它直接给出带信息来源的答案,正在侵蚀传统搜索引擎市场份额。它的核心场景是"快速找资料并溯源",比传统搜索少了广告和 SEO 干扰,比直接问大模型多了实时性和准确性。2024 年融资后估值已超 50 亿美元,马斯克、英伟达、亚马逊都是其投资方。
Grok(所属公司:xAI)热度评级:4/5核心简介:马斯克旗下产品,2023 年成立后速度很快。深度集成于 X 社交平台(原 Twitter),可以实时访问平台数据,弥补了其他大模型"信息滞后"的痛点。模型风格大胆幽默,对敏感话题限制较少,和主流大厂的安全对齐路线形成差异。Grok-2 在 MMLU 等基准测试上表现靠前,马斯克一直强调它的"TruthSeeker"定位。
Mistral(所属公司:Mistral AI)热度评级:4/5核心简介:欧洲 AI 初创公司代表,成立于 2023 年法国巴黎。主攻高效开源的小参数模型,用混合专家架构(MoE)降低成本,性能接近巨头主力模型。Mistral 7B 和 Mixtral 8x7B 在开发者社区口碑不错,发布时多次登顶 Hugging Face 热门榜。欧洲市场对数据合规要求高,Mistral 相对更容易获得企业客户信任。
Nvidia(所属公司:英伟达)热度评级:3.5/5核心简介:英伟达不只卖硬件,也做 AI 生态。推出了 Nemotron 等开源模型以及医疗、气候等垂直大模型。目的是展示自家算力平台在 AI 开发上的能力,顺便让企业客户意识到"买卡只是第一步,后面还得用英伟达的整套工具链"。这个定位和微软 Azure、AWS 的 AI 业务逻辑类似——卖完基础设施再卖上层服务。
国内主流 AI模型与Agent排行榜
DeepSeek(所属公司:深度求索)热度评级:5/5核心简介:2024 年横空出世的黑马。技术圈关注度很高,价格便宜是最大杀招。底层架构有创新,用很低训练成本达到了接近顶级闭源模型的效果。DeepSeek-V3 和 R1 系列发布后,在海内外的技术社区引发轰动,API 价格只有 GPT-4 的几十分之一。它直接搅动了大模型市场的定价逻辑,逼着 OpenAI、Anthropic 不得不跟着降价。
豆包 Doubao(所属公司:字节跳动)热度评级:5/5核心简介:字节跳动出品,国内各榜单 C 端日活排名前列。背靠抖音和字节系流量,产品易用,API 价格全网最低。字节做 AI 的思路和做抖音一样——先靠流量入口抢用户,再靠数据飞轮优化模型。豆包网页端和移动端的体验做得比较扎实,没有太多花哨功能,但该有的都有。
千问 Qwen(所属公司:阿里)热度评级:5/5核心简介:阿里云自研,国内开源大模型第一名。通义千问系列在各大国际开源和闭源评测中排名靠前,Qwen2.5-72B 等版本在 Hugging Face 和 GitHub 上星标数量很高。国内多数平台和本地研发团队用它的开源版本做研发底座。阿里对千问的定位是"MaaS(模型即服务)"的核心,绑定了大量云服务客户。
Kimi(所属公司:月之暗面)热度评级:4.5/5核心简介:月之暗面(Moonshot AI)成立于 2023 年,创始人杨植麟曾参与清华大模型研究。国内最早做长文本处理的产品,能快速阅读数百万字的长文档、书籍和财报,"200 万字上下文"是它的标志性能力。Kimi 早期靠"长文本"这个差异化点迅速破圈,在科研工作者、学生和自媒体创作者群体中渗透率较高。2024 年月之暗面估值已超 30 亿美元。
文心一言 ERNIE(所属公司:百度)热度评级:4.5/5核心简介:百度 2019 年就发布了 Ernie 大模型,是国内最早起步的大厂。但 ChatGPT 之后各家跟进,文心一言反而失去了先发优势。依托百度的搜索积累,文心大模型在政务和国企等 B 端定制领域项目较多。百度 All in AI 的战略执行了很多年,但商业化始终是痛点——搜索市场份额被字节侵蚀,云业务又被阿里华为压着。
智谱清言 GLM(所属公司:智谱AI)热度评级:4/5核心简介:清华系技术转化公司,国内最早全面对标 OpenAI 的公司。GLM-4 在对话、画图、代码解析、视频生成等能力上都有布局,分布比较均衡,没有特别明显的短板。智谱的客户以 B 端为主,政府和金融领域项目较多。和月之暗面偏 C 端不同,智谱的路子更"稳",但声量也相对小一些。
元宝 Hunyuan(所属公司:腾讯)热度评级:4/5核心简介:基于腾讯算力的混元大模型,2023 年发布。优势是接入了微信生态,能深度解析微信公众号内容,和腾讯系产品联通方便。办公协同上有后发优势——毕竟微信和 QQ 的关系链、企业微信的 B 端积累,都是现成的护城河。腾讯的策略是不争"第一个",而是等市场验证后快速跟进,元宝在内部被视为"腾讯 AI 能力的集中体现"。
讯飞星火 Spark(所属公司:科大讯飞)热度评级:4/5核心简介:科大讯飞是国内 AI 语音和智能教育领域的老牌公司,星火大模型与讯飞自有硬件绑定是其最大特点。AI 学习机、录音笔、智能会议平板等设备中都有星火的落地。这种"软硬一体"的路线让讯飞在教育、办公等垂直场景有稳定的收入来源,但也局限了它的扩张边界——很难跳出硬件生态独立生长。
百川智能 Baichuan(所属公司:百川智能)热度评级:3.5/5核心简介:前搜狗 CEO 王小川 2023 年创立,融资金额已超 20 亿人民币。参数迭代和发布速度快,主打"做中国最好的基础大模型"。百川在中文语境对齐上投入较多,泛医疗和大健康知识问答表现不错。搜狗的搜索技术积累某种程度上被百川继承了——王小川做过搜狗搜索,所以百川在"搜索+大模型"这个结合点上是有想法的。
零一万物 Yi(所属公司:零一万物)热度评级:3.5/5核心简介:李开复创立,2023 年成立。Yi 系列在国际开源社区较活跃,用较低的预训练参数跑出了较高分数,在开发者榜单上有一席之地。零一万物的定位是"面向全球的开源大模型公司",不只做中国市场。Yi-34B 在 Hugging Face 上的表现曾短暂登顶过中文开源模型榜首。
MiniMax(所属公司:稀宇科技)热度评级:3.5/5核心简介:情感陪伴类智能体的代表,成立于 2021 年。自研全双工语音生成较逼真,长时间角色扮演理解能力较强。星野和海螺两款产品在年轻人群体中比较受欢迎——星野是 AI 社交应用,海螺是 AI 语音助手,定位都是"陪伴"。MiniMax 的商业化路径比较特别,不是卖 API,而是靠 C 端订阅和产品内购。
Mino / 小爱同学(所属公司:小米)热度评级:3.5/5核心简介:端侧 AI 落地做得比较靠前。MiLM 小参数模型接入手机、汽车和家庭互联生态等系统底层,承担场景调度和用户辅助的角色。小米的思路是把 AI 做成"系统级能力"而不是独立产品——小爱同学不是主角,而是串联手机、汽车、家电的中枢。硬件生态越丰富,端侧 AI 的价值越大。
什么场景适合用什么AI
日常问答与知识查询
ChatGPT— 综合能力最强,日常问题、百科知识、写作润色都能胜任
Claude— 更适合需要严谨逻辑和长文本分析的场景,代码也没问题
豆包— 国内用户入门门槛最低,抖音账号直接登录
Perplexity— 需要查资料并验证来源时首选,比传统搜索引擎更精准
办公与生产力
Microsoft Copilot— Windows 用户首选,与 Office 全家桶深度集成
文心一言— 国企和政务场景,甲方有要求时用
元宝— 办公协同场景,特别是需要处理微信公众号内容时
智谱 GLM— 政府和金融领域的 B 端项目
代码开发
Claude— 代码能力公认最强,长文本处理代码库也很在行
ChatGPT— 生态最完善,GPT Store 有大量代码类 Agent
DeepSeek— 价格便宜,API 接入成本低,技术社区评价高
内容创作与文案
ChatGPT— 写作多样性最好,各种文体都能驾驭
Kimi— 长文创作和总结,适合书籍、报告类内容
豆包— 国内内容创作者用,短视频文案、社交媒体内容表现不错
Gemini— 多模态创作,图片+文字的组合内容
专业研究与长文档
Kimi— 数百万字长文档处理,财报、书籍、论文阅读
Claude— 长文本连贯性强,适合深度分析类内容
DeepSeek— 技术研究场景,API 便宜适合大量调用
AI搜索
Perplexity— 替代传统搜索引擎,做研究、写报告前的资料收集
ChatGPT— GPT-4o 的实时搜索功能也在追赶
开源与本地部署
Llama— 国际开源首选,405B 版本性能接近 GPT-4
千问 Qwen— 国内开源第一,Hugging Face 星标数量最高
Mistral— 欧洲合规首选,小参数高效模型
语音与陪伴
MiniMax(海螺)— 语音交互最逼真,陪伴类场景体验最好
讯飞星火— 语音硬件结合,学习机、录音笔等设备端体验
小爱同学— 米家生态用户,手机+汽车+家电联动
情感陪伴与社交
MiniMax(星野)— 年轻人群和 Z 世代,AI 社交和角色扮演
ChatGPT— GPTs 有大量情感类 Agent 可选
企业级与B端应用
Microsoft Copilot— 企业用户最多,Azure 集成完善
千问 Qwen— 阿里云客户,MaaS 接入方便
智谱 GLM— 政府和金融客户,定制化能力强
Gemini— Google Workspace 企业用户
数据更新时间:2026年3月。热度评级基于公开市场数据和技术影响力综合评估,仅供参考。