当前位置：首页>排行榜>思科推出大语言模型安全排行榜:为 AI 安全带来透明度

思科推出大语言模型安全排行榜:为 AI 安全带来透明度

更新时间 2026-04-14 00:29:33

作者：Arjun Sambamoorthy, Amy Chang

发布时间：2026年3月23日

今日，思科正式发布大语言模型（LLM）安全排行榜，这是一份用于评估模型安全风险与对抗性攻击抵抗能力的综合性参考工具。该排行榜通过提供透明的对抗性评估指标，将模型性能表现与其应对恶意提示、越狱尝试及其他操纵手段的能力进行关联对比。依托思科 AI 安全与安全框架分类体系对各类威胁进行映射，该工具能够帮助企业清晰、客观地认知模型安全风险，并为 AI 部署的深度防御方案提供决策依据。随着新模型不断涌现、攻击手段持续演进，我们将持续扩大评估覆盖范围、优化评估方法，并在新模型发布后及时纳入榜单。我们真诚欢迎并期待各界提供反馈与互动，共同完善这一工具。

思科 LLM 安全排行榜提供以下核心价值：

基于单轮与多轮攻击场景下严格测试得出的客观安全排名
与思科 AI 安全框架对齐的详细威胁映射
透明的评估方法，让企业精准了解各项指标的测评维度

1. 为何安全表现至关重要

大语言模型的快速普及，催生了针对真实攻击开展标准化安全评估的迫切需求，而这一领域相较于工程、数学、科学领域的基准能力测评仍存在明显滞后。已部署或计划部署 AI 助手、聊天机器人及其他 AI 应用的企业，需要获取清晰、可落地的数据，了解模型如何应对对抗性操纵手段，从而有针对性地加固自身资产安全。

在安全性方面，并非所有 LLM 都处于同一水平。若在业务场景中选用安全能力不足的模型，可能引发有害内容生成、数据泄露乃至品牌声誉受损等一系列后果。若此类模型与智能体联动，破坏风险将呈指数级上升，而负面结果的可挽回性则会大幅降低。

2. 我们的方案有何独特之处

2.1 全面的攻击覆盖

我们的评估不止于简单的提示注入测试，而是同时针对单轮攻击与多轮攻击展开测评，这类攻击旨在诱导模型输出有害或恶意内容。每个模型的综合安全得分由两部分加权构成：单轮防御能力（50%）与多轮防御能力（50%），从而全面反映模型的安全态势。

2.2 公平、中立的测试

所有测试均在基础模型环境下进行，不附加任何额外防护措施或安全层。尽管生产环境部署通常会包含防护机制、内容过滤器及其他安全模块，但我们的评估聚焦于模型原生内置的安全能力。该方案为不同厂商或版本的模型提供了公平的基准对比，帮助企业在叠加额外防护前，先掌握模型的基础安全水平。

2.3 思科 AI 安全框架

我们将所有攻击数据对应至思科 AI 安全框架分类体系，该体系可帮助识别模型对特定攻击类型的易感性，以及薄弱环节的具体表现与存在位置。我们从三个维度进行层级化拆解：

攻击目标
顶层安全目标与攻击类别
攻击技术
攻击者用于攻陷模型的具体手段
细分技术
精细化的攻击变体与实现细节

2.4 高度透明

与封闭式专有评估不同，思科 LLM 安全排行榜公开可访问，支持企业在部署决策前对多款模型进行横向对比；可通过筛选与搜索定位关注的特定模型；深入查看模型在不同评估流程、内容类型与攻击手段下的表现；并在分类体系的各个层级了解模型的防御成功率。

3. 排行榜使用指南

平台主要包含三大模块：LLM 安全排名、思科 AI 安全与安全框架、评估方法。

3.1 排名页面

在此页面，访客可查看完整的模型安全排名，并快速定位表现最优与最差的模型。点击任意模型条目，即可展开其在多个攻击维度下的精细化性能指标。

图 1：主排名视图展示综合安全得分，并提供最优、最差及全部模型的快速筛选功能。搜索功能支持快速查找目标模型。

3.2 模型详细指标

该详细视图可帮助安全团队定位具体威胁模式，并结合自身业务场景做出审慎的风险评估。点击任意模型即可查看完整性能数据，包括：

单轮与多轮攻击的整体防御成功率与攻击得逞率
表现最佳与最差的防御流程
对不同内容类型防护能力的强弱项
细分技术威胁模式
多轮攻击策略的防御效果

图 2：模型展开视图呈现其在攻击流程、内容类型、细分技术及多轮策略维度的精细化表现 breakdown。每项指标均同时展示防御率与攻击成功率，实现完全透明。

4. 思科 AI 安全与安全框架页面

可浏览交互式层级结构，查看模型在该安全框架下的表现，分析几乎对所有模型均构成挑战的攻击技术，或特定模型的独有弱点。访客还可按模型筛选，查看其在整个框架体系中的表现，了解平均防御率与整体攻击覆盖情况。这些精细化洞察可支撑企业制定针对性的风险缓解策略。

图 3：交互式分类树将所有攻击数据映射至思科 AI 安全框架。每个节点均显示防御率、测试提示总数及拒绝 / 成功攻击次数。可按模型筛选，查看其在层级结构中的安全表现。

4.1 评估方法页面

透明度是建立信任的关键。我们的方法页面详细说明：

综合得分的计算方式
数据来源与评估标准
得分等级划分（优秀：85%–100%；良好：70%–84%；一般：50%–69%；较差：0%–49%）
术语表
质量保障流程

本排行榜所评估的所有模型均采用基础配置进行测试，未附加任何额外防护措施。但部分云服务提供商可能内置无法关闭的内容过滤或安全层，因此测试中观察到的模型行为，可能同时反映模型原生防御能力与测试时厂商层面的内置保护机制。

5. 数据揭示

首期排名显示，不同 LLM 的安全能力存在显著差异。部分模型防御率超过 85%，表现优异，可有效抵御直接攻击与对话式攻击；另一些模型则呈现出明显的威胁漏洞，尤其在多轮操纵攻击下 -- 攻击者先建立信任关系，再发起恶意请求 -- 弱点更为突出。

由于测试基于无额外防护的基础模型开展，企业可在统一基准下评估模型安全能力。在实际生产部署中，应结合本次评估洞察与具体业务需求，叠加更多层安全防护。

https://blogs.cisco.com/ai/llm-security-leaderboard

https://leaderboard.aidefense.cisco.com/

为智能体时代的员工队伍重新定义安全

作者：Jeetu Patel

发布时间：2026年3月23日

试想一下，明天一早你醒来，收到一则真正令人振奋的消息：公司已批准你招聘 1000 名专家级新同事。他们中有开发人员、营销人员、运维专家、数据分析师、产品经理 —— 个个业务能力出众，全天候待命，从不会倦怠，也从不会分心。

这是每一位企业管理者的梦想。那条你筹备两年却始终缺乏工程人力落地的产品线？如今有了实现的可能。那个你觊觎已久却无力配齐团队的新市场？现已触手可及。那些因所有人都疲于应对紧急事务而一再搁置的战略性项目积压工作？你可以着手推进了。

这是第一次，制约企业发展的不再是人员编制或预算，而是你的想象力。听起来棒极了，对吗？

然而，这里有一个巨大的隐患。所有这些全新的数字同事…… 你无法核查他们的背景履历，无法对他们做背调，却必须在入职第一天就赋予他们访问企业所有系统的权限。而真正需要你警惕的是：他们会严格按字面意思执行指令，分不清是非对错，即便出了问题，也无需承担任何后果。

你还会感到兴奋吗？

这个思想实验并非凭空虚构。当下，绝大多数企业在应用 AI 智能体时，正面临这样的处境。而这，也是我将在今天 RSA 大会主题演讲中探讨的核心困境。

1. 从 “应答” 走向 “行动”

不久以前，人工智能还只是聊天机器人 -- 这类工具能帮你撰写邮件、总结文档、解答问题。它们实用且惊艳，但本质上是被动的。即便聊天机器人给出错误答案，你也只会耸耸肩，继续做自己的事。

我们如今已然迈入一个全新的时代。AI 智能体不再仅仅是应答，它们会主动行动。它们能规划多步骤任务、调用外部工具、做出决策，还能自主执行业务流程。它们可以代你发送邮件、修改文件、执行数据库指令、下达订单、修改防火墙规则。

从 “信息交互” 到 “自主行动” 的转变，彻底颠覆了我们对风险的认知逻辑。

不妨这样理解：使用聊天机器人时，最坏的结果不过是得到一个错误答案；而使用智能体时，最坏的结果则是执行一次错误操作 -- 而有些操作，一旦执行便无法挽回。

如今已有成千上万的案例印证了这种转变带来的风险。我印象最深的一例，是一位投资者在代码冻结期运行了一个 AI 编程智能体。指令明确无误：“未经许可，不得修改任何内容。” 可该智能体依旧擅自执行了数据库指令，删除了线上生产环境数据库，还试图伪造数据掩盖痕迹，待造成的损失暴露后，又发出了道歉。

要知道，一句道歉，从来算不上安全防护措施。

2. 试点与落地之间的鸿沟

有一组数据足以说明一切。思科近期针对大型企业开展的调研显示，85% 的企业已在推进 AI 智能体试点项目，而仅有 5% 的企业将这些智能体正式投入生产环境使用。

这 80 个百分点的差距，并非源于企业对人工智能潜力的质疑，而是面对真实安全问题的理性应对。企业清楚智能体的能力，却尚未确定能否信任它们安全地执行任务。

缩小这一差距，正是思科当前的核心发力方向。在本周的 RSA 大会上，我们将从三大维度阐述解决方案：保护智能体免受外界攻击、防范智能体对系统造成危害，以及以智能体的运行速度完成安全威胁的检测与响应。

3. 保护智能体免受外界攻击，意味着确保智能体不会被恶意分子操控。

这远比听起来更为复杂。传统安全扫描工具是为测试静态软件设计的，无法模拟攻击者在任务执行过程中诱骗 AI 智能体无视指令的场景。提示注入攻击 —— 将恶意指令隐藏在智能体读取的内容中 —— 已然成为真实存在的攻击手段，且手段正日趋复杂。

思科 Talos 团队今日发布的《2025 年度安全回顾报告》显示，人工智能已被用于开发新型攻击工具包，React2Shell 漏洞从公开披露到成为 2025 年被利用最频繁的漏洞，仅用了短短几天。恶意工具的武器化速度正在急剧加快，我们不能再指望漏洞披露后还有充足的响应时间。

为帮助企业在智能体投入生产环境前完成安全测试，我们推出AI 防御探索版，这是一款自助式红队工具，开发人员与安全团队可利用它对自有智能体发起模拟攻击，率先发现安全漏洞。

我们还将发布智能体运行时 SDK，在开发阶段就将策略执行机制嵌入智能体工作流；同时推出大语言模型安全排行榜，为企业提供客观清晰的标准，评估不同 AI 模型抵御对抗性攻击的能力，远超当下主流 AI 评测中仅关注性能指标的局限。

去年 RSA 大会上，我们发布了全球首个开源基础 AI 安全模型，创下行业先河。此后，我们持续以开源模式推进研发，推出一系列工具，解答开发人员日常面临的安全问题：

技能扫描器--该智能体具备哪些能力，这些能力是否安全？
MCP 扫描器--我的MCP服务器是否存在恶意操作风险？
AI 物料清单--我的 AI 系统包含哪些组件 —— 模型、记忆模块、依赖项？
代码防护--我部署的 AI 生成代码是否引入了安全漏洞？
模型溯源--该模型来源何处，是否被篡改过？

今年，我们将开源DefenseClaw -- 一套集成上述所有工具的安全智能体框架，该框架还接入了英伟达 OpenShell 的接口。依托 DefenseClaw，开发人员能更快速地部署安全智能体：

每一项能力都会经过扫描与沙箱隔离
每一台 MCP 服务器都会排查恶意操作
每一项 AI 资产 -- 模型、记忆模块、能力模块 -- 都会自动完成盘点

最终实现零手动安全操作、零额外工具安装。安全是一场团队协作，这一点，没有人比思科理解得更深刻。

4. 防范智能体危害系统，本质是身份与访问管控问题。

当下，绝大多数企业无法清晰掌握环境中运行着哪些智能体、它们拥有哪些访问权限，以及出问题时该由谁负责。这是严重的治理漏洞，且绝非理论层面的隐患。

再次参考 Talos《2025 年度安全回顾报告》，研究显示，攻击者正将目标聚焦于身份验证与访问代理系统：登录流程、访问网关，以及企业信任授权核心的管理平台。近三分之一的多因素认证暴力喷洒攻击，专门针对身份与访问管理系统，这一比例较上年上升了 6 个百分点。

攻击者总会选择投入最小、破坏力最大的目标，而当下，身份安全正是这一薄弱环节。

好消息是，我们已有应对这一挑战的成熟思路。不妨参考新员工入职流程：核实身份、明确岗位职责、授予工作必需的最小权限，并由直属上级对其行为负责。智能体也需要同等规范管理。每一个智能体都应具备可验证的身份、明确的权限范围，以及对其行为负责的人类管理员。

本周，思科将通过 Duo 身份访问管理与安全接入平台的全新功能，将零信任架构延伸至智能体员工体系，让每一个智能体都获得限时、专属任务的权限，同时让安全团队实时监控环境中所有运行的智能体与工具，包括未经正式审批的违规部署。

5. 最后，我们必须以机器速度完成安全威胁的检测与事件响应。

智能体的运行速度远超人类监控能力。当攻击通过自动化智能体行为展开时，从 “异常出现” 到 “造成损失” 的窗口期可能仅有几秒。如果安全运营中心（SOC）仍以人类节奏运转，根本无法应对。攻击者已在利用智能体 AI 扩大攻击规模，自动化完成侦察、开发攻击工具包，单人或单一组织能在一次攻击行动中实现的破坏效果成倍提升。防御方也需要同等的技术优势。

我们通过 Splunk 的全新功能，助力安全运营中心从被动响应转向主动防御，其中包括：用于持续实时风险评分的暴露分析、简化检测规则构建与部署的检测工作台，以及支持分析师在分布式数据环境中跨源调查的联邦搜索 -- 无需先将所有数据归集至中心节点，这在智能体行为产生海量数据的背景下，是极具价值的优势。

我们还在安全运营中心内部署专用 AI 智能体，承担检测、分类与响应工作。目的并非取代安全分析师，而是处理重复性调查工作，让人类专注于需要经验与判断力的决策环节。

6. 安全，是发展的加速器

当下这个时代，最让我感到振奋的是：在科技发展的漫长历程中，安全一直扮演着重要却偏保守的角色 -- 识别潜在风险、放缓部署节奏、为降低风险增加流程摩擦。

而在智能体人工智能时代，这一格局彻底反转。安全不再是阻碍发展的理由，反而成为企业快速推进的底气。企业智能体试点与落地之间 80 个百分点的差距，并非技术差距，而是信任赤字。唯有为智能体时代的员工队伍重新定义安全，才能弥补这一赤字。

我们曾经历过类似的阶段：我们让互联网变得值得信赖，支撑起全球商业；我们攻克了云计算与移动安全的难题。相关工具与理念的成熟需要时间，但最终都得以实现。智能体时代是下一个前沿领域，唯有做好安全防护的企业，才能真正释放人工智能的核心价值。

让我们即刻行动。

https://blogs.cisco.com/news/reimagining-security-for-the-agentic-workforce

(完)

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

思科推出大语言模型安全排行榜:为 AI 安全带来透明度

作者：Arjun Sambamoorthy, Amy Chang

思科 LLM 安全排行榜提供以下核心价值：

1. 为何安全表现至关重要