当前位置:首页>排行榜>ARC-AGI-3 重置前沿 AI 排行榜

ARC-AGI-3 重置前沿 AI 排行榜

  • 更新时间 2026-03-27 22:36:47
ARC-AGI-3 重置前沿 AI 排行榜

AI 行业最喜欢谈论的一个观点——我们正站在 AGI 门口——刚刚遇到了一项测试,而世界上最强的模型甚至连 1% 的得分都无法超过。ARC-AGI-3 是这一基准测试的更难版本,它已经成为检验 AGI 说法的“现实校验器”。而在这个版本中,表现最好的 Gemini Pro 也仅有 0.37% 的得分,前沿模型迎来了一个全新的挑战(很可能在大约六个月内再次被突破)。

今天的 AI 快讯包括:

  • ARC 的新 AGI 测试难倒所有前沿 AI

  • Reddit 对 AI 机器人展开打击但跳过身份验证

  • 为 Slack 创建品牌反应 GIF

  • Google 在零精度损失下缩小 AI 内存

  • 新 AI 工具



🧐 ARC 的新 AGI 测试难倒所有前沿 AI

图片来源:ARC Prize Foundation

François Chollet 的 ARC Prize Foundation 刚刚发布了 ARC-AGI-3,这是其交互式推理基准的最新版本。在该测试中,人类可以在第一次尝试时解决 100% 的任务,而 AI 模型却表现艰难,顶级系统甚至得分不到 1%。

  • 实验室在早期版本测试上投入了数百万资金进行训练,在不到一年时间里,将 ARC-AGI-2 的得分从 3% 提升到约 50%。

  • 智能体面对类似游戏的场景,没有任何指令,必须完全从零开始发现规则、设定目标并规划策略。

  • Google 的 Gemini Pro 在前沿模型中得分最高,仅为 0.37%,其次是 GPT 5.4 High(0.26%)、Opus 4.6(0.25%)和 Grok-4.20(0%)。

  • 该挑战设有 100 万美元奖金,联合创始人 Mike Knoop 表示,前沿实验室对 V3 的关注远超以往版本。

看到顶级模型在新版本 ARC-AGI 测试中被“重置”到 1% 以下总是令人震惊,但如果过去的测试有参考意义,更令人惊讶的将是这些模型爬升速度之快。这究竟代表真正的推理能力,还是只是更昂贵的暴力计算,正是 Chollet 设计 V3 想要揭示的问题。


🤖 Reddit 对 AI 机器人展开打击但跳过身份验证

图片来源:Reddit

Reddit CEO Steve Huffman 概述了一项计划,用于在平台上区分人类与机器人,包括标记自动化账号、对可疑用户进行验证,以及允许子社区自行管理,而不进行大规模身份认证。

  • 以合规方式运行自动化的账号将带有 [App] 标签,可疑行为将触发人类验证。

  • 为了证明“人类身份”,Reddit 将提供 passkeys 或 Sam Altman 的 World ID 扫描器,政府身份证仅在法律要求时作为最后手段使用。

  • AI 生成内容不会被禁止,Huffman 称其“令人烦躁”,但表示社区可以自行制定规则。

  • 竞争平台 Digg 最近因被机器人淹没而倒闭,Cloudflare 数据显示,到 2027 年自动流量将超过人类流量。

“死互联网理论”在最近六个月 AI 代理加速发展之前就已经存在。如今,这已成为每个社交平台必须面对的现实。虽然这些措施更像是权宜之计,但如果平台希望继续对人类有用,就必须认真构建以人为本的解决方案。


🤯 为 Slack 创建品牌反应 GIF

在本指南中,你将学习如何使用 Higgsfield(一个图像和视频生成工具)为公司 Slack 制作定制品牌反应 GIF。关键在于先生成起始画面,再进行动画处理。

步骤:

  • 进入 Higgsfield 图像生成,确定 GIF 风格,并输入视觉风格和文字,例如:“ESPN 风格的反应 GIF,文字为 ‘SLOW DOWN’”

  • 如果品牌不明显,在生成静态图时附上 logo 或品牌参考图

  • 生成多个静态图,选出最佳,然后点击相机的 Animate 按钮,将其作为视频起始帧

  • 设置视频长度为 3 秒,关闭音频,并输入提示:“Reaction GIF”,最后下载 MP4 并通过任意 MP4 转 GIF 网站转换

专业提示:如果生成了一批 MP4,可以让 Claude Code 在本地批量转换为 GIF,避免逐个转换


💾 Google 在零精度损失下压缩 AI 内存

图片来源:Google

Google Research 推出了 TurboQuant,一种无需重新训练即可将 AI 模型内存压缩超过 6 倍的算法,同时在 Nvidia H100 芯片上实现高达 8 倍的速度提升,并几乎没有精度损失。

  • AI 模型会记录每次对话,随着聊天变长,存储需求迅速膨胀,导致响应变慢、成本上升。

  • TurboQuant 将存储压缩超过 6 倍,同时在测试中保持完美表现,即使关键细节被埋在大量文本中。

  • 在 Nvidia 顶级服务器芯片上,其处理速度也比标准方法快最多 8 倍,且无需增加额外成本。

  • 该论文将于 2026 年 4 月在 ICLR 上发表,并在向量搜索领域优于竞争方法。

尽管该研究最初发表于 2025 年 4 月,但其正式发布已对 AI 内存公司造成冲击,相关股票下跌 3-5%。一篇论文不会立刻改变市场需求,但这一反应表明,华尔街正在定价一个“软件更聪明、硬件溢价下降”的未来。


🛠️ 热门 AI 工具

  • 🎶 Lyria 3 Pro —— Google 升级版音乐模型,支持更长音轨生成

  • 🌐 MolmoWeb —— Ai2 开源网页浏览代理

  • 🎨 Uni-1 —— Luma 的统一模型,可同时进行推理和生成

  • ⚙️ Composer 2 —— Cursor 强大且高性价比的编码模型

📰 其他 AI 新闻

  • Oracle Data Deep Dive NYC 将于 4 月 10 日举行:动手 AI 实验与专家交流。了解详情并免费注册。

  • OpenAI 正在再融资 100 亿美元,使其创纪录融资规模超过 1200 亿美元,参与方包括 Microsoft、a16z 和 T. Rowe Price。

  • Google 升级其音乐 AI 模型,可生成完整 3 分钟歌曲(包含前奏、主歌和副歌),Lyria 3 Pro 将在 Gemini、Vertex AI 和 Google Vids 中推出。

  • Bret Taylor 的 Sierra 推出 Ghostwriter,一种可以构建其他 AI 代理的 AI 代理,使公司能够在语音、聊天和 30 多种语言中创建客服机器人。

  • 美国劳工部推出 “Make America AI-Ready”,一个通过短信提供的 7 天免费 AI 素养课程。 

消息来源:Rundown AI

最新文章

随机文章