当前位置：首页>排行榜>ARC-AGI-3 重置前沿 AI 排行榜

ARC-AGI-3 重置前沿 AI 排行榜

更新时间 2026-03-27 22:36:47

AI 行业最喜欢谈论的一个观点——我们正站在 AGI 门口——刚刚遇到了一项测试，而世界上最强的模型甚至连 1% 的得分都无法超过。ARC-AGI-3 是这一基准测试的更难版本，它已经成为检验 AGI 说法的“现实校验器”。而在这个版本中，表现最好的 Gemini Pro 也仅有 0.37% 的得分，前沿模型迎来了一个全新的挑战（很可能在大约六个月内再次被突破）。

今天的 AI 快讯包括：

ARC 的新 AGI 测试难倒所有前沿 AI
Reddit 对 AI 机器人展开打击但跳过身份验证
为 Slack 创建品牌反应 GIF
Google 在零精度损失下缩小 AI 内存
新 AI 工具

🧐 ARC 的新 AGI 测试难倒所有前沿 AI

图片来源：ARC Prize Foundation

François Chollet 的 ARC Prize Foundation 刚刚发布了 ARC-AGI-3，这是其交互式推理基准的最新版本。在该测试中，人类可以在第一次尝试时解决 100% 的任务，而 AI 模型却表现艰难，顶级系统甚至得分不到 1%。

实验室在早期版本测试上投入了数百万资金进行训练，在不到一年时间里，将 ARC-AGI-2 的得分从 3% 提升到约 50%。
智能体面对类似游戏的场景，没有任何指令，必须完全从零开始发现规则、设定目标并规划策略。
Google 的 Gemini Pro 在前沿模型中得分最高，仅为 0.37%，其次是 GPT 5.4 High（0.26%）、Opus 4.6（0.25%）和 Grok-4.20（0%）。
该挑战设有 100 万美元奖金，联合创始人 Mike Knoop 表示，前沿实验室对 V3 的关注远超以往版本。

看到顶级模型在新版本 ARC-AGI 测试中被“重置”到 1% 以下总是令人震惊，但如果过去的测试有参考意义，更令人惊讶的将是这些模型爬升速度之快。这究竟代表真正的推理能力，还是只是更昂贵的暴力计算，正是 Chollet 设计 V3 想要揭示的问题。

🤖 Reddit 对 AI 机器人展开打击但跳过身份验证

图片来源：Reddit

Reddit CEO Steve Huffman 概述了一项计划，用于在平台上区分人类与机器人，包括标记自动化账号、对可疑用户进行验证，以及允许子社区自行管理，而不进行大规模身份认证。

以合规方式运行自动化的账号将带有 [App] 标签，可疑行为将触发人类验证。
为了证明“人类身份”，Reddit 将提供 passkeys 或 Sam Altman 的 World ID 扫描器，政府身份证仅在法律要求时作为最后手段使用。
AI 生成内容不会被禁止，Huffman 称其“令人烦躁”，但表示社区可以自行制定规则。
竞争平台 Digg 最近因被机器人淹没而倒闭，Cloudflare 数据显示，到 2027 年自动流量将超过人类流量。

“死互联网理论”在最近六个月 AI 代理加速发展之前就已经存在。如今，这已成为每个社交平台必须面对的现实。虽然这些措施更像是权宜之计，但如果平台希望继续对人类有用，就必须认真构建以人为本的解决方案。

🤯 为 Slack 创建品牌反应 GIF

在本指南中，你将学习如何使用 Higgsfield（一个图像和视频生成工具）为公司 Slack 制作定制品牌反应 GIF。关键在于先生成起始画面，再进行动画处理。

步骤：

进入 Higgsfield 图像生成，确定 GIF 风格，并输入视觉风格和文字，例如：“ESPN 风格的反应 GIF，文字为 ‘SLOW DOWN’”
如果品牌不明显，在生成静态图时附上 logo 或品牌参考图
生成多个静态图，选出最佳，然后点击相机的 Animate 按钮，将其作为视频起始帧
设置视频长度为 3 秒，关闭音频，并输入提示：“Reaction GIF”，最后下载 MP4 并通过任意 MP4 转 GIF 网站转换

专业提示：如果生成了一批 MP4，可以让 Claude Code 在本地批量转换为 GIF，避免逐个转换

💾 Google 在零精度损失下压缩 AI 内存

图片来源：Google

Google Research 推出了 TurboQuant，一种无需重新训练即可将 AI 模型内存压缩超过 6 倍的算法，同时在 Nvidia H100 芯片上实现高达 8 倍的速度提升，并几乎没有精度损失。

AI 模型会记录每次对话，随着聊天变长，存储需求迅速膨胀，导致响应变慢、成本上升。
TurboQuant 将存储压缩超过 6 倍，同时在测试中保持完美表现，即使关键细节被埋在大量文本中。
在 Nvidia 顶级服务器芯片上，其处理速度也比标准方法快最多 8 倍，且无需增加额外成本。
该论文将于 2026 年 4 月在 ICLR 上发表，并在向量搜索领域优于竞争方法。

尽管该研究最初发表于 2025 年 4 月，但其正式发布已对 AI 内存公司造成冲击，相关股票下跌 3-5%。一篇论文不会立刻改变市场需求，但这一反应表明，华尔街正在定价一个“软件更聪明、硬件溢价下降”的未来。

🛠️ 热门 AI 工具

🎶 Lyria 3 Pro —— Google 升级版音乐模型，支持更长音轨生成
🌐 MolmoWeb —— Ai2 开源网页浏览代理
🎨 Uni-1 —— Luma 的统一模型，可同时进行推理和生成
⚙️ Composer 2 —— Cursor 强大且高性价比的编码模型

📰 其他 AI 新闻

Oracle Data Deep Dive NYC 将于 4 月 10 日举行：动手 AI 实验与专家交流。了解详情并免费注册。
OpenAI 正在再融资 100 亿美元，使其创纪录融资规模超过 1200 亿美元，参与方包括 Microsoft、a16z 和 T. Rowe Price。
Google 升级其音乐 AI 模型，可生成完整 3 分钟歌曲（包含前奏、主歌和副歌），Lyria 3 Pro 将在 Gemini、Vertex AI 和 Google Vids 中推出。
Bret Taylor 的 Sierra 推出 Ghostwriter，一种可以构建其他 AI 代理的 AI 代理，使公司能够在语音、聊天和 30 多种语言中创建客服机器人。
美国劳工部推出 “Make America AI-Ready”，一个通过短信提供的 7 天免费 AI 素养课程。

消息来源：Rundown AI

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

ARC-AGI-3 重置前沿 AI 排行榜

最新文章

热门文章

随机文章

ARC-AGI-3 重置前沿 AI 排行榜

二十世纪中文小说一百强之《尹县长》

全球大储Top20最新排名:特斯拉死守第一、阳光电源海外反超、比亚迪Q3逆袭登顶——谁才是真正的王者?

最新文章

热门文章

随机文章