Claude Mythos Preview发布：SWE-bench 93.9%但因太危险拒绝公测

Anthropic 发布 Claude Mythos Preview：代码能力达 93.9%，因太危险拒不公测

4月8日，Anthropic 发布 Claude Mythos Preview，SWE-bench Verified 得分 93.9%，较上代 Opus 4.6 提升 13 个百分点，同时在 SWE-bench Pro（+24.4%）、Multimodal（+31.9%）等维度全面领先。然而 Anthropic 宣布不对外公开测试，原因是该模型在内部安全评估中自主发现了数千个高危零日漏洞，并能独立构造完整攻击链——测试中 72.4% 的 Firefox 漏洞被转化为可用 exploit，还独立挖出潜伏 17-27 年的系统级漏洞。Anthropic 为此启动"玻璃翼计划"，联合亚马逊、微软、苹果等先行扫描各自系统，并向开源安全组织捐赠 400 万美元。

为何值得关注：这是 AI 编程能力首次迈过"自主发现并利用零日漏洞"门槛，意味着攻防两用风险已从假设变为现实。一旦开放，任何组织都可能以极低成本发动高水平网络攻击。这也预示着顶级模型的发布策略将发生根本性转变——能力越强，公开门槛越高。

智元发布 GO-2 具身基座大模型：打通"知行合一"最后一公里

4月9日，智元机器人发布新一代具身基座大模型 Genie Operator-2（GO-2），首次在统一架构中打通从逻辑推理到精准动作执行的端到端链路，结合数万小时数据训练，在多个机器人基准测试中刷新行业 SOTA。同日，分析机构 TrendForce 预测，2026 年中国人形机器人产量同比增长 94%，下半年将进入全球商业化关键期。

为何值得关注：此前具身智能的核心瓶颈在于模型"想得到"但机器人"做不到"，GO-2 试图以统一架构解决这一断层。配合产量预测翻倍的产业信号，具身智能从实验室走向工厂的时间线正在加速压缩。

第三届中国具身智能大会（CEAI 2026）合肥开幕

4月10日至12日，第三届中国具身智能大会在合肥举办，由中国人工智能学会主办、安徽大学承办。大会聚焦具身感知、决策与行动能力，覆盖机器人、智能制造、智能汽车等核心应用场景。

为何值得关注：CEAI 是国内具身智能领域规格最高的学术与产业交流平台，本届恰逢 GO-2 发布、人形机器人产能预期翻倍的节点，大会议题将集中体现当前学术界与产业界对"AI+身体"路线的最新共识与分歧，值得跟踪后续论文与演讲输出。

阿里淘天欢乐马 HappyHorse-1.0 登顶 AI Video Arena

阿里淘天发布视频生成模型 HappyHorse-1.0（欢乐马），在 AI Video Arena 排行榜超越 Seedance 2.0 登顶，支持多语言、音视频同步生成和多镜头处理，预计一周内对外发布。

为何值得关注：视频生成竞争格局正在从 OpenAI Sora 独大走向国产模型全面追赶。欢乐马登顶意味着阿里在视频生成基础能力上已达到国际顶尖水平，接下来的核心看点是商业化落地与内容生态的构建速度。

腾讯 QClaw V2 发布：多 Agent 协同开启"能干活"新阶段

4月9日，腾讯云发布 QClaw V2（版本 0.2.5），带来多 Agent 协同（最多3个 Agent 并行）、跨应用连接器、龙虎管家数据安全防护三大核心升级，标志着腾讯 AI Agent 产品从"能用"正式走向"好用"。

为何值得关注：QClaw 通过微信生态直连个人与企业工作流，多 Agent 协同能力的加入使其在复杂任务处理上更接近真正的 AI 助理形态。作为腾讯在 Agent 赛道的核心产品，V2 的升级节奏和能力演进方向值得持续跟踪。