Claude Mythos Preview发布:SWE-bench 93.9%但因太危险拒绝公测

Anthropic发布史上最强编程模型Claude Mythos Preview,同日智元GO-2具身大模型刷新行业SOTA,第三届中国具身智能大会在合肥开幕,阿里欢乐马视频模型登顶AI Video Arena。

Anthropic 发布 Claude Mythos Preview:代码能力达 93.9%,因太危险拒不公测

4月8日,Anthropic 发布 Claude Mythos Preview,SWE-bench Verified 得分 93.9%,较上代 Opus 4.6 提升 13 个百分点,同时在 SWE-bench Pro(+24.4%)、Multimodal(+31.9%)等维度全面领先。然而 Anthropic 宣布不对外公开测试,原因是该模型在内部安全评估中自主发现了数千个高危零日漏洞,并能独立构造完整攻击链——测试中 72.4% 的 Firefox 漏洞被转化为可用 exploit,还独立挖出潜伏 17-27 年的系统级漏洞。Anthropic 为此启动"玻璃翼计划",联合亚马逊、微软、苹果等先行扫描各自系统,并向开源安全组织捐赠 400 万美元。

为何值得关注:这是 AI 编程能力首次迈过"自主发现并利用零日漏洞"门槛,意味着攻防两用风险已从假设变为现实。一旦开放,任何组织都可能以极低成本发动高水平网络攻击。这也预示着顶级模型的发布策略将发生根本性转变——能力越强,公开门槛越高。


智元发布 GO-2 具身基座大模型:打通"知行合一"最后一公里

4月9日,智元机器人发布新一代具身基座大模型 Genie Operator-2(GO-2),首次在统一架构中打通从逻辑推理到精准动作执行的端到端链路,结合数万小时数据训练,在多个机器人基准测试中刷新行业 SOTA。同日,分析机构 TrendForce 预测,2026 年中国人形机器人产量同比增长 94%,下半年将进入全球商业化关键期。

为何值得关注:此前具身智能的核心瓶颈在于模型"想得到"但机器人"做不到",GO-2 试图以统一架构解决这一断层。配合产量预测翻倍的产业信号,具身智能从实验室走向工厂的时间线正在加速压缩。


第三届中国具身智能大会(CEAI 2026)合肥开幕

4月10日至12日,第三届中国具身智能大会在合肥举办,由中国人工智能学会主办、安徽大学承办。大会聚焦具身感知、决策与行动能力,覆盖机器人、智能制造、智能汽车等核心应用场景。

为何值得关注:CEAI 是国内具身智能领域规格最高的学术与产业交流平台,本届恰逢 GO-2 发布、人形机器人产能预期翻倍的节点,大会议题将集中体现当前学术界与产业界对"AI+身体"路线的最新共识与分歧,值得跟踪后续论文与演讲输出。


阿里淘天欢乐马 HappyHorse-1.0 登顶 AI Video Arena

阿里淘天发布视频生成模型 HappyHorse-1.0(欢乐马),在 AI Video Arena 排行榜超越 Seedance 2.0 登顶,支持多语言、音视频同步生成和多镜头处理,预计一周内对外发布。

为何值得关注:视频生成竞争格局正在从 OpenAI Sora 独大走向国产模型全面追赶。欢乐马登顶意味着阿里在视频生成基础能力上已达到国际顶尖水平,接下来的核心看点是商业化落地与内容生态的构建速度。


腾讯 QClaw V2 发布:多 Agent 协同开启"能干活"新阶段

4月9日,腾讯云发布 QClaw V2(版本 0.2.5),带来多 Agent 协同(最多3个 Agent 并行)、跨应用连接器、龙虎管家数据安全防护三大核心升级,标志着腾讯 AI Agent 产品从"能用"正式走向"好用"。

为何值得关注:QClaw 通过微信生态直连个人与企业工作流,多 Agent 协同能力的加入使其在复杂任务处理上更接近真正的 AI 助理形态。作为腾讯在 Agent 赛道的核心产品,V2 的升级节奏和能力演进方向值得持续跟踪。