GLM 5.2 - 新“御三家”里，第一次出现中国模型！

GLM-5.2在权威评测Arena和Artificial Analysis中闯入前列，成为首个进入“御三家”的中国模型。
作者通过三个高难度实测任务（包装SaaS产品、给开源视频编辑器加字幕、复活烂尾开源项目Toola）验证了GLM-5.2的1M长上下文、长程任务、代码理解和工程落地能力。
GLM-5.2展现出像接盘工程师一样的项目救活能力，从“能写页面”进阶到“能跑通真实产品流程”，标志着国产模型在核心编程领域具备实用价值。源自 | 刘小排

这两天，AI 编程圈发生了一件挺有意思的事。一个国产、开源的大模型，突然被众多海外开发者拿到 Claude、OpenAI 旁边比较。 Arena、Artificial Analysis、海外 AI 开发者，都在自发讨论同一个名字： GLM-5.2。

在 Arena 的 WebDev / Coding 相关榜单上，它冲到了最前排。

在权威的模型测评榜Artificial Analysis 上面，新的「御三家」里开始有了中国模型！

这是有史以来第一次！

海外开发者讨论它，也不是因为它会聊天，而是因为它在 coding、frontend、long-horizon agentic work 上真的有东西。我第一反应是：真的假的？我花了两天时间来实测，只测难度高的真实任务。GLM-5.2 长程任务实测,这次 GLM-5.2 最有意思的地方，是**1M长上下文 + 长程任务。**我设计了3关来考它。

第一关：把开源项目做成完整SaaS产品，4小时

第一关，我选了 diffusionstudio/lottie。

任务很简单：

把一个 Lottie 相关的开源项目，包装成一个用户能用的小型网页产品。

流程大概是：用户上传 Lottie JSON — 页面实时预览动画 — 可以调背景色、尺寸、播放速度、循环、起止帧 — 最后能导出一个真实结果。

这一关测的是 GLM-5.2 的 WebDev 和产品化能力。

因为很多 AI 写前端，最喜欢干一件事：

做一个漂亮的 landing page：Hero 区、渐变背景、三张价格卡、一堆假 logo。

看起来很 SaaS。

但用户一上传文件就报错。

这不叫 SaaS。

这叫装修样板间。

真正的 SaaS MVP，至少要让用户完成一个任务，走完上传—预览—调整—导出。

这一关我主要看四件事：

它能不能读懂开源项目的 API。

能不能把库能力变成产品流程。

能不能处理坏 JSON、导出失败这些脏活。

能不能最后 build 通过。

我把任务指令完整告诉它，让它先读代码，确认开发计划再实施。

大概十几分钟，它就能读完整个代码仓库，同时做好了开发规划，哪些模块可以直接复用，核心功能怎么实现。

还有一些待确认项需要你自己敲定后才能执行，这一点上GLM-5.2的执行边界是准确的，没有替我做决定。

逐一确认细节后，就可以让它开始执行了。

一共耗时3小时38分，全程稳定发挥！！

完成后进行测试，这是一个比较标准简洁的工作台。

出错直接反馈，等它修复。这里有个小片花值得关注，虽然各方都在说GLM-5.2的长程任务能力不错，但这不代表它只能僵硬地处理长程任务。这次，它先判断了这只是个小bug，不需要多步处理，比我预期的要更灵活。

大致效果是这样的（视频）：

这一关跑完，我的感觉是：GLM-5.2 不是只会画页面。它至少知道，产品不是页面，产品是流程。

第二关：给OpenReel加上自动字幕功能，半小时

OpenReel 是一个开源视频编辑器，技术栈比第一关复杂很多。它涉及视频、时间轴、字幕、预览、导出。我给 GLM-5.2 的任务是：基于 OpenReel 做一个“字幕工作台”。

用户导入视频—导入 SRT / VTT 字幕—编辑字幕文本和开始结束时间—调整字幕样式—在预览区看到效果—导出可验证的项目结果。

这关开始有点像真实工程了。因为它不是让 AI 从零写一个页面。而是让它进入一个已经存在的项目。先搞清楚别人家厨房在哪里、锅在哪里、盐在哪里、煤气阀在哪里。然后再做一道菜。这件事难就难在：不能重写整个项目。不能绕开原来的架构。也不能做一堆假按钮。

所以我先让它只读项目，不准改代码。

这一步很关键。

因为一个靠谱的工程师，不会一上来就开干。

一上来就开干的，通常最后都会把项目干碎。

可以得到这样一份非常详细的分析报告，包含现有能力盘点、可复用组件、实现方案、可行性、开发计划等等。

确认没有问题，我让它开始实现。

字幕功能添加成功，没有动其他的代码。

但手动添加字幕还是太麻烦了，我又增加了自动识别字幕功能。

大概二十分钟左右，自动识别字幕就实现了。

这一关，可以关注的是：GLM-5.2 能不能在真实项目里找到自己的位置。

第三关：复活一个老牌开源项目Toola，2.5小时

Demo 这种东西，太容易骗人。

做一个页面很快。

做一个能重新跑起来的烂尾产品，很难。

所以我在 GitHub 上找了一个项目，叫 Toola。

它的定位很有意思：开源版 Retool。Retool 是干嘛的？简单说，就是给公司内部搭后台工具的。比如一个电商公司，运营每天都要做这些事：

查订单、查用户、给用户补发优惠券、处理退款、看今天 GMV。这些东西不是给消费者用的。是给公司内部员工用的。

如果每个后台都让工程师从零写，太浪费时间。

Retool 解决的就是这个问题：拖一个表格、接一个数据库、放几个按钮、再加一张图表。一个内部订单管理后台，就搭出来了。

Toola 想做的，就是这个东西的开源版本。

它自己的定位写得很猛：开源 Retool 替代品。

听起来很香。但问题是，它停在了 2021 年。很多开源项目都是这样。当年愿景很大。README 写得热血沸腾。然后几年过去。根本不维护了。这时候，AI 要做的不是“从零写一个更漂亮的 Retool”。那太容易变成幻觉。它要做的是像一个接盘工程师一样，把这个烂尾项目救回来。

我给 GLM-5.2 的任务是：把 Toola 救活到一个可发布 MVP。最低标准很明确：

第一，能安装依赖。

第二，能本地启动。

第三，能打开核心编辑器页面。

第四，能跑通一个内部工具流程。

第五，能 build 成功。

这一关测的是 GLM-5.2 最硬的能力：

它能不能读懂一个多年没人维护的真实项目。

能不能判断原作者到底想做什么。

能不能修旧依赖、在外部服务不可用的时候做 mock 降级。

能不能保住核心产品流程。

能不能把“能打开”推进到“能演示、能构建、能发布”。

这些才是更真实的工作。

如果这一关能跑通，那 GLM-5.2 就不只是“会写代码”而已了。

它更像一个能接盘旧项目的 AI 同事。

第一步，产出分析报告，分析得基本到位。

第二步，执行救活计划。

GLM-5.2持续工作了两个半小时多，我开了 Full access 模式，让它全程自己干，看看实际效果

模式电商后台管理，做了个订单管理。

功能上我没有做更多调整，但现在这个项目，从"装都装不上"变成"能装、能跑、能演示、能构建"。

全程是 GLM-5.2 自主执行，我只负责验收。

国产模型上主桌吃饭了！

测完之后，我最大的感受是：

GLM-5.2 的意义，不只是“国产模型又刷了一个榜”。

国产模型，终于上主桌吃饭了！