GLM 5.2 - 新“御三家”里,第一次出现中国模型!

国产开源大模型GLM-5.2在AI编程领域表现惊艳,作者通过三关实测验证其长程任务、代码理解和产品化能力,标志着中国模型首次跻身全球顶级行列。

  • GLM-5.2在权威评测Arena和Artificial Analysis中闯入前列,成为首个进入“御三家”的中国模型。
  • 作者通过三个高难度实测任务(包装SaaS产品、给开源视频编辑器加字幕、复活烂尾开源项目Toola)验证了GLM-5.2的1M长上下文、长程任务、代码理解和工程落地能力。
  • GLM-5.2展现出像接盘工程师一样的项目救活能力,从“能写页面”进阶到“能跑通真实产品流程”,标志着国产模型在核心编程领域具备实用价值。 源自 | 刘小排

这两天,AI 编程圈发生了一件挺有意思的事。一个国产、开源的大模型,突然被众多海外开发者拿到 Claude、OpenAI 旁边比较。 Arena、Artificial Analysis、海外 AI 开发者,都在自发讨论同一个名字: GLM-5.2。

在 Arena 的 WebDev / Coding 相关榜单上,它冲到了最前排。

图片

在权威的模型测评榜Artificial Analysis 上面,新的「御三家」里开始有了中国模型!

这是有史以来第一次!

图片

海外开发者讨论它,也不是因为它会聊天,而是因为它在 coding、frontend、long-horizon agentic work 上真的有东西。我第一反应是:真的假的?我花了两天时间来实测,只测难度高的真实任务。GLM-5.2 长程任务实测,这次 GLM-5.2 最有意思的地方,是**1M长上下文 + 长程任务。**我设计了3关来考它。

第一关:把开源项目做成完整SaaS产品,4小时

第一关,我选了 diffusionstudio/lottie。

任务很简单:

把一个 Lottie 相关的开源项目,包装成一个用户能用的小型网页产品。

流程大概是:用户上传 Lottie JSON — 页面实时预览动画 — 可以调背景色、尺寸、播放速度、循环、起止帧 — 最后能导出一个真实结果。

这一关测的是 GLM-5.2 的 WebDev 和产品化能力。

因为很多 AI 写前端,最喜欢干一件事:

做一个漂亮的 landing page:Hero 区、渐变背景、三张价格卡、一堆假 logo。

看起来很 SaaS。

但用户一上传文件就报错。

这不叫 SaaS。

这叫装修样板间。

真正的 SaaS MVP,至少要让用户完成一个任务,走完上传—预览—调整—导出。

这一关我主要看四件事:

它能不能读懂开源项目的 API。

能不能把库能力变成产品流程。

能不能处理坏 JSON、导出失败这些脏活。

能不能最后 build 通过。

我把任务指令完整告诉它,让它先读代码,确认开发计划再实施。

图片

大概十几分钟,它就能读完整个代码仓库,同时做好了开发规划,哪些模块可以直接复用,核心功能怎么实现。

图片
图片
还有一些待确认项需要你自己敲定后才能执行,这一点上GLM-5.2的执行边界是准确的,没有替我做决定。

图片

逐一确认细节后,就可以让它开始执行了。

一共耗时3小时38分,全程稳定发挥!!

图片

完成后进行测试,这是一个比较标准简洁的工作台。

图片

出错直接反馈,等它修复。这里有个小片花值得关注,虽然各方都在说GLM-5.2的长程任务能力不错,但这不代表它只能僵硬地处理长程任务。这次,它先判断了这只是个小bug,不需要多步处理,比我预期的要更灵活。

图片
图片
大致效果是这样的(视频):

这一关跑完,我的感觉是:GLM-5.2 不是只会画页面。它至少知道,产品不是页面,产品是流程。

第二关:给OpenReel加上自动字幕功能,半小时

OpenReel 是一个开源视频编辑器,技术栈比第一关复杂很多。它涉及视频、时间轴、字幕、预览、导出。我给 GLM-5.2 的任务是:基于 OpenReel 做一个“字幕工作台”。

用户导入视频—导入 SRT / VTT 字幕—编辑字幕文本和开始结束时间—调整字幕样式—在预览区看到效果—导出可验证的项目结果。

这关开始有点像真实工程了。因为它不是让 AI 从零写一个页面。而是让它进入一个已经存在的项目。先搞清楚别人家厨房在哪里、锅在哪里、盐在哪里、煤气阀在哪里。然后再做一道菜。 这件事难就难在:不能重写整个项目。不能绕开原来的架构。也不能做一堆假按钮。

所以我先让它只读项目,不准改代码。

图片

这一步很关键。

因为一个靠谱的工程师,不会一上来就开干。

一上来就开干的,通常最后都会把项目干碎。

可以得到这样一份非常详细的分析报告,包含现有能力盘点、可复用组件、实现方案、可行性、开发计划等等。

图片
图片
确认没有问题,我让它开始实现。

图片

字幕功能添加成功,没有动其他的代码。

图片

但手动添加字幕还是太麻烦了,我又增加了自动识别字幕功能。

图片

大概二十分钟左右,自动识别字幕就实现了。

图片

这一关,可以关注的是:GLM-5.2 能不能在真实项目里找到自己的位置。

第三关:复活一个老牌开源项目Toola,2.5小时

Demo 这种东西,太容易骗人。

做一个页面很快。

做一个能重新跑起来的烂尾产品,很难。

所以我在 GitHub 上找了一个项目,叫 Toola。

它的定位很有意思:开源版 Retool。Retool 是干嘛的?简单说,就是给公司内部搭后台工具的。比如一个电商公司,运营每天都要做这些事:

查订单、查用户、给用户补发优惠券、处理退款、看今天 GMV。这些东西不是给消费者用的。是给公司内部员工用的。

如果每个后台都让工程师从零写,太浪费时间。

Retool 解决的就是这个问题:拖一个表格、接一个数据库、放几个按钮、再加一张图表。一个内部订单管理后台,就搭出来了。

Toola 想做的,就是这个东西的开源版本。

它自己的定位写得很猛:开源 Retool 替代品。

图片

听起来很香。但问题是,它停在了 2021 年。很多开源项目都是这样。当年愿景很大。README 写得热血沸腾。然后几年过去。根本不维护了。这时候,AI 要做的不是“从零写一个更漂亮的 Retool”。那太容易变成幻觉。它要做的是像一个接盘工程师一样,把这个烂尾项目救回来。

我给 GLM-5.2 的任务是:把 Toola 救活到一个可发布 MVP。最低标准很明确:

第一,能安装依赖。

第二,能本地启动。

第三,能打开核心编辑器页面。

第四,能跑通一个内部工具流程。

第五,能 build 成功。

图片

这一关测的是 GLM-5.2 最硬的能力:

它能不能读懂一个多年没人维护的真实项目。

能不能判断原作者到底想做什么。

能不能修旧依赖、在外部服务不可用的时候做 mock 降级。

能不能保住核心产品流程。

能不能把“能打开”推进到“能演示、能构建、能发布”。

这些才是更真实的工作。

如果这一关能跑通,那 GLM-5.2 就不只是“会写代码”而已了。

它更像一个能接盘旧项目的 AI 同事。

第一步,产出分析报告,分析得基本到位。

图片
图片
第二步,执行救活计划。

GLM-5.2持续工作了 两个半小时多,我开了 Full access 模式,让它全程自己干,看看实际效果

图片
图片
模式电商后台管理,做了个订单管理。
图片
图片
功能上我没有做更多调整,但现在这个项目,从"装都装不上"变成"能装、能跑、能演示、能构建"。

全程是 GLM-5.2 自主执行,我只负责验收。

国产模型上主桌吃饭了!

测完之后,我最大的感受是:

GLM-5.2 的意义,不只是“国产模型又刷了一个榜”。

国产模型,终于上主桌吃饭了!