国产模型 on AI

GLM5.2、Kimi2.7、DeepSeek V4、MiniMax M3最佳搭配清单，你可以直接抄

Thu, 18 Jun 2026 00:00:00 +0000

按人群分推荐：不写代码的用DeepSeek V4 Pro，处理多模态资料用MiniMax M3；写代码的用GLM5.2主力，Kimi K2.7 Code替补，高并发任务用DeepSeek V4 Flash和MiniMax M3 API。
各模型特点：DeepSeek便宜适合批量任务；Kimi稳定但能力稍弱；MiniMax M3原生多模态强且永久半价；GLM 5.2编程能力最强但难购买。
信任问题：国产模型能力提升，但用户信任仍需积累，需要更多时间和场景来证明。源自 | 丸美小沐

最近，Kimi 2.7 Code 和 GLM 5.2 接连发布，一周双发，国产模型又崛起了。

加上DeepSeek V4 和 MiniMax M3，国产阵营一口气凑齐了4个能用的选择。

大模型进化到现在这个阶段，早就不是看榜单的东西了。榜单的综合排名当然有参考价值，但是对于日常使用来说，远远不够。

作为AI博主，我用AI的场景可太多了，上午要写稿子，中午要拆产品需求，下午要写代码，晚上还想把一堆资料丢进去做个判断。

我自己的体感，模型之间的差异特别具体，有的模型特别会写、有的模型推理很猛、有的模型开发项目很顺手。

当然我也有来回切换模型的苦恼。

就像桌面上摆了一排工具，螺丝刀、剪刀、美工刀、电钻，各有各的长板和短板。

GLM5.2、Kimi2.7、DeepSeek V4、MiniMax M3，这几个我会按我自己的使用场景来聊，什么任务我会优先用谁，什么场景我踩过坑，什么组合现在看起来最省心。

不保证绝对正确，至少是我真的会这么用的一套组合。

我先用最简单粗暴的方式——按人群分。

如果你不写代码**：**

包括写文章、改稿、做方案、写脚本、写周报、整理访谈、提炼观点、做选题、写营销文案的人。

推荐DeepSeek V4 Pro，直接用免费的网页版即可，而且做文案非常适合。

但如果你还要处理多模态的资料，像做产品、运营、咨询、市场、教育、投研、销售支持、行政、人事的人。

你的资料经常混着截图、PDF、扫描件、表格、音视频、会议记录。

优先考虑用MiniMax M3。

买他家的token plan、再下个桌面端的minimax Agent就很方便。（或者Trae、Workbuddy都可以）

推荐理由是它原生多模态强，1M 长上下文，对资料很杂的人特别友好。

如果你写代码 ：

包括程序员、独立开发者、产品技术负责人、会用Cursor / Claude Code / Trae / Workbuddy / Codex类工具的人。

昨天刚上新的GLM5.2就不错，如果能买到GLM 5.2的token plan，就用GLM 5.2主力coding。实在买不到就用Kimi K2.7 Code，它速度更稳定、服务不怎么挂，适合当编程的替补选手。

要是做自动化流程、批量内容生产、批量分类、信息抽取、格式转换这种高并发任务，就外接DeepSeek V4 Flash和MiniMax M3的API来处理，它们价格更合适。（这种任务不能用token plan，并发根本不够的）

以上是文字版总结，下面一张图概括。

价格从低到高：DeepSeek → MiniMax M3 → Kimi K2.7 → GLM 5.2。

体感上，几家有coding plan的花费是固定的，我都是中档的套餐，400多块钱一个月，用于三五个小项目的日常维护、更新，完全够用。

外部调用deepseek也很便宜，处理500份长文档大约花费一块钱，M3稍微贵一点点，一块钱处理大约200份大文件，根据用量的不同会有波动。

◈每个模型具体怎么样

◽DeepSeek：开源、便宜、脑子活。

DeepSeek 是那种你天然想站它的模型，很多人说它有时候像 Grok，会给你一些意料之外的灵光一闪。

这个确实，它能给我一些新思路。

不过，我日常用DeepSeek跑批量任务比较多，尤其是大量文本处理、数据清洗、格式转换——这些活它干得又快又省钱。

但我又不太敢把长任务交给它。

因为短任务里虽然是好搭子，但到了长任务里它会不会又变成演员？我还没攒够信心去验证。

不过在便宜耐用这件事上，DeepSeek已经是国产模型里最让人放心的选择了。

◽Kimi K2.7 Code：相对稳定一些。

我对Kimi 的Coding plan体感不错，没有限购、没有变化规则那么多幺蛾子。不过从近期的社区反馈体感上，它的模型能力上相比GLM 5.2应该差一些。

我之前的OpenClaw小瑶机器人接的是Kimi 2.6，不过那时候它模型能力还不太足，有点笨，不太会用工具，执行力一般，有幻觉，胜在价格和稳定性。

2.7 Code出来之后，情况改观了一些。

我现在把它接在Claude Code里面当编程替补，特别稳定，别家崩的时候可以拿来稳稳补位，但也仅限于此，再更复杂的长任务我对它还是很谨慎的。

社区的风评也贬褒不一，有不少人说它是小号Gemini。。

◽MiniMax M3：被低估的多面手。

MiniMax M3是这四个里面最让我意外的。

虽然风评相对没那么好，但它的原生多模态能力真的不错——图、PDF、视频都能处理，而且有 1M 的长上下文，用起来很方便。

而且，永久半价后价格也划算。

比如那种复杂的前端任务，要根据一大堆各种格式适配风格的，我都会交给MiniMax M3，比让Claude在后台写脚本逐个解析方便很多。

但它刚出的时候有个问题：慢。丢一个长文档进去，它要想很久才回。

但现在，MiniMax的速度明显快了不少，而且现在还永久半价，性价比高了很多。

如果你的工作场景要是经常要处理截图、表格、扫描件、音视频这种多模态资料，M3值得认真试试。

◽GLM 5.2：编程能力最强，但不太好买到

GLM 5.2是这四个里面编程能力最强的。

社区好评也多——coding能力强，长上下文扎实。不过幻觉率不低，而且没有多模态。

我实测效果也很不错——现在，我已经信任到敢把它拿过来协助删库了。。

很适合平替主Agent的主模型。

不过唯一的缺点可能是不好买到，它家的Coding plan要在每天早上十点整排队抢购，而且相当难买，我蹲了好久才终于买到。（确实好用，以至于供不应求了）

而且，编程套餐给的并发量一般，所以大规模多线程用起来可能有点慢，高峰期速度也慢。它的API价格也不太适合拿出做批量任务。

◈说完结论，说说心里话

现在回头想想，之前写代码同样是翻车，Claude、OpenAI我经常会自动给它们找补——会觉得是不是我prompt没写清楚，或者上下文给得太乱。

但国产模型翻车，我脑子里第一反应经常是——果然。

这话说出来有点伤人，但我猜不少人心里都有过类似的瞬间。不是不想支持国产模型，也不是没看到它们这两年的进步——有过几次不好的体验之后，就很难再轻易托付。

我想了想，原因可能不在模型参数里，在关系里。

一路走来，Claude和OpenAI陪我走过太多真实工作流了。很多时候，我知道它们不完美，但它们确实帮我扛住了活。这种东西会变成一种很隐形的信任余额。

国产模型更像一个早就认识的一般朋友，一直没有留下特别突出的印象，即使现在已经比以前强很多了，但它以前有过一次不好的印象，再加上周围总有人传它的绯闻，我还是会心存芥蒂。

更麻烦的是，当我们真正拿国产测试时，往往不是从一个干净的小任务开始，而是直接把它塞进Claude和OpenAI已经推进很远的复杂长任务里。

而且在这种场景里，它一旦出错，我们依旧会把它直接归类成不靠谱。。

阻碍我信任国产模型的，现在看来不是能力差距了。能力上的短板，国产模型正在一点点地补。而且前端能力普遍都很强，做出来视觉效果非常好看。

真正还在慢慢补回来的是用户信任。能力是入场券，信任才是留下来的理由。

国产模型需要更多的时间、更多的场景。

GLM 5.2 - 新“御三家”里，第一次出现中国模型！

Wed, 17 Jun 2026 00:00:00 +0000

GLM-5.2在权威评测Arena和Artificial Analysis中闯入前列，成为首个进入“御三家”的中国模型。
作者通过三个高难度实测任务（包装SaaS产品、给开源视频编辑器加字幕、复活烂尾开源项目Toola）验证了GLM-5.2的1M长上下文、长程任务、代码理解和工程落地能力。
GLM-5.2展现出像接盘工程师一样的项目救活能力，从“能写页面”进阶到“能跑通真实产品流程”，标志着国产模型在核心编程领域具备实用价值。源自 | 刘小排

这两天，AI 编程圈发生了一件挺有意思的事。一个国产、开源的大模型，突然被众多海外开发者拿到 Claude、OpenAI 旁边比较。 Arena、Artificial Analysis、海外 AI 开发者，都在自发讨论同一个名字： GLM-5.2。

在 Arena 的 WebDev / Coding 相关榜单上，它冲到了最前排。

在权威的模型测评榜Artificial Analysis 上面，新的「御三家」里开始有了中国模型！

这是有史以来第一次！

海外开发者讨论它，也不是因为它会聊天，而是因为它在 coding、frontend、long-horizon agentic work 上真的有东西。我第一反应是：真的假的？我花了两天时间来实测，只测难度高的真实任务。GLM-5.2 长程任务实测,这次 GLM-5.2 最有意思的地方，是**1M长上下文 + 长程任务。**我设计了3关来考它。

第一关：把开源项目做成完整SaaS产品，4小时

第一关，我选了 diffusionstudio/lottie。

任务很简单：

把一个 Lottie 相关的开源项目，包装成一个用户能用的小型网页产品。

流程大概是：用户上传 Lottie JSON — 页面实时预览动画 — 可以调背景色、尺寸、播放速度、循环、起止帧 — 最后能导出一个真实结果。

这一关测的是 GLM-5.2 的 WebDev 和产品化能力。

因为很多 AI 写前端，最喜欢干一件事：

做一个漂亮的 landing page：Hero 区、渐变背景、三张价格卡、一堆假 logo。

看起来很 SaaS。

但用户一上传文件就报错。

这不叫 SaaS。

这叫装修样板间。

真正的 SaaS MVP，至少要让用户完成一个任务，走完上传—预览—调整—导出。

这一关我主要看四件事：

它能不能读懂开源项目的 API。

能不能把库能力变成产品流程。

能不能处理坏 JSON、导出失败这些脏活。

能不能最后 build 通过。

我把任务指令完整告诉它，让它先读代码，确认开发计划再实施。

大概十几分钟，它就能读完整个代码仓库，同时做好了开发规划，哪些模块可以直接复用，核心功能怎么实现。

还有一些待确认项需要你自己敲定后才能执行，这一点上GLM-5.2的执行边界是准确的，没有替我做决定。

逐一确认细节后，就可以让它开始执行了。

一共耗时3小时38分，全程稳定发挥！！

完成后进行测试，这是一个比较标准简洁的工作台。

出错直接反馈，等它修复。这里有个小片花值得关注，虽然各方都在说GLM-5.2的长程任务能力不错，但这不代表它只能僵硬地处理长程任务。这次，它先判断了这只是个小bug，不需要多步处理，比我预期的要更灵活。

大致效果是这样的（视频）：

这一关跑完，我的感觉是：GLM-5.2 不是只会画页面。它至少知道，产品不是页面，产品是流程。

第二关：给OpenReel加上自动字幕功能，半小时

OpenReel 是一个开源视频编辑器，技术栈比第一关复杂很多。它涉及视频、时间轴、字幕、预览、导出。我给 GLM-5.2 的任务是：基于 OpenReel 做一个“字幕工作台”。

用户导入视频—导入 SRT / VTT 字幕—编辑字幕文本和开始结束时间—调整字幕样式—在预览区看到效果—导出可验证的项目结果。

这关开始有点像真实工程了。因为它不是让 AI 从零写一个页面。而是让它进入一个已经存在的项目。先搞清楚别人家厨房在哪里、锅在哪里、盐在哪里、煤气阀在哪里。然后再做一道菜。这件事难就难在：不能重写整个项目。不能绕开原来的架构。也不能做一堆假按钮。

所以我先让它只读项目，不准改代码。

这一步很关键。

因为一个靠谱的工程师，不会一上来就开干。

一上来就开干的，通常最后都会把项目干碎。

可以得到这样一份非常详细的分析报告，包含现有能力盘点、可复用组件、实现方案、可行性、开发计划等等。

确认没有问题，我让它开始实现。

字幕功能添加成功，没有动其他的代码。

但手动添加字幕还是太麻烦了，我又增加了自动识别字幕功能。

大概二十分钟左右，自动识别字幕就实现了。

这一关，可以关注的是：GLM-5.2 能不能在真实项目里找到自己的位置。

第三关：复活一个老牌开源项目Toola，2.5小时

Demo 这种东西，太容易骗人。

做一个页面很快。

做一个能重新跑起来的烂尾产品，很难。

所以我在 GitHub 上找了一个项目，叫 Toola。

它的定位很有意思：开源版 Retool。Retool 是干嘛的？简单说，就是给公司内部搭后台工具的。比如一个电商公司，运营每天都要做这些事：

查订单、查用户、给用户补发优惠券、处理退款、看今天 GMV。这些东西不是给消费者用的。是给公司内部员工用的。

如果每个后台都让工程师从零写，太浪费时间。

Retool 解决的就是这个问题：拖一个表格、接一个数据库、放几个按钮、再加一张图表。一个内部订单管理后台，就搭出来了。

Toola 想做的，就是这个东西的开源版本。

它自己的定位写得很猛：开源 Retool 替代品。

听起来很香。但问题是，它停在了 2021 年。很多开源项目都是这样。当年愿景很大。README 写得热血沸腾。然后几年过去。根本不维护了。这时候，AI 要做的不是“从零写一个更漂亮的 Retool”。那太容易变成幻觉。它要做的是像一个接盘工程师一样，把这个烂尾项目救回来。

我给 GLM-5.2 的任务是：把 Toola 救活到一个可发布 MVP。最低标准很明确：

第一，能安装依赖。

第二，能本地启动。

第三，能打开核心编辑器页面。

第四，能跑通一个内部工具流程。

第五，能 build 成功。

这一关测的是 GLM-5.2 最硬的能力：

它能不能读懂一个多年没人维护的真实项目。

能不能判断原作者到底想做什么。

能不能修旧依赖、在外部服务不可用的时候做 mock 降级。

能不能保住核心产品流程。

能不能把“能打开”推进到“能演示、能构建、能发布”。

这些才是更真实的工作。

如果这一关能跑通，那 GLM-5.2 就不只是“会写代码”而已了。

它更像一个能接盘旧项目的 AI 同事。

第一步，产出分析报告，分析得基本到位。

第二步，执行救活计划。

GLM-5.2持续工作了两个半小时多，我开了 Full access 模式，让它全程自己干，看看实际效果

模式电商后台管理，做了个订单管理。

功能上我没有做更多调整，但现在这个项目，从"装都装不上"变成"能装、能跑、能演示、能构建"。

全程是 GLM-5.2 自主执行，我只负责验收。

国产模型上主桌吃饭了！

测完之后，我最大的感受是：

GLM-5.2 的意义，不只是“国产模型又刷了一个榜”。

国产模型，终于上主桌吃饭了！