最新GLM-5.2，Kimi 2.7，Claude Opus 4.8 对比实测，结果离谱

模型对比实测：GLM-5.2、Kimi 2.7 Code 与 Claude Opus 4.8 在复杂单文件 Excel 分析工具开发任务中的表现差异显著。
Opus 4.8 意外垫底：公认跑分最高的 Opus 4.8 因严重遗漏搜索、分页、中文分析报告等核心指令，仅交付功能残缺的半成品。
长程任务关键能力：真实工程任务中，模型对复杂长提示的指令服从度与抗“代码惰性”能力，比理论跑分更决定实际可用性。

源自 | 郭震AI

最近GLM-5.2，Kimi 2.7 Code，两个新模型发布，与当前最强模型Claude Opus 4.8,对比实测下，感兴趣的可以看下。

新模型介绍

GLM5.2，在以下两个数据集，都仅次于 Opus 4.8：

FrontierSWE，这个数据集最有意思，

它主要看模型能不能在真实代码工程里完成非常难、开放式、长时间的技术任务，

很多任务需要跑 20 小时，

所以它真实考察了模型长程任务处理能力，这也是我最喜欢的，因为开发软件就是需要这样的能力强。

Kimi 2.7 Code，也在最新发布，它同样把考察长程任务作为第一优先级，就是左一柱状图：

看到它同样接近Opus 4.8 xhigh模式

模型胜任长程任务、开发复杂项目，看来都是大模型迭代的方向。

接下来咱们就重点测试它们三个处理相对复杂任务能力，到底实际使用表现如何。

接下来直接开始测评

对比实测

测评思路：使用一个典型的中小型Agent任务，测评大家普遍关心的智能体能力。

然后选择Gemini-3.1-Pro为裁判，根据裁判的打分，给出客观的结果评估。

Agent任务，提示词如下：

开发一个单文件 HTML 网页，实现 Excel 数据分析与可视化工具。支持上传 .xlsx/.xls，使用 SheetJS 解析 Excel，读取多 Sheet，并展示可搜索、分页、横向滚动的数据表格。自动识别字段类型、统计行列数、缺失值、唯一值、最大/最小/平均/求和，并生成中文数据分析报告。使用 ECharts 自动生成柱状图、折线图、饼图、散点图等可视化，并支持用户选择 X/Y 字段和图表类型自定义生成。只输出完整可运行的单文件 HTML 代码，不要解释，不要 Markdown，不依赖后端。

先发给GLM-5.2:

保存为html文件，并打开：

导入一个Excel文件，自动分页展示：

下面是数据统计预览：

生成的部分图表：

同样任务发给 Opus 4.8 ，打开html文件：

数据预览：

图表：

同样任务发给：Kimi 2.7 Code

但是Kimi官方，无最新这个模型：

我选择通过API调用它：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48


from openai import OpenAI
import os
import re

client = OpenAI(
    api_key=os.environ["MOONSHOT_API_KEY"],
    base_url="https://api.moonshot.ai/v1",
)

prompt = """
开发一个单文件 HTML 网页，实现 Excel 数据分析与可视化工具。

支持上传 .xlsx/.xls，使用 SheetJS 解析 Excel，读取多 Sheet，并展示可搜索、分页、横向滚动的数据表格。

自动识别字段类型、统计行列数、缺失值、唯一值、最大/最小/平均/求和，并生成中文数据分析报告。

使用 ECharts 自动生成柱状图、折线图、饼图、散点图等可视化，并支持用户选择 X/Y 字段和图表类型自定义生成。

只输出完整可运行的单文件 HTML 代码，不要解释，不要 Markdown，不依赖后端。
"""

completion = client.chat.completions.create(
    model="kimi-k2.7-code",
    temperature=1,
    max_tokens=30000,
    messages=[
        {
            "role": "system",
            "content": "你是资深前端工程师。严格遵守用户要求：只输出完整 HTML 源码，不输出解释、Markdown 或代码围栏。",
        },
        {
            "role": "user",
            "content": prompt,
        },
    ],
)

html = completion.choices[0].message.content.strip()

html = re.sub(r"^```html\s*", "", html)
html = re.sub(r"^```\s*", "", html)
html = re.sub(r"\s*```$", "", html)
html = html.strip()

with open("kimi-excel-analysis-visualizer.html", "w", encoding="utf-8") as f:
    f.write(html)

print("已保存到 kimi-excel-analysis-visualizer.html")

双击打开html，显示如下：

加载Excel后，数据预览，字段类型，统计：

可视化图：

裁判打分

为了更加客观，交给裁判Gemini-3.1-Pro模型，评估如下图所示：

这是Gemini-3.1-Pro使用的三个打分维度：

最终打分：

Claude Opus 4.8，竟然得分只有45，位于最后一名，

让我相当意外，因为按照文章开头的排名，Opus 4.8应该是第一才对！

这是为什么？再让裁判点评下：

结论如下：

Opus 4.8 失败的根本原因在于出现了严重的指令遗漏，它完全忽略了搜索、分页、中文分析报告和自动图表推荐等核心要求，仅交付了一个功能残缺的基础半成品。

总结一下

在开发复杂单文件Excel数据分析应用的实测中，GLM-5.2 与 Kimi 2.7 Code 表现惊艳，双双逆袭超越了跑分公认霸主 Claude Opus 4.8 这一“离谱”反转的根源在于，本应最强的 Opus 4.8 触发了大模型的“代码惰性”，因注意力衰减严重遗漏了搜索、分页和分析报告等核心指令，最终垫底。此次评测深刻证明，在处理真实的长程工程任务时，模型对复杂长提示词的“指令服从度”和“抗偷懒能力”，远比单纯的理论跑分更加关键。