Featured image of post 最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱

本文对比实测了GLM-5.2、Kimi 2.7 Code与Claude Opus 4.8在开发复杂单文件Excel数据分析工具时的表现,结果出乎意料,Opus 4.8因指令遗漏垫底。

  • 模型对比实测:GLM-5.2、Kimi 2.7 Code 与 Claude Opus 4.8 在复杂单文件 Excel 分析工具开发任务中的表现差异显著。
  • Opus 4.8 意外垫底:公认跑分最高的 Opus 4.8 因严重遗漏搜索、分页、中文分析报告等核心指令,仅交付功能残缺的半成品。
  • 长程任务关键能力:真实工程任务中,模型对复杂长提示的指令服从度与抗“代码惰性”能力,比理论跑分更决定实际可用性。

源自 | 郭震AI

最近GLM-5.2,Kimi 2.7 Code,两个新模型发布,与当前最强模型Claude Opus 4.8,对比实测下,感兴趣的可以看下。

新模型介绍

GLM5.2,在以下两个数据集,都仅次于 Opus 4.8:

FrontierSWE,这个数据集最有意思,

它主要看模型能不能在真实代码工程里完成非常难、开放式、长时间的技术任务,

很多任务需要跑 20 小时,

所以它真实考察了模型长程任务处理能力,这也是我最喜欢的,因为开发软件就是需要这样的能力强。

Kimi 2.7 Code,也在最新发布,它同样把考察长程任务作为第一优先级,就是左一柱状图:

看到它同样接近Opus 4.8 xhigh模式

模型胜任长程任务、开发复杂项目,看来都是大模型迭代的方向。

接下来咱们就重点测试它们三个处理相对复杂任务能力,到底实际使用表现如何。

接下来直接开始测评

对比实测

测评思路:使用一个典型的中小型Agent任务,测评大家普遍关心的智能体能力。

然后选择Gemini-3.1-Pro为裁判,根据裁判的打分,给出客观的结果评估。

Agent任务,提示词如下:

开发一个单文件 HTML 网页,实现 Excel 数据分析与可视化工具。 支持上传 .xlsx/.xls,使用 SheetJS 解析 Excel,读取多 Sheet,并展示可搜索、分页、横向滚动的数据表格。 自动识别字段类型、统计行列数、缺失值、唯一值、最大/最小/平均/求和,并生成中文数据分析报告。 使用 ECharts 自动生成柱状图、折线图、饼图、散点图等可视化,并支持用户选择 X/Y 字段和图表类型自定义生成。 只输出完整可运行的单文件 HTML 代码,不要解释,不要 Markdown,不依赖后端。

先发给GLM-5.2:

保存为html文件,并打开:

导入一个Excel文件,自动分页展示:

下面是数据统计预览:

生成的部分图表:

同样任务发给 Opus 4.8 ,打开html文件:

Image

数据预览:

Image

Image

图表:

Image

Image

Image

同样任务发给:Kimi 2.7 Code

但是Kimi官方,无最新这个模型:

我选择通过API调用它:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
from openai import OpenAI
import os
import re

client = OpenAI(
    api_key=os.environ["MOONSHOT_API_KEY"],
    base_url="https://api.moonshot.ai/v1",
)

prompt = """
开发一个单文件 HTML 网页,实现 Excel 数据分析与可视化工具。

支持上传 .xlsx/.xls,使用 SheetJS 解析 Excel,读取多 Sheet,并展示可搜索、分页、横向滚动的数据表格。

自动识别字段类型、统计行列数、缺失值、唯一值、最大/最小/平均/求和,并生成中文数据分析报告。

使用 ECharts 自动生成柱状图、折线图、饼图、散点图等可视化,并支持用户选择 X/Y 字段和图表类型自定义生成。

只输出完整可运行的单文件 HTML 代码,不要解释,不要 Markdown,不依赖后端。
"""

completion = client.chat.completions.create(
    model="kimi-k2.7-code",
    temperature=1,
    max_tokens=30000,
    messages=[
        {
            "role": "system",
            "content": "你是资深前端工程师。严格遵守用户要求:只输出完整 HTML 源码,不输出解释、Markdown 或代码围栏。",
        },
        {
            "role": "user",
            "content": prompt,
        },
    ],
)

html = completion.choices[0].message.content.strip()

html = re.sub(r"^```html\s*", "", html)
html = re.sub(r"^```\s*", "", html)
html = re.sub(r"\s*```$", "", html)
html = html.strip()

with open("kimi-excel-analysis-visualizer.html", "w", encoding="utf-8") as f:
    f.write(html)

print("已保存到 kimi-excel-analysis-visualizer.html")

双击打开html,显示如下:

加载Excel后,数据预览,字段类型,统计:

可视化图:

裁判打分

为了更加客观,交给裁判Gemini-3.1-Pro模型,评估如下图所示:

这是Gemini-3.1-Pro使用的三个打分维度:

最终打分:

Claude Opus 4.8,竟然得分只有45,位于最后一名,

让我相当意外,因为按照文章开头的排名,Opus 4.8应该是第一才对!

这是为什么?再让裁判点评下:

结论如下:

Opus 4.8 失败的根本原因在于出现了严重的指令遗漏,它完全忽略了搜索、分页、中文分析报告和自动图表推荐等核心要求,仅交付了一个功能残缺的基础半成品。

总结一下

在开发复杂单文件Excel数据分析应用的实测中,GLM-5.2 与 Kimi 2.7 Code 表现惊艳,双双逆袭超越了跑分公认霸主 Claude Opus 4.8 这一“离谱”反转的根源在于,本应最强的 Opus 4.8 触发了大模型的“代码惰性”,因注意力衰减严重遗漏了搜索、分页和分析报告等核心指令,最终垫底。此次评测深刻证明,在处理真实的长程工程任务时,模型对复杂长提示词的“指令服从度”和“抗偷懒能力”,远比单纯的理论跑分更加关键。