<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>智能体评测 on AI</title>
        <link>https://ai.programnotes.cn/tags/%E6%99%BA%E8%83%BD%E4%BD%93%E8%AF%84%E6%B5%8B/</link>
        <description>Recent content in 智能体评测 on AI</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-CN</language>
        <lastBuildDate>Wed, 17 Jun 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://ai.programnotes.cn/tags/%E6%99%BA%E8%83%BD%E4%BD%93%E8%AF%84%E6%B5%8B/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>最新GLM-5.2，Kimi 2.7，Claude Opus 4.8 对比实测，结果离谱</title>
        <link>https://ai.programnotes.cn/p/%E6%9C%80%E6%96%B0glm-5.2kimi-2.7claude-opus-4.8-%E5%AF%B9%E6%AF%94%E5%AE%9E%E6%B5%8B%E7%BB%93%E6%9E%9C%E7%A6%BB%E8%B0%B1/</link>
        <pubDate>Wed, 17 Jun 2026 00:00:00 +0000</pubDate>
        
        <guid>https://ai.programnotes.cn/p/%E6%9C%80%E6%96%B0glm-5.2kimi-2.7claude-opus-4.8-%E5%AF%B9%E6%AF%94%E5%AE%9E%E6%B5%8B%E7%BB%93%E6%9E%9C%E7%A6%BB%E8%B0%B1/</guid>
        <description>&lt;img src="https://ai.programnotes.cn/img/ai/38819f24b71e312924eba9869c0a224e.png" alt="Featured image of post 最新GLM-5.2，Kimi 2.7，Claude Opus 4.8 对比实测，结果离谱" /&gt;&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;模型对比实测&lt;/strong&gt;：GLM-5.2、Kimi 2.7 Code 与 Claude Opus 4.8 在复杂单文件 Excel 分析工具开发任务中的表现差异显著。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Opus 4.8 意外垫底&lt;/strong&gt;：公认跑分最高的 Opus 4.8 因严重遗漏搜索、分页、中文分析报告等核心指令，仅交付功能残缺的半成品。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;长程任务关键能力&lt;/strong&gt;：真实工程任务中，模型对复杂长提示的指令服从度与抗“代码惰性”能力，比理论跑分更决定实际可用性。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;源自&lt;/strong&gt; |  郭震AI&lt;/p&gt;
&lt;p&gt;最近GLM-5.2，Kimi 2.7 Code，两个新模型发布，与当前最强模型Claude Opus 4.8,对比实测下，感兴趣的可以看下。&lt;/p&gt;
&lt;h2 id=&#34;新模型介绍&#34;&gt;新模型介绍
&lt;/h2&gt;&lt;p&gt;GLM5.2，在以下两个数据集，都仅次于 Opus 4.8：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/4b5d19d61899272f316d380f0bb1e73c.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;FrontierSWE，这个数据集最有意思，&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;它主要看模型能不能在真实代码工程里完成非常难、开放式、长时间的技术任务，&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;很多任务需要跑 20 小时，&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;所以它真实考察了模型长程任务处理能力，这也是我最喜欢的，因为开发软件就是需要这样的能力强。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Kimi 2.7 Code，也在最新发布，它同样把考察长程任务作为第一优先级，就是左一柱状图：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/38819f24b71e312924eba9869c0a224e.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;看到它同样接近Opus 4.8 xhigh模式&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;模型胜任长程任务、开发复杂项目，看来都是大模型迭代的方向。&lt;/p&gt;
&lt;p&gt;接下来咱们就重点测试它们三个处理相对复杂任务能力，到底实际使用表现如何。&lt;/p&gt;
&lt;p&gt;接下来直接开始测评&lt;/p&gt;
&lt;h2 id=&#34;对比实测&#34;&gt;对比实测
&lt;/h2&gt;&lt;p&gt;测评思路：使用一个典型的中小型Agent任务，测评大家普遍关心的智能体能力。&lt;/p&gt;
&lt;p&gt;然后选择Gemini-3.1-Pro为裁判，根据裁判的打分，给出客观的结果评估。&lt;/p&gt;
&lt;p&gt;Agent任务，提示词如下：&lt;/p&gt;
&lt;p&gt;开发一个单文件 HTML 网页，实现 Excel 数据分析与可视化工具。
支持上传 .xlsx/.xls，使用 SheetJS 解析 Excel，读取多 Sheet，并展示可搜索、分页、横向滚动的数据表格。
自动识别字段类型、统计行列数、缺失值、唯一值、最大/最小/平均/求和，并生成中文数据分析报告。
使用 ECharts 自动生成柱状图、折线图、饼图、散点图等可视化，并支持用户选择 X/Y 字段和图表类型自定义生成。
只输出完整可运行的单文件 HTML 代码，不要解释，不要 Markdown，不依赖后端。&lt;/p&gt;
&lt;p&gt;先发给GLM-5.2:&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/ec186d7868f7eb2883f3029d97b21e10.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;保存为html文件，并打开：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/06dc5414a892fec5f4e6a4ccbe35165c.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;导入一个Excel文件，自动分页展示：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/c2588aab6e1678ef8f3572b6a8ca1d2e.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;下面是数据统计预览：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/fb2b49a03db2bf85ffcd416a0aa2e02e.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;生成的部分图表：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/6a97b3adb58a6cc20862637be08f8aed.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/fe0374fcb41404291f2338b9dade8099.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;同样任务发给 Opus 4.8
，打开html文件：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/3aba44859c8c1fc06f1f04407d582027.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;Image&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;数据预览：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/b97758d23cf388987a79b4cba5fdacc6.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;Image&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/fbd6d3df0f6e2c5bbb90d6f83a10bc85.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;Image&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;图表：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/9315754b27f5c1a815ff299e3c5204bb.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;Image&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/68ac07e8f1b137cfce27d146b7de6b25.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;Image&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/6ab0e2257a76aa0bb5f1d790978036af.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;Image&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;同样任务发给：Kimi 2.7 Code&lt;/p&gt;
&lt;p&gt;但是Kimi官方，无最新这个模型：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/a869327095456abec78ac20251b67068.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;我选择通过API调用它：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;14
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;15
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;16
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;17
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;18
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;19
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;20
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;21
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;22
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;23
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;24
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;25
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;26
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;27
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;28
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;29
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;30
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;31
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;32
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;33
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;34
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;35
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;36
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;37
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;38
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;39
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;40
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;41
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;42
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;43
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;44
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;45
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;46
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;47
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;48
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-fallback&#34; data-lang=&#34;fallback&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;from openai import OpenAI
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;import os
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;import re
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;client = OpenAI(
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    api_key=os.environ[&amp;#34;MOONSHOT_API_KEY&amp;#34;],
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    base_url=&amp;#34;https://api.moonshot.ai/v1&amp;#34;,
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;prompt = &amp;#34;&amp;#34;&amp;#34;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;开发一个单文件 HTML 网页，实现 Excel 数据分析与可视化工具。
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;支持上传 .xlsx/.xls，使用 SheetJS 解析 Excel，读取多 Sheet，并展示可搜索、分页、横向滚动的数据表格。
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;自动识别字段类型、统计行列数、缺失值、唯一值、最大/最小/平均/求和，并生成中文数据分析报告。
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;使用 ECharts 自动生成柱状图、折线图、饼图、散点图等可视化，并支持用户选择 X/Y 字段和图表类型自定义生成。
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;只输出完整可运行的单文件 HTML 代码，不要解释，不要 Markdown，不依赖后端。
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&amp;#34;&amp;#34;&amp;#34;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;completion = client.chat.completions.create(
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    model=&amp;#34;kimi-k2.7-code&amp;#34;,
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    temperature=1,
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    max_tokens=30000,
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    messages=[
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        {
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;            &amp;#34;role&amp;#34;: &amp;#34;system&amp;#34;,
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;            &amp;#34;content&amp;#34;: &amp;#34;你是资深前端工程师。严格遵守用户要求：只输出完整 HTML 源码，不输出解释、Markdown 或代码围栏。&amp;#34;,
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        },
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        {
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;            &amp;#34;role&amp;#34;: &amp;#34;user&amp;#34;,
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;            &amp;#34;content&amp;#34;: prompt,
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        },
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    ],
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;html = completion.choices[0].message.content.strip()
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;html = re.sub(r&amp;#34;^```html\s*&amp;#34;, &amp;#34;&amp;#34;, html)
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;html = re.sub(r&amp;#34;^```\s*&amp;#34;, &amp;#34;&amp;#34;, html)
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;html = re.sub(r&amp;#34;\s*```$&amp;#34;, &amp;#34;&amp;#34;, html)
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;html = html.strip()
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;with open(&amp;#34;kimi-excel-analysis-visualizer.html&amp;#34;, &amp;#34;w&amp;#34;, encoding=&amp;#34;utf-8&amp;#34;) as f:
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    f.write(html)
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;print(&amp;#34;已保存到 kimi-excel-analysis-visualizer.html&amp;#34;)
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;双击打开html，显示如下：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/892a7d0f8c5c6c7fa31a5af054426f22.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;加载Excel后，数据预览，字段类型，统计：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/73840d7d2fcf4ec566893ec284ee2f73.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/c01222a63bb4489f0e4f186ea407da1a.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;可视化图：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/0e0bc538b856de09bb2b45faa4781dbb.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
	
&gt;&lt;/p&gt;
&lt;h2 id=&#34;裁判打分&#34;&gt;裁判打分
&lt;/h2&gt;&lt;p&gt;为了更加客观，交给裁判Gemini-3.1-Pro模型，评估如下图所示：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/0c26f97c57ee26a16131adb88bfc98d3.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;这是Gemini-3.1-Pro使用的三个打分维度：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/5f14517cc5eb2bfa1e71d4729ec374cb.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;最终打分：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/6dd797b4544a7602e753830a523daaba.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;Claude Opus 4.8，竟然得分只有45，位于最后一名，&lt;/p&gt;
&lt;p&gt;让我相当意外，因为按照文章开头的排名，Opus 4.8应该是第一才对！&lt;/p&gt;
&lt;p&gt;这是为什么？再让裁判点评下：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/1b81784c6c87c63a783db512c02503ab.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;结论如下：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/eb6f165ad130327b038322b66d496e1a.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;Opus 4.8 失败的根本原因在于出现了&lt;strong&gt;严重的指令遗漏&lt;/strong&gt;，它完全忽略了搜索、分页、中文分析报告和自动图表推荐等核心要求，仅交付了一个功能残缺的基础半成品。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://ai.programnotes.cn/img/ai/ee195eb088f8c4f2ad7089e30f5bfb9f.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
	
&gt;&lt;/p&gt;
&lt;h2 id=&#34;总结一下&#34;&gt;总结一下
&lt;/h2&gt;&lt;p&gt;在开发复杂单文件Excel数据分析应用的实测中，GLM-5.2 与 Kimi 2.7 Code 表现惊艳，双双逆袭超越了跑分公认霸主 Claude Opus 4.8
这一“离谱”反转的根源在于，本应最强的 Opus 4.8 触发了大模型的“代码惰性”，因注意力衰减严重遗漏了搜索、分页和分析报告等核心指令，最终垫底。此次评测深刻证明，在处理真实的长程工程任务时，模型对复杂长提示词的“指令服从度”和“抗偷懒能力”，远比单纯的理论跑分更加关键。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
