同一道提示词，我测了几个主流大模型

最近微信群里流传着一张菜单。

德国总理默茨访华，2026年2月25日，北京国宴。菜单上写着鹅肝炒饭、宋嫂鱼羹、百合银耳炖雪梨，配张裕赤贞珠干红。

菜是好菜。菜单是一张 A4 纸。

没有边框，没有装饰，没有设计感，字体是系统默认，排版是表格对齐。放在国宴的语境里，这张菜单像是会议室打印出来的议程。

我用同一道提示词，测试了几个主流大模型：

这是一张国宴的菜单，但是设计过于粗糙平庸了，请按照专业设计师的视角，加入中国传统文化元素，重新进行设计，不需要输出分析，直接给最后结果。

结果分了三类。

第一类：真的做到了

Claude 的表现让我印象深刻。

它先把图片里菜单的所有文字内容完整读出来——菜名、配酒、日期、场合，一个字都没漏。然后在重新设计时，把这些内容全部正确呈现到了新菜单里。

设计本身也做到了该做的事：字体大小有层次对比，标题、菜名、注释各司其职；加入了中国传统纹样作为装饰，但克制，不抢内容。整体像一件真正经过思考的印刷品，而不是一张生成的图片。

这道题的难点在于，它同时考验图像理解、内容准确性、和设计判断力。Claude 把三件事都做了。

ChatGPT、豆包、元宝的输出看起来都很漂亮。

红金宫廷风、祥云边角、双页展开……视觉冲击力有了。但仔细看，字糊了，菜名错了，有的直接造了根本不存在的菜。它们把设计一张漂亮的中国风菜单理解成了一道图片生成题，而不是一道设计题。

设计的本质是解决问题——这道题的问题是：一张真实的菜单，内容已经在那里，怎么让它呈现得更好？如果连内容都没读准，后面的设计再好看也是表演。

千问直接报错：「当前内容无法生成，请修改后重试。」

国宴菜单触发了安全审核。我理解模型在敏感话题上需要谨慎，但一张菜单的设计任务，连这都要拒绝——如果连这种程度的内容都要自我审查，还搞什么大模型。

同一道提示词，结果相差这么大。

这不只是技术能力的差距，也是对任务理解方式的差距。生成一张漂亮的图，和真正完成一项设计任务，是两件不同的事。

至少目前，这两件事之间的差距，还是清晰可见的。