最近微信群里流传着一张菜单。
德国总理默茨访华,2026年2月25日,北京国宴。菜单上写着鹅肝炒饭、宋嫂鱼羹、百合银耳炖雪梨,配张裕赤贞珠干红。
菜是好菜。菜单是一张 A4 纸。

没有边框,没有装饰,没有设计感,字体是系统默认,排版是表格对齐。放在国宴的语境里,这张菜单像是会议室打印出来的议程。
我用同一道提示词,测试了几个主流大模型:
这是一张国宴的菜单,但是设计过于粗糙平庸了,请按照专业设计师的视角,加入中国传统文化元素,重新进行设计,不需要输出分析,直接给最后结果。
结果分了三类。
第一类:真的做到了
Claude 的表现让我印象深刻。
它先把图片里菜单的所有文字内容完整读出来——菜名、配酒、日期、场合,一个字都没漏。然后在重新设计时,把这些内容全部正确呈现到了新菜单里。
设计本身也做到了该做的事:字体大小有层次对比,标题、菜名、注释各司其职;加入了中国传统纹样作为装饰,但克制,不抢内容。整体像一件真正经过思考的印刷品,而不是一张生成的图片。
这道题的难点在于,它同时考验图像理解、内容准确性、和设计判断力。Claude 把三件事都做了。


第二类:在表演,没在做设计
ChatGPT、豆包、元宝的输出看起来都很漂亮。
红金宫廷风、祥云边角、双页展开……视觉冲击力有了。但仔细看,字糊了,菜名错了,有的直接造了根本不存在的菜。它们把设计一张漂亮的中国风菜单理解成了一道图片生成题,而不是一道设计题。
设计的本质是解决问题——这道题的问题是:一张真实的菜单,内容已经在那里,怎么让它呈现得更好?如果连内容都没读准,后面的设计再好看也是表演。



第三类:自我审查,任务失败
千问直接报错:「当前内容无法生成,请修改后重试。」
国宴菜单触发了安全审核。我理解模型在敏感话题上需要谨慎,但一张菜单的设计任务,连这都要拒绝——如果连这种程度的内容都要自我审查,还搞什么大模型。

同一道提示词,结果相差这么大。
这不只是技术能力的差距,也是对任务理解方式的差距。生成一张漂亮的图,和真正完成一项设计任务,是两件不同的事。
至少目前,这两件事之间的差距,还是清晰可见的。