sankalps blog · 2025-09-02

LLM 能梦见电子羊吗?

摘要

作者设计了一个实验:让O3、Claude、GPT-5、DeepSeek等主流LLM生成创意视觉描述,再用Midjourney v7和Nano Banana将其转化为图像,以此探索不同模型的艺术偏好和视觉想象力差异。实验发现多个模型不约而同地生成了水母意象,Claude系列偏爱涉及人类共情的场景,而多个模型都倾向于将城市想象为生命体——这些趋同与分化揭示了LLM在创意表达上的潜在模式。

内容框架与概述

文章开篇以作者偶然忘记取消Midjourney订阅为引子,引出核心创意:借鉴Tyler Grove关于LLM音乐品味的研究思路,测试各大模型是否也具有独特的视觉审美偏好。实验设计简洁明了——用统一提示词要求模型描述"从未被创作过的最具创意的视觉想法",仅取首次回复,分别测试思考模式与非思考模式、不同温度参数的表现。

实验涵盖O3、Claude Sonnet/Opus 4系列、GPT-5、DeepSeek V3.1、Kimi K2、Grok 4等主流模型,生成的提示词再经由Midjourney v7和Nano Banana两个图像生成工具呈现。作者观察到三个核心现象:Claude Sonnet、Kimi K2、DeepSeek等模型独立生成了相似的生物发光水母意象;Claude系列始终关注集体人类体验;多模型倾向于将城市拟人化却从未反向想象生命体成为基础设施。

文章主体逐一展示各模型的原始提示词及生成图像,附以简短点评。从O3的星尘鲸鱼到Claude的水晶树,从GPT-5的"时间图书馆"到Grok 4的"悲伤博物馆",每个模型都展现出独特的创意指纹。作者最终指出,这些模式反映了模型训练数据和架构对创意输出的深层影响。

核心概念及解读

水母趋同(Jellyfish Convergence):多个独立模型不约而同生成半透明、生物发光的水母意象,作者推测水母可能在模型表征中占据"超凡之美"的特殊位置——它们既陌生又熟悉,既有结构又流动。

思考模式vs非思考模式(Thinking vs Non-Thinking):实验分别测试模型的推理模式与直接响应模式,探索"深度思考"是否影响创意产出的风格与复杂度。

温度参数(Temperature):控制模型输出随机性的关键参数。实验显示Kimi K2在温度2.0时完全崩溃,产生多语言乱码,揭示了创意边界与模型稳定性的张力。

提示词遵从度(Prompt Adherence):衡量图像生成模型对自然语言描述的还原能力。Nano Banana在此方面表现优于Midjourney,但后者在美学上更胜一筹。

创意偏好不对称性:模型普遍将无生命体想象为获得生命,却从不反向构思——这种不对称性暗示了模型对"意识"概念的某种隐性理解框架。


原文信息

字段内容
原文Can LLMs dream of Electric Sheep?
作者sankalps blog
发表日期2025-08-25

此摘要卡片由 AI 自动生成