探索跳跃式思维链：DeepSeek创造力垫底，Qwen系列接近人类顶尖水平_AI模型

aixiv专栏持续关注并报道全球顶尖ai研究成果。多年来，我们已发布超过2000篇学术及技术文章，涵盖众多高校和企业实验室的领先研究。欢迎优秀研究者投稿或联系我们进行报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

当前，大语言模型(LLM)的创造力（Leap-of-Thought），与逻辑思维能力(Chain-of-Thought)同样重要，却鲜有深入探讨。这制约了LLM创造力发展，主要原因在于缺乏合适的自动化评估方法。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

^{图 1}

以往的LLM创造力评估多采用选择、排序等方法，这些方法虽然适用于逻辑思维能力评估，却难以有效衡量创造力。例如，要求根据图片和文字补充一句话，使其富有创造力和幽默感。如果提供选项“A. 可以帮忙扶一下我吗？”和“B. 可以帮我解开手铐吗？”，LLM可能无需创造力便选择B，因为B更独特。^{图 2}

LLM创造力评估应侧重于“生成创新内容的能力”，而非“判断创新内容的能力”。目前，人类评估和LLM-as-a-judge两种方法较为常用。人类评估准确率高，但成本高且不可持续；LLM-as-a-judge方法（通过zero-shot或fine-tuning LLM进行评分）尚处于初级阶段，稳定性不足。

为此，来自中大、哈佛、鹏城和新加坡管理大学的研究者提出了一种新的评估范式——LoTbench。该方法通过研究LLM生成高质量创新内容所需的“代价”（即LLM生成内容与人类水平创新内容的差距）来评估创造力，并已发表在IEEE TPAMI期刊上。

论文题目：A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models
论文链接：https://www./link/a64bcca2a087451831e31b6d339940b9
项目主页：https://www./link/4c21c9d351543562af3562a7add8685f

任务场景及内容

LoTbench基于CVPR'24的“梗王”大模型研究（Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation），其核心任务是根据图片和文字补充一句话，使其富有创造力和幽默感（类似于日本“大喜利”游戏）。此类任务具有以下特点：