我测试了 QwQ-32B-Preview：阿里巴巴的推理模型

mostakimvip06 · Post by **mostakimvip06** » Mon Mar 17, 2025 4:36 am

今年年底，高级推理模型的成果颇丰：OpenAI 刚刚宣布了o1 pro 模式，DeepSeek 发布了DeepSeek-R1-Lite-Preview，现在阿里巴巴又宣布了QwQ-32B-Preview 。

在我的上一篇文章中，我测试了 DeepSeek-R1-Lite-Preview。现在，我在 QwQ-32B-Preview 上运行相同的测试，以比较结果并评估其性能。

开发人工智能应用程序
学习使用 OpenAI API 构建 AI 应用程序。
QwQ-32B-Preview 是什么？
QwQ-32B-Preview 是一个用于处理高级推理任务的模型，它超越了菲律宾赌博数据简单的文本理解。它旨在解决编码和数学推理等具有挑战性的问题。作为“预览”版本，它仍在完善中。它在 Hugging Face 等平台上具有开源访问权限，因此您可以根据需要测试、改进和反馈模型！

需要注意的是，QwQ-32B-Preview 是一个实验模型。虽然它很有前景，但也有一些重要的局限性：

混合语言：模型可能会意外地在语言之间切换，从而导致其响应不太清晰。
循环论证：有时会陷入重复的推理循环，导致长篇大论的回答而没有明确的结论。
安全问题：该模型仍需要更强大的安全功能以确保可靠和安全的使用，因此建议在部署时谨慎行事。
性能差距：事实证明它在数学和编码方面表现良好，但在常识推理和理解细微的语言细微差别等领域还有待改进。
如何访问 QwQ-32B-Preview？
您可以通过HuggingChat访问 QwQ-32B-Preview ，目前它以非量化方式免费运行。要使用 QwQ-32B-Preview：
从可用型号中选择QwQ-32B-Preview
开始与模型交互
HuggingFace 聊天

草莓测试
我们先从著名的草莓测试开始。提示是：“‘草莓’中字母‘r’出现了多少次？”

QwQ-32B 上的草莓测试-预览

对的，这已经变得有趣了！

它确实正确地计算了字母数量，但它错误地指出“r”出现在第三、第七和第八个位置，这是不正确的。正确的位置是第三、第八和第九个。作为参考，这是 DeepSeek 正确处理的事情。

让我们仔细看看QwQ-32B-Preview的推理：

草莓测试-推理

QwQ-32B-Preview 的推理比 DeepSeek 提供的推理短得多。但是，在这种情况下，在计算字母时，它没有考虑它们的位置，我猜这就是它出错的原因。这很有趣，因为它提供了这些信息，尽管这些信息不是必需的——我没有要求“r”的位置，只要求出现次数。提供额外的、不必要的信息最终会导致错误。

数学推理
为了测试模型的数学推理，我们将执行三个复杂程度不同的测试。

三角面积
提示是：“如果一个三角形的边长为 3、4 和 5，那么它的面积是多少？”让我们看看它如何处理这个问题：

面积三角形

答案是正确的，并解释了得出结论所使用的方法。但是，解决方案中没有包含任何公式或计算，这很好，因为这不是要求的。但是，这本来是一个很好的补充，DeepSeek 确实提供了这一点。现在让我们看看原因：