今年年底,高级推理模型的成果颇丰:OpenAI 刚刚宣布了o1 pro 模式,DeepSeek 发布了DeepSeek-R1-Lite-Preview,现在阿里巴巴又宣布了QwQ-32B-Preview 。
在我的上一篇文章中,我测试了 DeepSeek-R1-Lite-Preview。现在,我在 QwQ-32B-Preview 上运行相同的测试,以比较结果并评估其性能。
开发人工智能应用程序
学习使用 OpenAI API 构建 AI 应用程序。
QwQ-32B-Preview 是什么?
QwQ-32B-Preview 是一个用于处理高级推理任务的模型,它超越了 菲律宾赌博数据 简单的文本理解。它旨在解决编码和数学推理等具有挑战性的问题。作为“预览”版本,它仍在完善中。它在 Hugging Face 等平台上具有开源访问权限,因此您可以根据需要测试、改进和反馈模型!
需要注意的是,QwQ-32B-Preview 是一个实验模型。虽然它很有前景,但也有一些重要的局限性:
混合语言:模型可能会意外地在语言之间切换,从而导致其响应不太清晰。
循环论证:有时会陷入重复的推理循环,导致长篇大论的回答而没有明确的结论。
安全问题:该模型仍需要更强大的安全功能以确保可靠和安全的使用,因此建议在部署时谨慎行事。
性能差距:事实证明它在数学和编码方面表现良好,但在常识推理和理解细微的语言细微差别等领域还有待改进。
如何访问 QwQ-32B-Preview?
您可以通过HuggingChat访问 QwQ-32B-Preview ,目前它以非量化方式免费运行。要使用 QwQ-32B-Preview:
从可用型号中选择QwQ-32B-Preview
开始与模型交互
HuggingFace 聊天
草莓测试
我们先从著名的草莓测试开始。提示是:“‘草莓’中字母‘r’出现了多少次?”
QwQ-32B 上的草莓测试-预览
对的,这已经变得有趣了!
它确实正确地计算了字母数量,但它错误地指出“r”出现在第三、第七和第八个位置,这是不正确的。正确的位置是第三、第八和第九个。作为参考,这是 DeepSeek 正确处理的事情。
让我们仔细看看QwQ-32B-Preview的推理:
草莓测试-推理
QwQ-32B-Preview 的推理比 DeepSeek 提供的推理短得多。但是,在这种情况下,在计算字母时,它没有考虑它们的位置,我猜这就是它出错的原因。这很有趣,因为它提供了这些信息,尽管这些信息不是必需的——我没有要求“r”的位置,只要求出现次数。提供额外的、不必要的信息最终会导致错误。
数学推理
为了测试模型的数学推理,我们将执行三个复杂程度不同的测试。
三角面积
提示是:“如果一个三角形的边长为 3、4 和 5,那么它的面积是多少?”让我们看看它如何处理这个问题:
面积三角形
答案是正确的,并解释了得出结论所使用的方法。但是,解决方案中没有包含任何公式或计算,这很好,因为这不是要求的。但是,这本来是一个很好的补充,DeepSeek 确实提供了这一点。现在让我们看看原因:
我测试了 QwQ-32B-Preview:阿里巴巴的推理模型
-
- Posts: 344
- Joined: Mon Dec 23, 2024 5:01 am