DeepSeek 刚刚推出了DeepSeek-R1-Lite-Preview模型,有人声称它甚至比 OpenAI 的o1-preview模型还要好。这是否只是 AI 炒作的又一波浪潮?
我在网上看到过关于该模型卓越推理能力和透明决策的大胆言论。据说它在复杂任务(尤其是数学和编码)中表现出色,据报道在 AIME 和 MATH12 等严格基准测试中匹敌甚至超越了 OpenAI 的 o1 预览版。
我很好奇,所以我决定亲自在编码挑战、高级数学问题和自然语言处理上测试这些说法。让我们看看 DeepSeek-R1-Lite-Preview 到底有多好。
开发人工智能应用程序
学习使用 OpenAI API 构建 AI 应用程序。
什么是 DeepSeek-R1-Lite-Preview?
DeepSeek-R1-Lite-Preview 是一款类似于ChatGPT的 AI 工具,由中国公 挪威赌博数据 司 DeepSeek 创建。该公司于 11 月 20 日在X上宣布了这一新模型(推文链接),并在文档页面上分享了一些细节。
deepseek 公告
DeepSeek-R1-Lite-Preview 旨在真正擅长解决数学、编码和逻辑方面的复杂推理问题。它会逐步向您展示它的思考方式,以便您了解它如何得出答案,这有助于人们更加信任它。
您可以免费在其网站chat.deepseek.com上试用,但在其高级模式“深度思考”中,您每天只能发送 50 条消息。DeepSeek 还计划向公众分享该工具的部分功能,以便其他人可以使用或在此基础上进行开发。
如何使用 DeepSeek-R1-Lite-Preview
您可以按照以下两个步骤开始使用 DeepSeek-R1-Lite-Preview:
访问DeepSeek 聊天页面并登录。
启用“深度思考”。
deepseek 聊天中的深度思考选项
草莓测试
要了解 DeepSeek-R1-Lite-Preview 的功能,让我们来测试一下!我将进行一系列挑战,展示其推理能力,首先是简单但著名的草莓问题:字母“r”在“strawberry”中出现了多少次?
这个问题看起来很简单,但 LLM(甚至GPT-4o )历来都很难正确回答它——他们通常回答字母“r”只出现了两次。
deepseek deepthink 关于著名的草莓问题
deepseek deepthink 关于著名的草莓问题
哇,好吧——我没想到这个看似简单的任务竟然需要这么长的推理过程。我以为在数完字母“r”并确定它在单词中的位置后,它就会停在那里。但令我感兴趣的是,它并没有就此止步。它反复检查了几次计数,甚至考虑了人们可能会如何发音或拼写这个单词等问题——我认为这有点多余,尤其是发音部分。但这确实表明它是多么细心和周到!它还解释了每一步,这样我就可以跟上它的思维过程,看看它是如何得出答案的。
数学推理
我将通过三个数学问题测试 DeepSeek-R1-Lite-Preview。
三角面积
鉴于 DeepSeek 声称自己非常擅长数学推理,让我们从一个简单的几何问题开始吧。
“如果一个三角形的边长为 3、4 和 5,那么它的面积是多少?”
这个问题需要毕达哥拉斯定理和海伦公式的知识。我希望 DeepSeek-R1-Lite-Preview 能够展示其工作,可能像这样:
识别出这是 3-4-5 直角三角形
计算半周长:s = (3 + 4 + 5) / 2 = 6
应用海伦公式:面积 = √(s(sa)(sb)(sc))
替换值:面积 = √(6(6-3)(6-4)(6-5)) = √(6 * 3 * 2 * 1) = √36 = 6
验证:直角三角形面积 = (底边 * 高) / 2 = (3 * 4) / 2 = 6
让我们看看会发生什么!
我测试了 DeepSeek R1 Lite 预览版,看看它是否比 O1 更好
-
- Posts: 317
- Joined: Mon Dec 23, 2024 5:02 am