返回手记列表
技术研究

打开思考模式,到底发生了什么?

当我们在AI Chatbot上打开思考模式,背后发生了什么?

当我们在AI ChatBot上打开思考模式,到底发生了什么?

例如:DeepSeek 点击“深度思考”、Qwen选择 “思考”、Gemini 选择“Thinking”、...

简单来说,做了模型路由/切换

  • 关闭思考模式:由 通用对话模型 服务
  • 打开思考模式:由 推理模型 服务

一、通用对话模型 vs 推理模型

  • 通用对话模型:本质上是一种核心的 "预测下一个token" 的模型。
  • 推理模型:经过了专门的训练 或 提示词工程优化,使其在推理过程中投入更多的计算资源,用于执行中间步骤的逻辑推理、结果验证

举个例子,当你输入一个指令:

“帮我优化一下我的简历,我的简历内容是:

  1. 负责公司的销售工作,业绩很好。
  2. 带过几个人,管理过团队。
  3. 熟悉办公软件。”

A. 通用对话模型:

像一个资深文案编辑,做润色和扩写,直接输出结果:

工作经历

  • 销售业绩:负责公司核心销售业务,显著提升业绩表现,达成年度销售目标。
  • 团队管理:带领销售团队,负责人员管理与任务分配,提升团队凝聚力。
  • 技能特长:熟练掌握 Office 等办公软件,具备良好的文档处理能力。

B. 推理模型:

职业规划顾问 + 资深编辑:不仅改了文字,还指出了逻辑漏洞,提供了战略指导:

第一步、先进行思考

  1. 分析现状:用户提供的简历太笼统。“业绩很好”是主观描述,缺乏数据;“带过几个人”不明确。
  2. 识别风险:这样的简历在筛选环节容易被淘汰,因为缺乏量化成果(STAR 原则缺失)。
  3. 制定策略:
  • 不能只改词,要引导用户补充数据。
  • 需要把“熟悉办公软件”这种基础技能弱化或具体化。
  • 需要把“管理”具体化为“招聘、培训、绩效”等动作。
  1. 规划输出:先给出修改建议,再给出修改后的版本,并解释为什么这么改。
  2. 自我反思:我是不是太严厉了?要不要给一个“保守版”和一个“进取版”?算了,先给最佳实践版,并提示用户补充数据。

第二步、输出:

💡 优化建议(重要): 您的原简历过于笼统,HR 无法评估您的真实能力。建议补充以下数据:

  1. 业绩提升了多少百分比?销售额具体是多少?
  2. 团队具体多少人?离职率有降低吗? 📝 优化后版本(基于假设数据):
  • 销售业绩:主导区域销售业务,年度销售额达 500 万,同比增长 30%,连续两年获得 Top Sales 称号。
  • 团队管理:管理10 人销售团队,通过优化培训体系,将新人留存率提升 20%。
  • 技能特长:精通 Excel 数据透视表及 PPT 商业汇报,能通过数据分析驱动销售决策。

哇塞!推理模型真牛逼!

二、既然推理模型强,为何实际应用中不始终开启?

大模型领域的“不可能三角”:成本、时效、质量 不可兼得。

第一、速度:推理模型慢

推理模型需要“先思考,再回答”,这带来了不可避免的延迟。

比如:你在做客服机器人,用户问“怎么退款?”。

  • 通用模型:秒回步骤,用户满意。
  • 推理模型:用户盯着屏幕转圈圈等了 10 秒,看到一行“正在思考如何退款...",然后才出答案。用户可能早就关闭页面了。

第二、成本:推理模型贵

推理模型的“思考过程”也是要算钱的(消耗 Token)

比如:上面提到的简历优化例子

  • 通用模型:雇佣了一个资深文案编辑
  • 推理模型:雇佣了职业规划顾问,自然更贵

第三、体验:太啰嗦

推理模型为了追求准确,往往会过度理性

比如:你想听个笑话放松一下。

  • 通用模型:直接讲个笑话,你哈哈一笑。
  • 推理模型:先分析“笑话的结构应该是... 这个笑话的笑点在于...",然后讲笑话。你还笑的出来吗?

三、决策指南:如何选择

1. 我们可以把大模型类比为同事

  • 通用模型:优秀实习生。薪资低、啥都会一点、态度好响应快
  • 推理模型:领域专家。价格贵、逻辑控、需要制定完整方案才回复

2. 然后以终为始,根据业务场景和问题复杂度进行选择

  • 优秀实习生适合处理:内容摘要、翻译、格式转化、闲聊
  • 领域专家适合处理:策略分析、深度研究