技术研究
打开思考模式,到底发生了什么?
当我们在AI Chatbot上打开思考模式,背后发生了什么?
当我们在AI ChatBot上打开思考模式,到底发生了什么?
例如:DeepSeek 点击“深度思考”、Qwen选择 “思考”、Gemini 选择“Thinking”、...
简单来说,做了模型路由/切换:
- 关闭思考模式:由 通用对话模型 服务
- 打开思考模式:由 推理模型 服务
一、通用对话模型 vs 推理模型
- 通用对话模型:本质上是一种核心的 "预测下一个token" 的模型。
- 推理模型:经过了专门的训练 或 提示词工程优化,使其在推理过程中投入更多的计算资源,用于执行中间步骤的逻辑推理、结果验证
举个例子,当你输入一个指令:
“帮我优化一下我的简历,我的简历内容是:
- 负责公司的销售工作,业绩很好。
- 带过几个人,管理过团队。
- 熟悉办公软件。”
A. 通用对话模型:
像一个资深文案编辑,做润色和扩写,直接输出结果:
工作经历
- 销售业绩:负责公司核心销售业务,显著提升业绩表现,达成年度销售目标。
- 团队管理:带领销售团队,负责人员管理与任务分配,提升团队凝聚力。
- 技能特长:熟练掌握 Office 等办公软件,具备良好的文档处理能力。
B. 推理模型:
职业规划顾问 + 资深编辑:不仅改了文字,还指出了逻辑漏洞,提供了战略指导:
第一步、先进行思考
- 分析现状:用户提供的简历太笼统。“业绩很好”是主观描述,缺乏数据;“带过几个人”不明确。
- 识别风险:这样的简历在筛选环节容易被淘汰,因为缺乏量化成果(STAR 原则缺失)。
- 制定策略:
- 不能只改词,要引导用户补充数据。
- 需要把“熟悉办公软件”这种基础技能弱化或具体化。
- 需要把“管理”具体化为“招聘、培训、绩效”等动作。
- 规划输出:先给出修改建议,再给出修改后的版本,并解释为什么这么改。
- 自我反思:我是不是太严厉了?要不要给一个“保守版”和一个“进取版”?算了,先给最佳实践版,并提示用户补充数据。
第二步、输出:
💡 优化建议(重要): 您的原简历过于笼统,HR 无法评估您的真实能力。建议补充以下数据:
- 业绩提升了多少百分比?销售额具体是多少?
- 团队具体多少人?离职率有降低吗? 📝 优化后版本(基于假设数据):
- 销售业绩:主导区域销售业务,年度销售额达 500 万,同比增长 30%,连续两年获得 Top Sales 称号。
- 团队管理:管理10 人销售团队,通过优化培训体系,将新人留存率提升 20%。
- 技能特长:精通 Excel 数据透视表及 PPT 商业汇报,能通过数据分析驱动销售决策。
哇塞!推理模型真牛逼!
二、既然推理模型强,为何实际应用中不始终开启?
大模型领域的“不可能三角”:成本、时效、质量 不可兼得。
第一、速度:推理模型慢
推理模型需要“先思考,再回答”,这带来了不可避免的延迟。
比如:你在做客服机器人,用户问“怎么退款?”。
- 通用模型:秒回步骤,用户满意。
- 推理模型:用户盯着屏幕转圈圈等了 10 秒,看到一行“正在思考如何退款...",然后才出答案。用户可能早就关闭页面了。
第二、成本:推理模型贵
推理模型的“思考过程”也是要算钱的(消耗 Token)
比如:上面提到的简历优化例子
- 通用模型:雇佣了一个资深文案编辑
- 推理模型:雇佣了职业规划顾问,自然更贵
第三、体验:太啰嗦
推理模型为了追求准确,往往会过度理性
比如:你想听个笑话放松一下。
- 通用模型:直接讲个笑话,你哈哈一笑。
- 推理模型:先分析“笑话的结构应该是... 这个笑话的笑点在于...",然后讲笑话。你还笑的出来吗?
三、决策指南:如何选择
1. 我们可以把大模型类比为同事
- 通用模型:优秀实习生。薪资低、啥都会一点、态度好响应快
- 推理模型:领域专家。价格贵、逻辑控、需要制定完整方案才回复
2. 然后以终为始,根据业务场景和问题复杂度进行选择
- 优秀实习生适合处理:内容摘要、翻译、格式转化、闲聊
- 领域专家适合处理:策略分析、深度研究