第一章习题参考答案 By 安妮的心动录 #490
Unanswered
anneheartrecord
asked this question in
💬 Exercises & Q&A
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
第一章 习题参考答案
1. 请分析以下四个 case 中的主体是否属于智能体,如果是,那么属于哪种类型的智能体(可以从多个分类维度进行分析),并说明理由:
case A:一台符合冯·诺依曼结构的超级计算机,拥有高达每秒 2EFlop 的峰值算力
case B:特斯拉自动驾驶系统在高速公路上行驶时,突然检测到前方有障碍物,需要在毫秒级做出刹车或变道决策
case C:AlphaGo在与人类棋手对弈时,需要评估当前局面并规划未来数十步的最优策略
case D:ChatGPT 扮演的智能客服在处理用户投诉时,需要查询订单信息、分析问题原因、提供解决方案并安抚用户情绪
case A: 一台符合冯·诺依曼结构的超级计算机
结论:不属于智能体。
原因:
case B: 特斯拉自动驾驶系统
结论:属于智能体,属于现实世界控制型智能体。
原因:
case C: AlphaGo
结论:属于智能体,属于特定回合制场景、目标驱动的智能体。
理由:
与自动驾驶不同,AlphaGo 所处环境是离散、回合制、规则明确的。它仍然是智能体,只是任务环境比现实世界封闭得多。
case D: ChatGPT 扮演的智能客服
结论:有争议,如果处理步骤是定义好的workflow则不属于智能体;如果它能自主完成处理流程,则可以视为智能体。
理由:
2.假设你需要为一个"智能健身教练"设计任务环境。这个智能体能够:
通过可穿戴设备监测用户的心率、运动强度等生理数据
根据用户的健身目标(减脂/增肌/提升耐力)动态调整训练计划
在用户运动过程中提供实时语音指导和动作纠正
评估训练效果并给出饮食建议
请使用 PEAS 模型完整描述这个智能体的任务环境,并分析该环境具有哪些特性(如部分可观察、随机性、动态性等)。
P: Performance Measure
性能指标需要可量化、可追踪。
E: Environment
环境不仅是训练发生的地点,还包括影响决策的一切外部因素。
A: Actuators
执行器是智能体对外界施加影响的手段。
S: Sensors
传感器是智能体获取信息的来源。
任务环境特性分析
3. 某电商公司正在考虑两种方案来处理售后退款申请:
方案 A(Workflow):设计一套固定流程,例如:
A.1 对于一般商品且在 7 天之内,金额 < 100RMB 自动通过;100-500RMB 由客服审核;>500RMB 需主管审批;而特殊商品(如定制品)一律拒绝退款
A.2 对于超过 7 天的商品,无论金额,只能由客服审核或主管审批;
方案 B(Agent):搭建一个智能体系统,让它理解退款政策、分析用户历史行为、评估商品状况,并自主决策是否批准退款
请分析:
这两种方案各自的优缺点是什么?
在什么情况下 Workflow 更合适?什么情况下 Agent 更有优势?如果你是该电商公司的负责人,你更倾向于采用哪种方案?
是否存在一个方案 C,能够结合两种方案,达到扬长避短的效果?
两种方案的优缺点
什么情况下 Workflow 更合适
什么情况下 Agent 更有优势
如果我是负责人,我的选择
我不会直接选纯 Workflow,也不会直接选纯 Agent,而是会选择方案 C:Workflow 为骨架,Agent 做辅助分析。
原因:
方案 C: 分层混合架构
这种方案的好处是:
4.在 1.3 节的智能旅行助手基础上,请思考如何添加以下功能(可以只描述设计思路,也可以进一步尝试代码实现):
提示:思考如何修改 Thought-Action-Observation 循环来实现这些功能。
添加一个"记忆"功能,让智能体记住用户的偏好(如喜欢历史文化景点、预算范围等)
当推荐的景点门票已售罄时,智能体能够自动推荐备选方案
如果用户连续拒绝了 3 个推荐,智能体能够反思并调整推荐策略
功能一:记住用户偏好
设计思路:在
Thought-Action-Observation循环外增加记忆层。Thought前先检索记忆,将相关偏好注入上下文。示意流程:
功能二:门票售罄时自动推荐备选方案
关键点:把失败变成新的观察结果,而不是直接结束Loop。
check_ticket_availability工具。Thought。可使用一个简单候选策略:
功能三:连续拒绝 3 次后反思并调整策略
这里需要给系统显式加失败统计和反思策略。
rejection_count。reflection step,总结之前推荐为何失败。反思内容可包括:
伪代码如下:
核心思想不是循环更多次,而是在循环中让系统学会根据失败修正策略。
5. 卡尼曼的"系统 1"(快速直觉)和"系统 2"(慢速推理)理论[2]为神经符号主义 AI 提供了很好的类比。请首先构思一个具体的智能体的落地应用场景,然后说明场景中的:
提示:医疗诊断助手、法律咨询机器人、金融风控系统等都是常见的应用场景
哪些任务应该由"系统 1"处理?
哪些任务应该由"系统 2"处理?
这两个系统如何协同工作以达成最终目标?
这里以医疗诊断助手为例。
哪些任务适合系统 1
系统 1 适合处理高频、标准化、低风险、可快速判断的任务:
哪些任务适合系统 2
系统 2 适合处理复杂、高风险、需要多步推理和证据整合的任务:
两个系统如何协同
可以把系统 1 作为快速前置层,把系统 2 作为升级处理层。
简化伪代码:
6.尽管大语言模型驱动的智能体系统展现出了强大的能力,但它们仍然存在诸多局限。请分析以下问题:
为什么智能体或智能体系统有时会产生"幻觉"(生成看似合理但实际错误的信息)?
在 1.3 节的案例中,我们设置了最大循环次数为 5 次。如果没有这个限制,智能体可能会陷入什么问题?
如何评估一个智能体的"智能"程度?仅使用准确率指标是否足够?
为什么会产生幻觉
根因是:LLM 本质上是概率生成模型,不是显式事实数据库。
因此,幻觉不是偶发现象,而是基于Transformer结构下LLM模型机制的自然副产物,只能缓解,难以彻底消除。
如果没有最大循环次数,会有什么问题
至少会出现三类问题:
在工具调用场景中,还可能出现死循环,例如:
如何评估一个智能体的“智能”程度
仅用准确率远远不够。
更完整的评估框架至少应包含:
准确率只能回答答得对不对,但智能体的真实价值还取决于它是否安全、稳定、经济、可控、可恢复。
Beta Was this translation helpful? Give feedback.
All reactions