20.39 MB
08 PPO算法整体思路解析_ev.mp42023-12-20
18.70 MB
07 importance sampling的作用_ev.mp42023-12-20
16.36 MB
06 OnPolicy与OffPolicy策略_ev.mp42023-12-20
14.08 MB
05 baseline方法_ev.mp42023-12-20
18.05 MB
04 策略梯度推导_ev.mp42023-12-20
20.35 MB
03 要完成的目标分析_ev.mp42023-12-20
18.47 MB
02 与环境交互得到所需数据_ev.mp42023-12-20
21.74 MB
01 基本情况介绍_ev.mp42023-12-20