- Joy RL:强化学习实践教程
- 江季 王琦 杨毅远
- 502字
- 2025-05-19 16:15:09
1.3.4 实时环境
实时环境(real-time environment)是指在实际应用中,智能体往往需要在实时或者在线环境中进行决策。在这种情况下训练不仅会降低效率(实时环境中响应动作更慢),还会带来安全隐患(训练过程中可能会出现意外)。
解决这一问题的方法之一就是离线强化学习(offline reinforcement learning),即在离线环境中进行训练,然后将训练好的模型部署到在线环境中进行决策。但这种方法也存在一定的问题,例如离线环境和在线环境之间可能存在分布漂移,即两个环境的状态分布不同,这就会导致训练好的模型在在线环境中可能会出现意外。
另外还有一种近两年比较流行的方法——世界模型(world model),即在离线环境中训练一个世界模型,然后将世界模型部署到在线环境中进行决策。世界模型的思路是将环境分为两个部分,一个部分是世界模型,另一个部分是控制器。世界模型的作用是预测下一个状态,而控制器的作用是根据当前的状态来决策动作。这样就可以在离线环境中训练世界模型,然后将世界模型部署到在线环境中进行决策,从而避免了在线环境中的训练过程,提高了效率,同时避免了在线环境中的安全隐患。
但世界模型也存在一定的问题,例如世界模型的预测误差会导致控制器的决策出错,因此如何提高世界模型的预测精度也是一个难题。