q学习算法

admin 2020-05-23 03:37:31 学科 10 0

本文简要介绍了强化学习及其重要概念和术语,并重点介绍算法和算法。强化学习是指一种机器学习方法,其中,代理在下一个时间步中收到延迟的奖励(对上一步的评估)。该方法主要用于Atari,Mario等游戏中,性能可与人类媲美,甚至超越人类。近年来,随着神经网络的结合,该算法得到了不断发展,并且已经能够解决更复杂的任务,例如摆问题。尽管有大量的强化学习算法,但似乎没有一篇全面的文章比较它们。每当我需要决定将哪种算法应用于特定任务时,都会使我感到困惑。本文旨在通过简要讨论强化学习的设置来解决此问题,并简要介绍一些众所周知的算法。强化学习简介一般来说,强化学习的设置包括两个部分,一个是主体,另一个是环境。强化学习图形环境是指代理执行动作的场景(例如Atari游戏中的游戏本身),并且代理表示强化学习算法。环境首先将状态发送给代理,然后代理根据其知识采取行动以响应该状态。之后,环境发送下一个状态并将奖励返回给代理。代理使用环境返回的奖励来更新其知识并评估最后的操作。该循环一直持续到环境发送终止状态以结束事件为止。大多数强化学习算法都遵循这种模式。下面我将简要介绍强化学习中的一些术语,以促进下一节的讨论。定义动作:代理可以采取的所有可能的动作。状态:环境返回的当前状态。奖励:环境的立即返回值,用于评估代理的最后操作。策略(π):代理根据当前状态决定下一个动作的策略。价值:折现下的长期预期收益与代表的短期收益有所区别。 π定义为策略π下当前状态的预期长期回报值。值或动作值:值类似于值,不同之处在于它还有一个参数,即当前动作。 π表示在π策略下采取行动的当前状态的长期回报。基于无模型的基于模型的模型是指环境的动态模拟,即该模型学习从当前状态和动作到下一个状态的转移概率。

相关推荐

网友评论

  • (*)

最新评论