DevilKing's blog

冷灯看剑，剑上几分功名？炉香无需计苍生，纵一穿烟逝，万丈云埋，孤阳还照古陵

Home
Categories
Tags
Archives

0%

Q-learning

Posted on 2021-02-04 In ML

通过reward值，可以形成矩阵

将agent的每一次探索称为一个episode，即从任意初始状态到达目标状态

# ML

© 2024 gqlxj1987

Powered by Hexo & NexT.Mist