本文翻译自Cory House的博客文章。
React自2013年开源以来,逐步进化演变。当你在网上搜索它时,你会偶尔发现一些讲述过时方法的旧文章。本文就是讲述了团队中编写React组件时需要采取的八项关键决策。
继续阅读 »
什么是强化学习
简单通俗来讲就是Agent在Environment中探索找到最优策略Policy,使得Reward最多的学习策略(游戏)。它是一个MDP(Markov Decision Process)马尔可夫决策过程:一个状态$S_{t}$是MarKov当且仅当
$P(S_{t+1}|S_{t})=P(S_{t+1}|S_{t},S_{t-1},...,S_{0})$。再通俗点讲就是未来只取决于现在。
继续阅读 »