当前位置:K88软件开发文章中心电脑基础基础应用20 → 文章内容

学界 | 分离特征抽取与决策制定,如何用6-18个神经元玩转Atari游戏

减小字体 增大字体 作者:华军  来源:华军资讯  发布时间:2019-3-19 22:32:57

原标题:学界 | 分离特征抽取与决策制定,如何用6-18个神经元玩转Atari游戏选自arXiv机器之心编译参与:路本论文提出了一种在复杂的强化学习设置中同时又独立地学习策略和表征的新方法,通过基于向量量化和稀疏编码的两种新方法来实现。这使得仅包含 6 到 18 个神经元的网络也可以玩转 Atari 游戏。在深度强化学习中,大型网络在直接的策略逼近过程中,将会学习如何将复杂的高维输入(通常可见)映射到动作。当一个拥有数百万参数的巨型网络学习较简单任务时(如玩 Qbert 游戏),学到的内容中只有一小部分是实际策略。一个常见的理解是网络内部通过前面层级学习从图像中提取有用信息(特征),这些底层网络将像素映射为中间表征,而最后(几)层将表征映射至动作。因此这些策略与中间表征同时学习得到,使得独立地研究策略几乎不可能。将表征学习和策略学习分离方能独立地研究二者,这潜在意义上能够使我们对现存的任务及其复杂度有更清晰的理解。本论文就朝着这个目标前进,作者通过实现一个独立的压缩器(即特征提取器)将特征提取和决策分离开来,这个压缩器在策略与环境互动中所获取的观测结果上进行在线训练。将网络从构建中间表征中解放出来使得网络可以专注于策略逼近,从而使更小的网络也能具备竞争力,并潜在地扩展深度强化学习在更复杂问题上的应用。该论文的主要贡献是提出一种在复杂的强化学习设置中同时又独立地学习策略特征的新方法。这通过基于向量量化(Vector Quantization,VQ)和稀疏编码(Sparse Coding,SC)的两种新方法来实现,研究者将这两种方法分别称为「Increasing Dictionary VQ」和「Direct Residuals SC」。随着训练继续、网络学习到更复杂的策略,网络与环境的复杂互动带来更多新的观测结果;特征向量长度的增长反映了这一点,它们表示新发现的特征。类似地,策略通过可解决维度增加问题的指数自然进化策略(Exponential Natural Evolution Strategy)进行训练。实验结果显示该方法可高效学习两种组件,从而仅使用 6 到 18 个神经元(神经元数量比之前的实现少了两个数量级)组成的神经网络就可以在多个 ALE 游戏中获得当前最优的性能,为专用于策略逼近的深度网络研究奠定了基础。

学界 | 分离特征抽取与决策制定,如何用6-18个神经元玩转Atari游戏