基于双层LSTM与动态规划算法的非完备信息预测模型-0

发布于 2020-04-26  58 次阅读


基于双层LSTM与动态规划算法的非完备信息预测模型

BoogieLing'o1

关键词:日本麻将,强化学习,非完备信息,预测算法,长短时神经网络,动态规划

 0摘要

在本文中,作者以日本竞技麻将为例,介绍了一种在非完备信息游戏中进行实时预测的方法。在以往对麻将游戏的研究中,大多数的算法侧重于利用自身信息进行最高收益的选择,导致对对局中其他对手的动作因素的敏感度过低。针对上述问题,提出了一种基于双层LSTM与动态规划算法相结合的预测模型,该模型首先对对局信息进行编码,形成52维的动作张量,再使用动态规划算法判断激活条件,最后将动作张量根据留出法输入到双层LSTM网络,实现对对手的听牌目标预测。实验结果表明,该方法与单层RNN、BP网络等模型相比预测精度更高,与深度搜索等方法相比运行成本更低。验证了该模型的有效性与合理性。

1概述

博弈问题体现在人们生活中的方方面面,从市场中的“出售-购买”现象到货商之间的价格竞争都属于博弈问题。而对于众多的博弈问题,大致可以分为完备信息博弈和非完备信息博弈。完备信息博弈意味着在博弈过程中每个参与人对其他人的状态信息有着完全的了解,例如五子棋、象棋、围棋等竞技活动都属于完备信息博弈,对局中每个选手都对双方的动作、对局的进行等信息有完全的掌握。而非完备信息博弈中,每个参与人都只能获取到自身的信息以及一部分的公共信息,例如麻将等竞技活动都属于非完备信息博弈。(-----)

 

喜欢这篇文章吗,不妨分享给朋友们吧!

科学是第一生产力