|
[技术]【计划】扫雷AI开发初步计划:目的、可行性、安全性 (10/979) |
|
|
|
|
目的:(1)闲着没事观看AI在与人类相同条件下的决策过程。(2)找到人类玩家目前的技术短板。(3)了解DRL算法能否用于伪造录像。 目标:依托黑猫扫雷软件,将AI模块嵌入其中。最终可以在黑猫扫雷里方便地观看AI如何扫雷。 算法:基于pytorch开发。方案一:状态为2通道矩阵,记录局面状态和鼠标位置;动作为3通道矩阵,代表在局面中相应位置的L/R/D操作,环境为标准扫雷规则,采用PPO算法。方案二:状态为2通道矩阵,记录局面状态和鼠标位置;动作为3维连续量,代表在局面中(x,y)位置的L/R/D操作,用连续动作空间强化学习代替混合动作空间(位置是连续量,点哪个键是离散量)强化学习,采用TD3算法。环境为标准扫雷规则。方案三:采用PPO+TD3混合算法(双智能体合作博弈)求解此混合动作空间强化学习模型。 安全性:对网络参数加密,加密、解密、训练文件不开源。因此只有在黑猫扫雷能观看,无法用于制作攻击Arbiter的AI。 难点:(1)在实践层面,软件直接打包体积可能过大(约2G),看接受程度视情况优化。(2)方案一为离散动作解决方案,与alphago的设计思路相似,缺点是状态、动作维度极高,分别为960、1220维,收敛慢。方案二维度为960、3维,缺点是用连续动作空间强化学习代替混合动作空间强化学习,收敛性缺少证明。貌似方案三最好没有缺点。 示意图如下图所示。
|
|
可以依托服务器计算,不给客户端下放ai程序,服务器也可以保存每局数据防止被滥用
|
|
计算拟定用个人PC的算力,大约要算几天。国内免费服务器的算力比较弱,谷歌的服务器只能用12小时。客户端计划放一份加密的参数文件,大约几兆。就是说拟定神经网络结构公开,但参数不公开,训练出该参数的模块也不公开。
|
|
铲来,虽然计划没什么声音了,但还是羡慕有计划就能出东西的各位
|
|
纯脑洞,设置path扣分的话会不会出现训练到最后AI发现不扫是最优解的情况(x
|
|
回楼上,奖励(reward)的设置正是强化学习里很重要的东西
|
|
|
|