【计划】扫雷AI开发初步计划：目的、可行性、安全性

首页

排行榜

录像

雷界

论坛

教程

雷神殿

我的地盘

新手上路

[技术]【计划】扫雷AI开发初步计划：目的、可行性、安全性 (10/1209)

　[雷神] 王嘉宁发表于 2021年2月3日

目的：（1）闲着没事观看AI在与人类相同条件下的决策过程。（2）找到人类玩家目前的技术短板。（3）了解DRL算法能否用于伪造录像。
目标：依托黑猫扫雷软件，将AI模块嵌入其中。最终可以在黑猫扫雷里方便地观看AI如何扫雷。
算法：基于pytorch开发。方案一：状态为2通道矩阵，记录局面状态和鼠标位置；动作为3通道矩阵，代表在局面中相应位置的L/R/D操作，环境为标准扫雷规则，采用PPO算法。方案二：状态为2通道矩阵，记录局面状态和鼠标位置；动作为3维连续量，代表在局面中（x，y）位置的L/R/D操作，用连续动作空间强化学习代替混合动作空间（位置是连续量，点哪个键是离散量）强化学习，采用TD3算法。环境为标准扫雷规则。方案三：采用PPO+TD3混合算法（双智能体合作博弈）求解此混合动作空间强化学习模型。
安全性：对网络参数加密，加密、解密、训练文件不开源。因此只有在黑猫扫雷能观看，无法用于制作攻击Arbiter的AI。
难点：（1）在实践层面，软件直接打包体积可能过大（约2G），看接受程度视情况优化。（2）方案一为离散动作解决方案，与alphago的设计思路相似，缺点是状态、动作维度极高，分别为960、1220维，收敛慢。方案二维度为960、3维，缺点是用连续动作空间强化学习代替混合动作空间强化学习，收敛性缺少证明。貌似方案三最好没有缺点。
示意图如下图所示。

最近一次修改:2021-2-6 1:19:45

回复此主题

第 1 楼

　[雷神] 苗晓正回复于 2021年2月3日

大的！

第 2 楼

　[雷圣] 濮天羿回复于 2021年2月3日

可以依托服务器计算，不给客户端下放ai程序，服务器也可以保存每局数据防止被滥用

第 3 楼

　[雷神] 王嘉宁回复于 2021年2月3日

计算拟定用个人PC的算力，大约要算几天。国内免费服务器的算力比较弱，谷歌的服务器只能用12小时。客户端计划放一份加密的参数文件，大约几兆。就是说拟定神经网络结构公开，但参数不公开，训练出该参数的模块也不公开。

第 4 楼

　[状元] 龚秋源回复于 2021年2月5日

支持，期待进一步成果

第 5 楼

　[雷神] 苗晓正回复于 2021年4月8日

铲来，虽然计划没什么声音了，但还是羡慕有计划就能出东西的各位

第 6 楼

　[雷神] 苗晓正回复于 2021年4月8日

btw,path扣分好餐饮，无情！

第 7 楼

　[雷神] 王嘉宁回复于 2021年4月8日

这个计划要等黑猫扫雷基本稳定以后才能实施

第 8 楼

　[雷神] 王嘉宁回复于 2021年4月8日

然后要看放多少假

第 9 楼

　[雷圣] 翁逸杰回复于 2021年4月8日

纯脑洞，设置path扣分的话会不会出现训练到最后AI发现不扫是最优解的情况（x

第 10 楼

　[雷神] 王嘉宁回复于 2021年4月9日

回楼上，奖励（reward）的设置正是强化学习里很重要的东西

　　共 10 篇回复首页 | 上一页 | 下一页 | 末页现在是第 1/1 页

楼主信息

赞助广告

近期不再显示