登录 [F2] | 注册 | 找回密码 | 软件下载 | 更新历史 | 关于本站 | 管理团队
首页 排行榜 录像 雷界 论坛 教程 雷神殿 我的地盘 新手上路
[技术]信息熵与局面难度可能存在关系.精 (9/1536)
 [雷神] 王嘉宁 发表于 2019年3月2日
摘要:采用图像处理领域方法,引入信息熵研究雷图。研究表明,雷图的3BV越大,则信息熵越小;3BV相同,信息熵越大,局面看起来越难。雷图信息熵作为一个易于求得、意义明确的特征值,在未来有望成为计算或衡量局面难度的重要工具。
关键词:信息熵,局面难度,图像处理方法
1.    信息熵的算法与含义
作者首先通过算法随机生成雷图,1代表雷,0代表非雷;将矩阵的边界延拓,然后对雷图3*3均值滤波后乘9;最后用公式entropy=-∑p(i)log(2,p(i)),i=0,2,…,9计算信息熵,其中p(i)表示数字i在该雷图中的比例。

最初熵在热力学领域被用来表示系统的混乱程度。后来被引入信息论领域用来定量表达信息量的大小。计算雷图的信息熵相当于定量描述雷图的“混乱程度”,对于指定的雷图,如果局面中只有1,那么计算得到的信息熵最小,如果数字0到9都出现且出现次数相同,那么计算得到的信息熵最大。

初次了解这个概念的雷友需要注意,信息熵的值只和数字的数量有关,而与数字的位置无关。
2.    信息熵与3BV关系
 
图1
如图,通过计算10000组(信息熵,3BV)值,可得,3BV越大,则信息熵越小。

将相同3BV,不同信息熵的雷图进行比较,图2为(173,2.078);
 
图2
图3为(173,2.385)
 
图3
图2中有约17块OP,而图3中有约3块,作者认为他们的难度是不同的。目前已有计算局面难度算法,只能通过计算扫开后的3BV/S与个人平均3BV/S的比值。本文提出的计算信息熵的方法,可能可以无需扫开就事先计算局面难度。
3.    其他计算局面难度的思路与未来展望
谈到局面难度就不得不提起猜雷次数这个重要的特征值。目前在公开的文献中没有相关算法。这个问题将在以后被重点研究。

作者放弃的一个思路是,对雷图的每中3*3局部赋权,再加权求和。这种方法含义不明确,且权值难确定,遂放弃。

另一种思路是大量搜集同一玩家的录像,计算已知成绩的雷图的特征值,以特征值为输入,成绩为输出,训练神经网络。或者其他数据挖掘算法不再赘述。这个思路是可行的,但是有两个前提,一是选取雷图的若干特征值,上文提到的信息熵亦可成为输入神经网络的特征值之一;二是同一玩家的大量录像数据,目前没有,也不着急。
4.    结语

最近一次修改:2019-3-2 20:48:55
回复此主题
第 1 楼
 [状元] 龚秋源 回复于 2019年3月2日
雷网贴图编辑不易,能否给个完整编辑好的文章外链?
第 2 楼
 [雷神] 王嘉宁 回复于 2019年3月2日
把原word文件放在百度云;链接: https://pan.baidu.com/s/1xaWCV8NXIRAvrCV_pEc9cA 提取码: aphg 
第 3 楼
 [状元] 龚秋源 回复于 2019年3月2日
看完了,谈一下我的看法
1.关于熵的定义:我没有看懂“边界延拓,然后对雷图3*3均值滤波后乘9”是什么意思。比如一个给定的6*6局面,能否具体说一下是怎么计算的?
2.虽然没有透彻弄懂熵的定义,但我理解是:熵越大,局面越混乱,1-7各种数字可能都有而且比例相近;熵越小,局面越简单,全是1为主偶尔穿插几个其他小数字。如果局面全是1为主,明显比有各种4567的判雷来得简单,这是我理解的作者熵影响难度的原理,不知道理解的对不对。
3.如果上一点没错的话,那熵衡量的就是对大数字的敏感度。因为不熟练的玩家对大数字不敏感,周围雷型不熟悉,会造成判雷上的难度,使额外的时间用于思考。
4.关于举例的图2和图3:目前学界公认的是,op和is越少,局面越完整,越容易一口气解决;op和is越多代表3bv越零散,玩家也不得不移动鼠标去局面各个地方解决各个3bv,从而造成绕路及移动距离的增加,耗时增加。因此图2和图3,我觉得大部分雷友会觉得熵更大的图3更容易扫出好成绩。
5.因此,熵衡量的只是局面上大数字的种类及比例,但这个因素对于难度(指速度上的难度)的影响有待商榷。一般来说,高级45左右的玩家即不再惧怕大数字了,只要是能判的,和小数字是一样的。而45-80段可能或多或少有些影响,根据个人情况。80以上可能影响较大。
总结:作者提出了一个新的指标,用于衡量局面数字的混乱程度。但这个指标的实用性及具体意义尚需进一步确认。
附1:我隐约觉得熵和3bv以及op数量高度相关。作者有没有试过在控制3bv和op的情况下,熵取值范围波动是多少?
附2:关于局面难度的评判:目前有自动扫雷的算法,自动算出每一格概率。可以尝试让程序从同一个开局点自动扫,看看至少要几次猜,以及路线长度,作为衡量判雷上的难度。当然这计算量很大,只能用于单独分析,没法普遍应用于每一个局面计算。
第 4 楼
 [雷神] 王嘉宁 回复于 2019年3月3日
对于“边界延拓,然后对雷图3*3均值滤波后乘9”举例计算:
map=

[0 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1]
这个雷图有三个雷。编程时为避免讨论边界情况对其周围加一圈零。
map2=
[0 0 0 0 0 0
0 0 0 0 0 0
0 0 1 0 0 0
0 0 0 1 0 0
0 0 0 0 1 0
0 0 0 0 0 0]
均值滤波本意是取3*3范围内平均数,得
[0 0 0 0 0 0
0 1/9 1/9 1/9 0 0
0 1/9 2/9 2/9 1/9 0
0 1/9 2/9 1/3 2/9 1/9
0 0 1/9 2/9 2/9 1/9
0 0 0 1/9 1/9 1/9]
乘9后就得到我们熟知的雷图,只不过雷的位置也有数
[0 0 0 0 0 0
0 1 1 1 0 0
0 1 2 2 1 0
0 1 2 3 2 1
0 0 1 2 2 1
0 0 0 1 1 1]
最后去掉周围一圈
[1 1 1 0
1 2 2 1
1 2 3 2
0 1 2 2]
第 5 楼
 [雷神] 王嘉宁 回复于 2019年3月3日
感性的理解,“雷图的信息熵越大,局面越混乱,1-7各种数字可能都有而且比例相近;雷图的信息熵越小,局面越简单,全是1为主偶尔穿插几个其他小数字。”是正确的。
这个概念是常用的,其他地方应该有更加详实的表述。但我补充一个可能存在疑问。

有人可能会问,为什么信息越整齐,信息量就越少;越混乱信息量就越大?原因是这样的,“整齐”的信息信息量的减少,是通过合理的编码实现的。为便于快速理解,举例:
求3141572610的二进制的信息量,可能有人说,用000表示0,001表示1,010表示2,...,111表示7,这样得到信息量是3*10=30个字节。
但是现代信息论告诉我们,这样的编码不是最优的,由于数字“1”在10个数字里出现了3次,超过了1/4的概率,假如把编码方式改成00表示1,1110表示0,1111表示2,010表示3,011表示4,100表示5,101表示6,110表示7,则此时的信息量就为3*2+5*3+2*4=29个字节。

上述例子旨在说明信息量随编码方式变化,而且对于指定的一段信息,存在信息量最短的编码方式。
第 6 楼
 [雷神] 王嘉宁 回复于 2019年3月3日
op、is、3BV都是重要、直观地衡量局面难度的特征值这是无疑的。但我认为只有他们还不够,或者说还不够精准。

具体来说,op、is、3BV到底在何种程度上影响局面难度,谁的影响大,谁的影响小?是否对所有人都具有同等程度的影响?如果只控制这三个参数不变,是否就确实能控制时间相对不变,而不受其他因素的影响?这些问题目前都没有答案。

我给出的只是一个阶段性结论,之后会分析更多的特征值,最后综合比较(进展会很慢),这样一个思路。
第 7 楼
 [雷圣] 张少武 回复于 2019年3月4日
大佬们都像爱因斯坦一样想搞个统一场么……虽然很佩服,不过不确定量太多了。op和is对局面的影响也是不稳定的,不只是数量的问题,二者数量提高确实会让效率下降,但也会降低判雷难度,同时op的形状和位置也极大影响难度。数字就更不用说了……完全不知道怎么量化难度。大佬们任重而道远啊
第 8 楼
 [状元] 龚秋源 回复于 2019年3月4日
同意楼上,不确定量太多。不同流派、或者同一流派的不同玩家对不同因素都会有不同倾向,不可能相同。
什么算好图?事实上每幅图都会或多或少的猜个几次,只不过成为记录的都没炸,同样的图给别人玩可能80%都会炸。有的图适当的猜个几次就可以很快,选择来回绕路的话就快不起来,因此这还牵涉到玩家风险偏好的问题。
这方面研究方向应该是得出更多的特征值。比如熵就是衡量大数字比例的,判雷难度的特征值之一。但有更多的特征值很难被量化。想要精准量化各个特征值,并控制这些值不变从而实现时间也不变,这个目标,至少从目前来看,不现实且不实际。
还有,我还是不明白为什么要滤波。能否直接取全局上1-7数字的平均值替代?同样是衡量大数字比例的指标,有没有证据或理论基础表示熵比上述更为精准?
第 9 楼
 [雷神] 王嘉宁 回复于 2019年3月4日
直接取全局上1-7数字的平均值也是一个将被分析的特征值,这个值反映了雷相邻的次数,进一步反映了雷聚集的程度。但和熵不一样,哪个有优势也说不准。至于难度问题,相信做过理工科研究的朋友都心中有数。

至于为什么用滤波这么奇怪的方法处理雷图,原因是这样做有美感。熵这个特征值与传统的特征值不同,它不是依靠机理分析的方法提出的,所以它的价值不能被立刻证明,以后会继续研究。

目前的成果只是阶段性的,说到底就是没什么用,用不着关注太多。
  共 9 篇回复  首页 | 上一页 | 下一页 | 末页  现在是第 1/1 页
楼主信息
Copyright @ 2008 扫雷网 Saolei.wang 版权所有 陕ICP备19026089号-1