技术新讯 > 休闲运动,玩具,娱乐用品的装置及其制品制造技术 > 落子点选择方法、落子点选择装置、显示装置及存储介质与流程  >  正文

落子点选择方法、落子点选择装置、显示装置及存储介质与流程

  • 国知局
  • 2024-07-11 16:07:34

本技术涉及人工智能,特别是涉及一种落子点选择方法、落子点选择装置、显示装置及存储介质。

背景技术:

1、棋是思维的游戏,是以棋盘、棋子为工具,以棋规为依据的竞赛性智力游戏,随着计算机博弈技术的发展,利用alphabeta算法的深蓝打败了国际象棋世界冠军,利用alphagozero算法打败了围棋世界冠军。

2、如今,各种搭载ai的人机对弈平台层出不穷,其训练方法也不断迭代升级,从学习人类棋谱到根据规则自行探索,随着ai棋力水平不断提升,人类棋手在与ai的全力对弈中几乎均以失败告终。因此,在人机对弈中,一般会预先设定几种难度等级,ai根据不同的难度等级模拟不同棋力水平。

3、现有技术的ai在模拟较低棋力水平时,往往在每一步都选择优势较低的选点或者在固定范围的选点中随机选择。导致现有技术的ai的落子更倾向于随机性,与人类普遍认知的明显的落子选择有较大的出入,模拟状态较为生硬。

技术实现思路

1、本技术主要解决的技术问题是提供一种落子点选择方法、落子点选择装置、显示装置及存储介质,能够实现更自然真实地模拟落子的状态。

2、为解决上述技术问题,本技术采用的一个技术方案是:提供一种落子点选择方法,包括:获取当前棋局的下一步的第一候选落子点序列,第一候选落子点序列包括若干候选落子点;利用候选落子点的至少一个评价因子,确定若干候选落子点中是否存在明显最优落子点,评价因子用于表征对应的候选落子点作为下一步落子点的合适程度;响应于存在明显最优落子点,将明显最优落子点作为当前棋局的下一步落子点。

3、其中,利用候选落子点的至少一个评价因子,确定若干候选落子点中是否存在明显最优落子点,包括:基于各候选落子点的第一评价因子,从若干候选落子点中选出潜在最优落子点;分析潜在最优落子点的至少一个第二评价因子是否满足对应的条件参数,得到分析结果;基于分析结果,确定潜在最优落子点是否为明显最优落子点。

4、其中,第一评价因子为先验概率,潜在最优落子点在第一候选落子点序列中的先验概率最大,且为第二候选落子点序列中的序列最优落子点,第一候选落子点序列和第二候选落子点序列是利用不同方式为当前棋局选出的下一步候选落子点集合。

5、其中,第二评价因子满足对应的条件参数为第二评价因子大于对应的条件参数;和/或,在分析潜在最优落子点的至少一个第二评价因子是否满足对应的条件参数,得到分析结果之前,还包括以下至少一个步骤:基于当前模拟的棋力水平,调整各第二评价因子对应的条件参数,其中,棋力水平越高,条件参数越小:在第二评价因子包括先验概率的情况下,基于当前棋局所处的阶段,调整先验概率对应的条件参数,其中,当前棋局所处的阶段越后期,先验概率对应的条件参数越小。

6、其中,至少一个第二评价因子包括先验概率和至少一个优胜评价因子,优胜评价因子用于表征优胜的可能性;基于分析结果,确定潜在最优落子点是否为明显最优落子点,包括:响应于先验概率满足对应的概率条件参数,或者当前棋局处于目标阶段且至少一个优胜评价因子均满足对应的优胜条件参数,确定潜在最优落子点为明显最优落子点。

7、其中,分析潜在最优落子点的至少一个第二评价因子是否满足对应的条件参数,得到分析结果,包括:判断潜在最优落子点的先验概率是否满足对应的概率条件参数;响应于潜在最优落子点的先验概率不满足对应的概率条件参数,分析当前棋局所处的阶段;响应于当前棋局处于目标阶段,判断潜在最优落子点的至少一个优胜评价因子是否满足对应的优胜条件参数。

8、其中,分析当前棋局所处的阶段,包括:获取当前棋局的所有格点的双方占有程度;基于占有程度,确定棋盘各区域的安定度;基于各区域的安定度,确定当前棋局所处的阶段。

9、其中,当前棋局所处的阶段越后期,各区域的安定度越高;和/或,基于占有程度,确定棋盘各区域的安定度包括:获取至少一个参考程度阈值,统计各区域中占有程度大于各程度阈值的格点比例;基于统计结果,确定各区域的安定度。

10、其中,方法还包括:响应于当前棋局不处于目标阶段、或者潜在最优落子点存在优胜评价因子不满足对应的优胜条件参数,按照当前模拟的棋力水平,从第三候选落子点序列中抽取得到下一步落子点,第三候选落子点序列为第一候选落子点序列、或第二候选落子点序列、或第一候选落子点序列和第二候选落子点序列的并集,第一候选落子点序列和第二候选落子点序列是利用不同方式为当前棋局选出的下一步候选落子点集合。

11、其中,至少一个优胜评价因子包括以下一个或多个:潜在最优落子点相比参考落子点的目数优势表征值、以及潜在最优落子点相比参考落子点的胜率优势表征值。

12、其中,参考落子点为第二候选落子点序列中的第二优选落子点,第一候选落子点序列和第二候选落子点序列是利用不同方式为当前棋局选出的下一步候选落子点集合;和/或,潜在最优落子点相比参考落子点的目数优势表征值为潜在最优落子点的目数与参考落子点的目数之差;和/或,潜在最优落子点相比于参考落子点的胜率优势表征值为潜在最优落子点的胜率与参考落子点的胜率之差。

13、其中,目标阶段为收官阶段。

14、其中,利用候选落子点的至少一个评价因子,确定若干候选落子点中是否存在明显最优落子点之前,方法还包括:响应于第二候选落子点序列满足预设条件,将第一候选落子点序列中先验概率最大的候选落子点,作为当前棋局的下一步落子点,预设条件为第二候选落子点序列中只有一个候选落子点、或者第二候选落子点序列中的序列最优落子点为轮空,第一候选落子点序列和第二候选落子点序列是利用不同方式为当前棋局选出的下一步候选落子点集合;响应于第二候选落子点序列不满足预设条件,执行利用候选落子点的至少一个评价因子,确定若干候选落子点中是否存在明显最优落子点及其后续步骤。

15、其中,第一候选落子点序列是利用神经网络得到的根据先验概率排序且剔除了非法候选点的候选点序列,第二候选落子点为利用蒙特卡洛树搜索得到的带有顺位信息的候选点序列。

16、为解决上述技术问题,本技术采用的另一个技术方案是:提供一种落子点选择装置,包括:获取模块:获取当前棋局的下一步的第一候选落子点序列,第一候选落子点序列包括若干候选落子点;判断模块:利用候选落子点的至少一个评价因子,确定若干候选落子点中是否存在明显最优落子点,评价因子用于表征对应的候选落子点作为下一步落子点的合适程度;执行模块:响应于存在明显最优落子点,将明显最优落子点作为当前棋局的下一步落子点。

17、为解决上述技术问题,本技术采用的另一个技术方案是:提供一种显示装置,包括:显示屏以及与所述显示屏耦接的处理器,处理器用于执行如上述任一落子点选择方法。

18、为解决上述技术问题,本技术采用的另一个技术方案是:提供一种存储介质,其上存储有程序指令,程序指令被执行实现如上述任一时序数据存储方法。

19、区别于现有技术的情况,本技术的有益效果是:本技术基于至少一个评价因子确定当前棋局是否存在明显最优落子点,即判断当前局面是否存在人类普遍认知的明显落子点,并响应于存在明显最优落子点将明显最优落子点作为下一步落子点,即选择人类普遍认知的明显落子点为下一步落子点,以实现更自然真实地模拟落子的状态。

本文地址:https://www.jishuxx.com/zhuanli/20240615/77593.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。