一种基于用户评论的APP软件缺陷识别方法
- 国知局
- 2024-11-21 11:57:45
本发明属于自然语言处理,具体涉及一种基于用户评论的app软件缺陷识别方法。
背景技术:
1、移动应用(app)经过十几年的发展,在人们的日常生活中变得越来越不可或缺。开发者开发了数以百万计的可用app,用于处理各种各样的任务(如购物、娱乐和社交互动)。app的重要性促使开发团队去理解用户反馈的功能需求和缺陷报告,并开展质量保证和软件维护活动。app用户通常会在应用商店、某些专门的技术论坛或者个人博客等平台上为他们所使用的app撰写评论。这些用户评论通常是一些简短的文本,可以为app开发人员提供有价值的信息,如用户体验、缺陷报告和对新功能的需求等。充分理解这些评论有助于开发者提升app质量和用户对产品的满意度。
2、在传统的软件测试中,测试人员或自动测试脚本常常在开发过程中寻找缺陷,但这些方法可能无法完全覆盖用户在实际使用中遇到的所有问题。此外,手动分析大量的用户反馈既耗时又低效。因此,自动化工具和方法的开发,以便能够从大规模用户数据中提取有用信息,成为提高软件质量和用户满意度的关键。
3、综上所述,亟需一种可自动从用户评论提取有用信息从而识别软件缺陷的方法,其不仅提高识别软件问题的效率,而且还可以捕捉到传统测试可能遗漏的细微缺陷,从而为软件开发者提供更全面的质量保证工具。
技术实现思路
1、针对现有技术存在的不足,本发明提出了一种基于用户评论的app软件缺陷识别方法,该方法包括:
2、s1:获取用户对软件的评论数据并对其进行预处理,得到预处理好的用户评论数据;
3、s2:计算用户评论数据中所有关键词的重要分数;
4、s3:选择重要分数最高的n个关键词,并根据n个关键词和用户评论数据构建评论的多维度特征;
5、s4:采用训练好的自适应多维特征动态网络对多维度特征进行处理,得到app软件缺陷识别结果。
6、优选的,对评论数据进行预处理的过程包括:
7、对评论数据进行清洗,去除无关信息,得到清洗后的评论数据;将清洗后的评论数据切割为含义明确的词,得到分词结果即预处理好的用户评论数据。
8、优选的,计算关键词的重要分数的过程包括:
9、将评论数据中的分词进行词频统计,设置词频阈值,将超过阈值的词作为关键词;
10、设置共现窗口大小,在共现窗口内记录每个关键词与其他关键词的共现次数;根据关键词的共现次数计算关键词的度中心性;
11、根据关键词的度中心性分配关键词的初始权重;
12、计算每个关键词在评论中的平均位置和所有关键词的平均位置;根据关键词在评论中的平均位置和所有关键词的平均位置对关键词的初始权重进行调整,得到关键词的最终权重;
13、对关键词的最终权重进行归一化处理,得到关键词的重要分数。
14、进一步的,对关键词的初始权重进行调整的公式为:
15、
16、其中,wfinal(k)表示关键词k的最终权重,winitial(k)表示关键词k的初始权重,pk表示关键词k的平均位置,μ表示所有关键词的平均位置,δ表示关键词位置的标准差。
17、优选的,构建多维度特征的过程包括:
18、s31:分别计算每个关键词与其他关键词的语义相似度;对所有语义相似度取平均值,得到关键词的语义相似度得分;
19、s32:获取所有关键词的上下文,分别计算每个关键词的上下文与其他关键词的上下文的上下文相似度;对所有上下文相似度取平均值,得到关键词的上下文相似度得分;
20、s33:将关键词的语义相似度得分和上下文相似度得分进行加权求和,得到关键词的综合得分;
21、s34:根据关键词的综合得分对关键词的上下文进行扩大或缩小,将关键词的上下文作为其所在评论的文本特征;
22、s35:获取关键词所在评论的发表时间并将其作为时间特征;
23、s36:根据关键词所在评论的社区反馈计算评论的用户得分,将关键词所在评论输入到预训练的lstm模型中,得到评论的情感得分;获取关键词所在评论的长度;
24、s37:合并评论的文本特征、时间特征、评论长度、用户得分和情感得分,得到多维度特征。
25、进一步的,对关键词的上下文进行扩大或缩小的过程包括:设置综合得分阈值;若关键词的综合得分大于综合得分阈值,则将关键词的上下文范围扩大前后各2个词,否则,将关键词的上下文范围缩小前后各2个词;反复计算关键词的综合得分,并对关键词的上下文进行扩大或缩小,直到上下文范围到达最大值或关键词的综合得分稳定。
26、进一步的,计算评论的用户得分的过程包括:
27、分配三种指标即点赞数、被引用数和回复数的权重;根据评论的点赞数、被引用数和回复数及其对应指标的权重进行加权求和,得到初始用户得分;对初始用户得分进行归一化,得到最终的用户得分。
28、优选的,自适应多维特征动态网络训练过程中,使用mdem评估机制验证网络训练效果并根据mdem评估机制的反馈结果调整网络参数;训练时,自适应多维特征动态网络根据训练效果优化网络结构,且根据训练误差、验证误差以及参数的变化速度动态地调整学习率。
29、进一步的,mdem评估机制的公式为:
30、
31、其中,s表示模型综合得分,n表示测试集的数量,accuracyi表示第i个测试集上的准确率;k表示交叉验证的折数,f1-scorek,cross-val表示第k折交叉验证的f1分数;var(predictions)和var(inputs)分别表示预测结果的方差和输入数据的方差;m表示不同条件的数量;errorj,stability表示第j个条件下的模型稳定性差异;j是一致性测试的次数,consistencyj表示第j次测试的一致性分数;l是考虑的模型复杂性因素的数量,complexityl表示第l个复杂性因素的度量;α,β,γ,δ,∈,ζ分别表示第一到第六权重因子。
32、进一步的,根据训练效果优化网络结构的公式为:
33、
34、其中,θ(lt,e)表示优化后的网络结构,lt表示当前的层次结构,e表示自适应多维特征动态网络的总体训练效果,t表示考虑的时间窗口大小,et表示在时间点t的训练误差,vt表示在时间点t的验证误差,lt-i表示当前的第前i次层次结构,n表示考虑的历史层数;φ,ω,ξ,η分别表示第一到第四调整系数。
35、本发明的有益效果为:
36、1.大多数传统方法在处理关键词上下文时,范围固定,无法动态调整,可能导致上下文信息不足或过多,影响识别精度。本发明引入了综合得分计算机制,基于关键词的重要性动态调整上下文范围。这种自适应机制使得关键词在不同情境下都能获得最合适的上下文信息,提高了缺陷识别的精确度。
37、2.传统的方法大多依赖静态特征提取和固定结构的神经网络,无法动态调整网络结构以适应数据变化。自适应多维特征动态网络能够根据数据的复杂性和训练效果动态调整网络层数和神经元数量,确保网络在处理不同规模和复杂度的数据时都能保持最佳性能。这种灵活的网络结构大大提高了模型的泛化能力和识别准确度。
38、3.本发明构建了包括文本特征、时间特征、评论长度、用户得分和情感得分的多维度特征体系,充分捕捉了评论数据中的各种信息,从而更全面地识别软件缺陷。这种多维度特征的综合利用,使得识别结果更加全面和精准。
39、4.本发明通过综合考虑语义相似度、上下文相似度等多种因素,本发明能够有效捕捉到用户评论中隐含的细微缺陷,这些缺陷往往是传统测试方法容易遗漏的。这一能力使得本发明提供了更为全面和精细的质量保证工具。
40、5.本发明利用amfdn模型能够随着新数据的加入不断更新和调整,保持高效的问题识别能力。这种持续自我改进的能力使得本发明在动态变化的环境中依然能够保持高性能。
本文地址:https://www.jishuxx.com/zhuanli/20241120/333594.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。