语音交互性能的测试方法和装置，以及存储介质和处理器与流程

2022-02-19 03:32:14 来源：中国专利 TAG：

1.本发明涉及设备测试领域，具体而言，涉及一种语音交互性能的测试方法和装置，以及存储介质和处理器。

背景技术：

2.目前很多智能家电设备，并没有人机交互的界面，如没有输入键盘、没有触摸屏等，因此这一类设备称为“哑终端”。该类智能设备虽然没有人机交互界面但可以进行语音交互。因此人机语音交互以及机器识别响应语音的能力变得尤为重要。
3.但是，目前市场针对交互性能方面的测试工具，主要是从设备终端日志中提取交互的时间点进行差值计算，进而统计交互性能(关于交互时间的性能)。
4.而该技术方案仍存在如下问题：
5.1、终端日志中打印的时间戳，会跟用户实际交互体感有误差。
6.2、测试用例及环境不能很好的模仿用户实际应用场景。
7.3、无法有效辨认区别复杂语料(用户语料)所对应的家电回复，更无法准确识别出家电设备的回答倾向。
8.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

9.本发明实施例提供了一种语音交互性能的测试方法和装置，以及存储介质和处理器，以至少解决相关技术中终端日志中打印的时间戳，会跟用户实际交互体感有误差；以及，相关技术中测试用例及环境不能很好的模仿用户实际应用场景的技术问题。
10.根据本发明实施例的一个方面，提供了一种语音交互性能的测试方法，包括：确定多个场景下的语料文本，生成每个所述语料文本对应的语料音频；依次播放所述语料音频，以对待检测设备进行多次语音交互；录制所述多次语音交互过程中的音频信息，得到测试音频；根据所述测试音频，确定所述待检测设备的语音交互性能。
11.可选的，生成每个所述语料文本对应的语料音频，包括：将每个场景下的语料文本作为输入参数，写入二进制文件；对所述二进制文件进行解码转换，得到多个语料音频。
12.可选的，在生成每个所述语料文本对应的语料音频之后，所述方法还包括：将所述多个语音语料存储于目标路径中；依次播放所述语料音频，包括：响应于播放指令，从所述目标路径中调用所述多个语音语料进行依次播放。
13.可选的，根据所述测试音频，确定所述待检测设备的语音交互性能，包括：依次确定出所述测试音频中的多组语音交互波段，其中，每组语音交互波段分别对应一次语音交互；根据每组语音交互波段中的两个波段之间的时间间隔，确定每次语音交互过程中，所述待检测设备的语音响应时长；至少根据每次语音交互过程中所述待检测设备的语音响应时长，确定所述待检测设备的语音交互性能。
14.可选的，在至少根据每次语音交互过程中所述待检测设备的语音响应时长，确定
所述待检测设备的语音交互性能之前，所述方法还包括：获取所述待检测设备进行多次语音交互而生成的交互日志；根据所述交互日志和所述测试音频，确定每次语音交互过程中所述待检测设备的语音交互结果；至少根据每次语音交互过程中所述待检测设备的语音响应时长，确定所述待检测设备的语音交互性能，包括：根据每次语音交互过程中所述待检测设备的语音响应时长和语音交互结果，确定所述待检测设备的语音交互性能。
15.可选的，根据所述交互日志和所述测试音频，确定每次语音交互过程中所述待检测设备的语音交互结果，包括：基于交互日志中的时间戳，确定每次语音交互的日志数据；对所述测试音频中的语音交互片段进行音频转文字处理，得到每次语音交互的录音文本；依次对比每次语音交互的日志数据和录音文本，确定每次语音交互过程中所述待检测设备的语音交互结果，其中，交互结果为交互成功或者交互失败。
16.根据本发明实施例的另一方面，还提供了一种语音交互性能的测试装置，包括：生成单元，用于确定多个场景下的语料文本，生成每个所述语料文本对应的语料音频；播放单元，用于依次播放所述语料音频，以对待检测设备进行多次语音交互；录制单元，用于录制所述多次语音交互过程中的音频信息，得到测试音频；确定单元，用于根据所述测试音频，确定所述待检测设备的语音交互性能。
17.可选的，确定单元还包括：第一确定子单元，用于依次确定出所述测试音频中的多组语音交互波段，其中，每组语音交互波段分别对应一次语音交互；第二确定子单元，用于根据每组语音交互波段中的两个波段之间的时间间隔，确定每次语音交互过程中，所述待检测设备的语音响应时长；第三确定子单元，用于至少根据每次语音交互过程中所述待检测设备的语音响应时长，确定所述待检测设备的语音交互性能。
18.根据本技术的另一方面，提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述任意一项所述的语音交互性能的测试方法。
19.根据本技术的另一方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一项所述的语音交互性能的测试方法
20.在本发明实施例中，通过确定多个场景下的语料文本，生成每个所述语料文本对应的语料音频；依次播放所述语料音频，以对待检测设备进行多次语音交互；录制所述多次语音交互过程中的音频信息，得到测试音频；根据所述测试音频，确定所述待检测设备的语音交互性能，解决了相关技术中终端日志中打印的时间戳，会跟用户实际交互体感有误差；以及，相关技术中测试用例及环境不能很好的模仿用户实际应用场景的技术问题。
21.换言之，在可语音交互型智能电器出厂前，本技术通过模拟用户语音交互场景，进行交互性能验证，进而得到出类用户真实交互场景的至少一个交互性能指标。实现了模拟用户真实体验，从用户体验角度检测待检测设备的语音交互性能的技术效果。
附图说明
22.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
23.图1是根据本发明实施例的一种可选的语音交互性能的测试方法的流程图一；
24.图2是根据本发明实施例的一种可选的语音交互性能的测试方法的流程图二；
25.图3是根据本发明实施例的一种可选的语音交互性能的测试方法的流程图三；
26.图4是根据本发明实施例的一种可选的语音交互波段的示意图；
27.图5是根据本发明实施例的一种可选的语音交互性能的测试方法的流程图四；
28.图6是根据本发明实施例的一种可选的语音交互性能的测试方法的流程图五；
29.图7是根据本发明实施例的一种可选的语音交互性能的测试方法的示意图；
30.图8是根据本发明实施例的一种可选的语音交互性能的测试装置的示意图。
具体实施方式
31.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
32.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
33.根据本发明实施例，提供了一种语音交互性能的测试方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
34.图1是根据本发明实施例的语音交互性能的测试方法，如图1所示，该方法包括如下步骤：
35.步骤s102，确定多个场景下的语料文本，生成每个所述语料文本对应的语料音频。
36.需要说明的是：语料文本是需要经过统计梳理的，要尽可能得覆盖用户实际应用场景。
37.步骤s104，依次播放所述语料音频，以对待检测设备进行多次语音交互。
38.步骤s106，录制所述多次语音交互过程中的音频信息，得到测试音频。
39.步骤s108，根据所述测试音频，确定所述待检测设备的语音交互性能。
40.在本发明实施例中，通过确定多个场景下的语料文本，生成每个所述语料文本对应的语料音频；依次播放所述语料音频，以对待检测设备进行多次语音交互；录制所述多次语音交互过程中的音频信息，得到测试音频；根据所述测试音频，确定所述待检测设备的语音交互性能，解决了相关技术中终端日志中打印的时间戳，会跟用户实际交互体感有误差；以及，相关技术中测试用例及环境不能很好的模仿用户实际应用场景的技术问题。
41.换言之，在可语音交互型智能电器出厂前，本技术通过模拟用户语音交互场景，进行交互性能验证，进而得到出类用户真实交互场景的至少一个交互性能指标。实现了模拟用户真实体验，从用户体验角度检测待检测设备的语音交互性能的技术效果。
42.需要说明的是：上述待检测设备可以为任意具备语音交互功能的设备，例如：语音交互热水器。
43.在一个可选的示例中，如图2所示，生成每个所述语料文本对应的语料音频，包括：步骤s1021，将每个场景下的语料文本作为输入参数，写入二进制文件；步骤s1022，对所述二进制文件进行解码转换，得到多个语料音频。
44.进一步的，在生成每个所述语料文本对应的语料音频之后，所述方法还包括：步骤s103，将所述多个语音语料存储于目标路径中；依次播放所述语料音频，包括：步骤s1041，响应于播放指令，从所述目标路径中调用所述多个语音语料进行依次播放。
45.需要说明的是：在本技术中，可以通过计算机设备确定多个场景下的语料文本，生成每个所述语料文本对应的语料音频；依次播放所述语料音频，以对待检测设备进行多次语音交互；以及，录制所述多次语音交互过程中的音频信息，得到测试音频；并根据所述测试音频，确定所述待检测设备的语音交互性能。此时，目标路径也是对应于计算机设备中的某条存储路径。
46.还需要说明的是：以语料文本作为最初录入形式，便于工作人员进行检验操作。
47.在一个可选的示例中，在确定多个场景下的语料文本之后，所述方法还包括：响应于交互操作，对所述确定的多个场景下的语料文本进行修改，其中，所述修改包括删除或增加；根据修改内容对所述目标路径中的语料音频进行更新处理；并基于更新后的语料音频，再执行“响应于播放指令，从所述目标路径中调用所述多个语音语料进行依次播放，以对待检测设备进行多次语音交互；录制所述多次语音交互过程中的音频信息，得到测试音频；根据所述测试音频，确定所述待检测设备的语音交互性能。此时，目标路径也是对应于计算机设备中的某条存储路径”的流程步骤。
48.需要说明的是：根据修改内容对所述目标路径中的语料音频进行更新处理，包括：在所述修改内容包括删除多个语料文本的情况下，将所述待删除的语料文本对应的语料音频从所述目标路径中进行删除处理；在所述修改内容包括新增多个语料文本的情况下，将新增语料文本转换为待添加的语料音频，并将所述待添加的语料音频添加至目标路径中。
49.换言之，本技术中语料文本的输入机制非常灵活机动，如果有需要，可以随意添加删除。增加删除语料文本不会影响计算机中的程序运行，同时，计算机中的程序会根据变更后的语料文本进行二次性能检测，得到最终的语音交互性能。
50.在一个可选的示例中，如图3所示，根据所述测试音频，确定所述待检测设备的语音交互性能，包括：步骤s1081，依次确定出所述测试音频中的多组语音交互波段，其中，每组语音交互波段分别对应一次语音交互；步骤s1082，根据每组语音交互波段中的两个波段之间的时间间隔，确定每次语音交互过程中，所述待检测设备的语音响应时长；步骤s1083，至少根据每次语音交互过程中所述待检测设备的语音响应时长，确定所述待检测设备的语音交互性能。
51.其中，每组语音交互波段中的两个波段之间的时间间隔，可以如图4所示。
52.此外，在另一个可选的示例中，如图5所示，在至少根据每次语音交互过程中所述待检测设备的语音响应时长，确定所述待检测设备的语音交互性能之前，所述方法还包括：步骤s1071，获取所述待检测设备进行多次语音交互而生成的交互日志；步骤s1072，根据所述交互日志和所述测试音频，确定每次语音交互过程中所述待检测设备的语音交互结果。
此时，至少根据每次语音交互过程中所述待检测设备的语音响应时长，确定所述待检测设备的语音交互性能，包括：步骤s1083a，根据每次语音交互过程中所述待检测设备的语音响应时长和语音交互结果，确定所述待检测设备的语音交互性能。
53.具体的，如图6所示，根据所述交互日志和所述测试音频，确定每次语音交互过程中所述待检测设备的语音交互结果，包括：步骤s1072a，基于交互日志中的时间戳，确定每次语音交互的日志数据；步骤s1072b，对所述测试音频中的语音交互片段进行音频转文字处理，得到每次语音交互的录音文本；步骤s1072c，依次对比每次语音交互的日志数据和录音文本，确定每次语音交互过程中所述待检测设备的语音交互结果，其中，交互结果为交互成功或者交互失败。
54.换言之，本技术通过将测试音频中的信息转换为文字形式，同时，从交互日志中提取相关日志数据，进而实现了准确识别复杂语料所对应的家电回复和所述家电回复的回答倾向，解决了相关技术中无法有效辨认区别复杂语料(用户语料)所对应的家电回复，更无法准确识别出家电设备的回答倾向的技术问题。
55.举例说明：在录制所述多次语音交互过程中的音频信息，得到测试音频之后，一则，需要根据测试音频确定用户实际感受到的待测试设备反馈用户语音的响应时长；二则，基于待测试设备的交互日志中的时间戳，对某次语音交互的日志数据和录音文本进行分析，以判断某次语音交互时成功了，还是失败了。最终，根据语音响应时长和语音交互结果确定待检测设备的语音交互性能。
56.需要说明的是：可以调用讯飞sdk程序，对测试音频中的语音交互片段进行音频转文字处理；可以通过tvm
‑
i
‑
vector建模方式以ubm为基础的，根据ubm的均值及方差进行对每次语音交互的语音响应时长和语音交互结果相应统计量的计算，其中，i
‑
vector建模方式称为全局差异空间建模(total variability modeling，tvm)，采用该方法提取的i
‑
vector记为tvm
‑
i
‑
vector。
57.需要说明的是：待检测设备的语音交互性能还可以包括：待检测设备响应语料音频的唤醒成功率，唤醒响应时长，交互成功率，交互响应时长，3秒内响应概率等指标。
58.下面结合另一种实施例对本发明做出说明。
59.如图7所示，以语音交互型热水器为例进行说明：
60.步骤a：大概率覆盖用户常用场景语料，确定各个场景下的语料文本。
61.步骤b：将语料文本作为输入数据，写入二进制文件进行解码转换，生成各个语料文本对应的音频文件，将这些音频文件自动存到相应路径，待程序调用然后进行播放。
62.步骤c：程序在存储路径下顺序播放这些音频文件，与热水器进行语音交互。
63.步骤d：自动录制并存储交互过程中的音频数据；根据音频数据和交互日志自动统计交互响应时间等性能指标。
64.需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
65.本技术实施例还提供了一种语音交互性能的测试装置，需要说明的是，本技术实施例的语音交互性能的测试装置可以用于执行本技术实施例所提供的用于语音交互性能的测试方法。以下对本技术实施例提供的语音交互性能的测试装置进行介绍。
66.图8是根据本技术实施例的语音交互性能的测试装置的示意图。如图8所示，该装置包括：生成单元10、播放单元20、录制单元30和确定单元40。
67.生成单元10，用于确定多个场景下的语料文本，生成每个所述语料文本对应的语料音频。
68.播放单元20，用于依次播放所述语料音频，以对待检测设备进行多次语音交互。
69.录制单元30，用于录制所述多次语音交互过程中的音频信息，得到测试音频。
70.确定单元40，用于根据所述测试音频，确定所述待检测设备的语音交互性能。
71.在本发明实施例中，通过生成单元10确定多个场景下的语料文本，生成每个所述语料文本对应的语料音频；播放单元20依次播放所述语料音频，以对待检测设备进行多次语音交互；录制单元30录制所述多次语音交互过程中的音频信息，得到测试音频；确定单元40根据所述测试音频，确定所述待检测设备的语音交互性能，解决了相关技术中终端日志中打印的时间戳，会跟用户实际交互体感有误差；以及，相关技术中测试用例及环境不能很好的模仿用户实际应用场景的技术问题。
72.换言之，在可语音交互型智能电器出厂前，本技术通过模拟用户语音交互场景，进行交互性能验证，进而得到出类用户真实交互场景的至少一个交互性能指标。实现了模拟用户真实体验，从用户体验角度检测待检测设备的语音交互性能的技术效果。
73.可选地，在本技术实施例提供的语音交互性能的测试装置中，确定单元40还包括：第一确定子单元，用于依次确定出所述测试音频中的多组语音交互波段，其中，每组语音交互波段分别对应一次语音交互；第二确定子单元，用于根据每组语音交互波段中的两个波段之间的时间间隔，确定每次语音交互过程中，所述待检测设备的语音响应时长；第三确定子单元，用于至少根据每次语音交互过程中所述待检测设备的语音响应时长，确定所述待检测设备的语音交互性能。
74.所述语音交互性能的测试装置包括处理器和存储器，上述生成单元10、播放单元20、录制单元30和确定单元40等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
75.处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决相关技术中终端日志中打印的时间戳，会跟用户实际交互体感有误差；以及，相关技术中测试用例及环境不能很好的模仿用户实际应用场景的技术问题。
76.本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述语音交互性能的测试方法。
77.本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述语音交互性能的测试方法。
78.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
79.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
80.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或
者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
81.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
82.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
83.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
84.以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音交互性能的测试方法和装置，以及存储介质和处理器与流程

相关文献

最热文献