用于在呼叫期间处理远程活动语音的方法和系统与流程

2022-11-16 10:15:34 来源：中国专利 TAG：

1.本公开的一个方面涉及用于在呼叫期间处理远程活动语音的方法和系统。还描述了其他方面。

背景技术：

2.如今的许多设备诸如智能电话能够与其他设备进行各种类型的电信活动。例如，智能电话可与另一设备进行电话呼叫。在这种情况下，当拨打电话号码时，智能电话连接到蜂窝网络，蜂窝网络可随后将智能电话与另一设备(例如，另一智能电话或座机)连接。此外，智能电话还能够进行视频会议呼叫，在视频会议呼叫中，视频数据和音频数据与另一设备交换。

技术实现要素：

3.本公开的一个方面是一种由第一电子设备(例如，本地设备)执行的方法，该第一电子设备可与音频输出设备(诸如无线头戴式耳机或包括至少一个扬声器的头戴式设备)通信地耦接。例如，第一电子设备可发起本地设备与第二电子设备(例如，远程设备)之间的呼叫(例如，语音呼叫或视频呼叫)。在呼叫期间并且在第一设备处，发起联合媒体回放会话，其中第一设备和第二设备独立地流式传输媒体内容(例如，音乐作品、影片等)以供同步回放。第一设备基于来自语音活动检测器(vad)的输出确定来自第二设备的下行链路信号包括语音。例如，vad可以是在第一设备上本地运行的算法，其中对下行链路信号执行降噪算法并且基于下行链路信号生成vad的输出。在另一方面，可从第二设备接收vad的输出。响应于确定下行链路信号包括语音，将标量增益应用于媒体内容的音频信号以降低音频信号的信号电平，并且可用下行链路信号和音频信号的混合内容来驱动扬声器。因此，当第二设备的用户正在说话时，媒体内容的声级可能降低。
4.在一个方面，第一设备与无线头戴式耳机通信地耦接以进行呼叫和联合媒体回放会话。在这种情况下，第一设备可基于由无线头戴式耳机的加速度计产生的加速度计信号来生成vad的输出。在另一方面，第一设备可从无线头戴式耳机接收vad的输出，无线头戴式耳机基于加速度计信号生成vad。
5.在一些方面，媒体内容包括视频信号和音频信号，使得发起联合媒体回放会话包括在显示屏上显示视频信号以及用下行链路信号和音频信号的混合内容来驱动扬声器。在另一方面，第一设备确定下行链路信号的信号电平，并且响应于信号电平高于阈值电平或响应于基于vad的输出确定下行链路信号包括语音，第一设备在显示屏上显示表示包含在媒体内容的音频信号内的音频内容的隐藏字幕。
6.在一个方面，第一设备确定沿媒体内容的回放持续时间的第一时间戳，在该第一时间戳处，来自vad的输出开始指示下行链路信号包括语音，并且确定沿媒体内容的回放持续时间的在第一时间戳之后的第二时间戳，在该第二时间戳处，作出其中来自vad的输出指示下行链路信号已停止包括语音的确定。作为响应，第一设备通过在第二时间戳处或之后
暂停媒体内容的回放并且从沿回放持续时间的第一时间戳起开始媒体内容的回放来倒回媒体内容的回放。在另一方面，响应于确定来自vad的输出指示下行链路信号已停止包括语音，第一设备可提供请求倒回媒体内容的回放的用户授权的通知(例如，在第一设备的显示屏上显示的弹出通知)。
7.在一个方面，用第二设备发起的呼叫可以是电话(例如，仅语音)呼叫。本公开的另一方面是一种由第一设备执行的方法，其中第一设备与第二设备一起同时进行视频会议呼叫和联合媒体回放会话。第一设备基于视频会议呼叫的音频内容确定第二设备的用户开始说话，并且响应于确定用户开始说话，降低与联合媒体回放会话相关联的媒体内容的音频内容的音量级。在一个方面，响应于确定第二设备的用户停止说话(例如，基于视频会议呼叫的音频内容)，第一设备可将媒体内容的音频内容的音量级增大到从音量级降低之前的先前级别。
8.以上概述不包括本公开的所有方面的详尽列表。可预期的是，本公开包括可由上文概述的各个方面以及在下文的具体实施方式中公开并且在权利要求书中特别指出的各个方面的所有合适的组合来实践的所有系统和方法。此类组合可具有未在上述发明内容中具体阐述的特定优点。
附图说明
9.在附图的图示中通过举例而非限制的方式示出了多个方面，在附图中类似的附图标号指示类似的元件。应当指出的是，在本公开中提到“一”或“一个”方面未必是同一方面，并且其意指至少一个。另外，为了简洁以及减少附图的总数，某个附图可能被用于示出不止一个方面的特征，并且对于某个方面，可能并不需要该附图中的所有元素。
10.图1示出了根据一个方面的音频系统，该音频系统包括在执行联合媒体回放会话时参与呼叫的本地设备和一个或多个远程设备。
11.图2示出了根据一个方面的本地设备和音频输出设备的框图，本地设备在与一个或多个远程设备一起参与呼叫时发起联合回放媒体会话，音频输出设备与本地设备以无线方式通信。
12.图3示出了根据一个方面的若干阶段，其中本地设备和远程设备发起联合回放媒体会话以在参与电话呼叫时同步地回放音乐作品。
13.图4示出了根据一个方面的若干阶段，其中本地设备和远程设备发起联合回放媒体会话以在参与视频呼叫时同步地回放影片。
14.图5示出了根据一个方面的本地设备的框图，该本地设备基于是否在本地设备与远程设备之间执行的电话呼叫的信号内检测到语音而对媒体内容的音频信号执行音频信号处理操作。
15.图6示出了根据一个方面的本地设备的框图，该本地设备基于音频输出设备是否检测到语音而对媒体内容的音频信号执行音频信号处理操作。
16.图7示出了根据一个方面的本地设备的框图，该本地设备基于是否在视频呼叫的信号内检测到语音来执行音频信号处理操作。
17.图8是用于基于是否在下行链路音频信号内检测到语音来处理媒体内容的音频信号的过程的一个方面的流程图。
18.图9是用于显示表示媒体内容的音频内容的隐藏字幕的过程的一个方面的流程图。
19.图10是用于在确定下行链路音频信号已停止包括语音时倒回媒体内容的回放的过程的一个方面的流程图。
20.图11示出了根据一个方面的框图，其中本地设备2经由双向无线音频连接与音频输出设备6通信地耦接以在本地设备与远程设备3一起参与呼叫时交换音频数据。
21.图12示出了根据一个方面的框图，其中在联合媒体回放会话以及与远程设备3的呼叫期间，本地设备2经由双向无线音频连接通信地耦接到音频输出设备6。
22.图13a和图13b示出了根据一个方面的若干框图，其中与音频输出设备6通信地耦接以用于交换音频数据的本地设备2基于联合媒体回放会话的发起而在无线音频连接之间切换。
23.图14是用于在无线音频连接之间切换的过程的一个方面的流程图。
24.图15是用于在无线音频连接之间切换的过程的另一个方面的流程图。
25.图16是用于基于一个或多个标准来确定是否在无线音频连接之间切换的过程的一个方面的流程图。
26.图17是由音频输出设备执行的用于在无线音频连接之间切换的过程的一个方面的流程图。
27.图18是由音频输出设备执行的用于基于是否检测到语音而从单向无线音频连接切换到双向无线音频连接的过程的一个方面的流程图。
具体实施方式
28.现在将参考所附附图来解释本公开的各方面。只要在某个方面中描述的部件的形状、相对位置和其他方面未明确限定，这里本公开的范围就不仅仅局限于所示出的部件，所示出的部件仅用于说明的目的。另外，虽然阐述了许多细节，但应当理解，一些实施方案可在没有这些细节的情况下被实施。在其他情况下，未详细示出熟知的电路、结构和技术，以免模糊对该描述的理解。此外，除非该含义明确相反，否则本文示出的所有范围被认为包括每个范围的端值。
29.图1示出了根据一个方面的音频系统1，该音频系统包括在执行联合媒体回放会话时参与呼叫的本地设备和一个或多个远程设备。如本文所述，这可允许设备的用户在参与彼此之间会话的同时收听(和/或观看)媒体内容(例如，在一个或多个设备上)。音频系统包括本地(或第一电子)设备2、远程(或第二电子)设备3、网络4(例如计算机网络，诸如互联网)、媒体内容服务器5和音频输出设备6。在一个方面，该系统可包括更多或更少的元件。例如，该系统可具有一个或多个远程设备，其中所有设备都参与彼此之间以及与本地设备的呼叫和联合媒体回放会话，如本文所述。在另一方面，音频系统可包括与音频系统1的设备中的至少一些设备通信地耦接的一个或多个远程(电子)服务器，并且可被配置为执行本文所述的操作中的至少一些操作。在另一方面，该系统可不包括音频输出设备。在这种情况下，本地设备可执行音频输出操作(例如，使用一个或多个信号来驱动一个或多个扬声器)。
30.在一个方面，本地设备(和/或远程设备)可以是能够在与一个或多个其他设备(例如，一个或多个远程设备)执行联合媒体回放会话的同时参与呼叫诸如电话(或“仅语音”呼
叫)或视频(会议)呼叫的任何电子设备(例如，具有诸如处理器、存储器等的电子部件)，其中(至少一些)设备同时回放媒体内容(例如，音乐作品、影片等)。本文描述了关于媒体内容的同时回放的更多内容。例如，本地设备可以是台式计算机、膝上型计算机、数字媒体播放器等。在一个方面，设备可以是便携式电子设备(例如，能够手持操作)，诸如平板计算机、智能电话等。在另一方面，设备可以是头戴式设备，诸如智能眼镜，或可穿戴设备，诸如智能手表。在一个方面，远程设备可以是与本地设备相同类型的设备(例如，两个设备都是智能电话)。在另一方面，远程设备中的至少一些远程设备可以是不同的，诸如一些是台式计算机，而另一些是智能电话。
31.如图所示，本地设备2经由计算机网络(例如，互联网)4(例如，通信地)耦接到远程设备3和/或媒体内容服务器5。具体地，本地设备和远程设备可被配置为建立并参与电话(或仅语音)呼叫，其中参与呼叫的设备交换音频数据。例如，每个设备将至少一个麦克风信号作为上行链路音频信号传输到参与呼叫的其他设备，并且从其他设备接收至少一个音频信号作为下行链路音频信号，用于由一个或多个扬声器回放。在一个方面，网络可包括公共交换电话网络(pstn)，本地设备和远程设备能够通过公共交换电话网络发出呼出呼叫和/或接收呼入呼叫。在另一方面，本地设备可被配置为经由网络(例如，互联网)建立与一个或多个远程设备的互联网协议(ip)电话(或ip语音(voip))呼叫。具体地，本地设备可使用任何信令协议(例如，会话发起协议(sip))来建立通信会话并且使用任何通信协议(例如，传输控制协议(tcp)、实时传输协议(rtp)等)来在呼叫期间交换音频数据。例如，当(例如，由在本地设备内执行的电话应用程序)发起呼叫时，本地设备可将由一个或多个麦克风捕获的一个或多个麦克风信号(例如，作为上行链路音频信号)作为音频数据(例如，ip分组)传输到一个或多个远程设备，并且经由网络从远程设备接收一个或多个(例如，下行链路音频)信号，用于驱动本地设备的一个或多个扬声器。在另一方面，本地设备可被配置为建立无线(例如，蜂窝式)呼叫。在这种情况下，网络4可包括一个或多个小区塔，它们可以是支持电子设备诸如移动设备(例如，智能电话)的数据传输(和/或语音呼叫)的通信网络(例如，4g长期演进(lte)网络)的一部分。
32.在另一方面，本地设备和远程设备可被配置为建立并参与与一个或多个远程设备3的视频呼叫。在这种情况下，本地设备可建立视频呼叫(例如，类似于voip，使用sip来发起会话并使用rtp来传输数据)，并且在建立视频呼叫时与一个或多个远程设备交换视频和/或音频数据。例如，本地设备可包括捕获视频的一个或多个相机，该视频使用任何视频编解码器(例如，h.264)编码并被传输到远程设备，用于进行解码并显示在一个或多个显示屏上。本文描述了关于呼叫的更多内容。
33.在一些方面，媒体内容服务器5可以是被配置为将媒体内容流式传输到电子设备诸如本地设备和远程设备的独立服务器计算机或服务器计算机集群。在这种情况下，服务器可以是云计算系统的一部分，云计算系统能够将数据流式传输为提供给一个或多个订户的基于云的服务。在一些方面，服务器可被配置为流式传输任何类型的媒体(或多媒体)内容，诸如音频内容(例如，音乐作品、音频书、播客等)、静止图像、视频内容(例如，影片、电视制作等)等。在一个方面，服务器可使用任何音频和/或视频编码格式和/或用于将内容流式传输到一个或多个设备的任何方法。
34.在一个方面，媒体内容服务器5可被配置为同时将媒体内容流式传输到一个或多
个设备，以便允许这些设备参与联合媒体回放会话。例如，服务器可从设备(例如，本地设备2)接收请求，以与另一设备(例如，远程设备3)一起流式传输可包括音频内容(例如，音乐作品)和/或视频内容(例如，与影片相关联的视频信号)的媒体内容片段。在一个方面，可由本地设备(和/或远程设备)响应于设备接收到开始回放媒体内容的用户输入而传输请求，如图3和图4所示。在这种情况下，服务器可与已经参与(例如，电话和/或视频)呼叫的本地设备和远程设备建立通信链路。一旦建立通信链路，服务器就可使用任何编解码器(例如，mp3、aac等)来编码音频内容和/或可使用任何编解码器来编码视频内容，然后将经编码的内容传输到每个设备以进行解码和输出。在另一方面，本地设备可向远程设备传输请求发起联合媒体回放会话的消息。作为响应，远程设备可与媒体内容服务器通信以检索媒体内容并与本地设备一起同步回放。在一个方面，参与联合媒体回放会话的设备可同步输出媒体内容，使得用户同时输出和体验内容。在一些方面，可(例如，由参与会话的设备和/或服务器)使用任何定时同步方法来确保同时且同步地流式传输媒体。本文描述了关于联合媒体回放会话的更多内容。
35.如图所示，音频输出设备6可以是包括至少一个扬声器并且被配置为通过驱动扬声器来执行输出声音的任何电子设备。例如，如图所示，设备是无线头戴式耳机(例如，入耳式耳机或耳塞)，该耳机被设计成定位在用户的耳朵上(或中)并且被设计成将声音输出到用户的耳道中。在一些方面，耳机可以是具有柔性耳机末端的密封类型，该柔性耳机末端用于通过阻挡或闭塞在耳道中来相对于周围环境在声学上密封用户的耳道的入口。如图所示，输出设备包括用于用户左耳的左耳机和用于用户右耳的右耳机。在这种情况下，每个耳机可被配置为输出媒体内容的至少一个音频声道(例如，右耳机输出立体声录音(诸如音乐作品)的双声道输入的右音频声道并且左耳机输出左音频声道)。在另一方面，输出设备可以是包括至少一个扬声器并且被布置为由用户佩戴并且被布置为通过用音频信号驱动扬声器来输出声音的任何电子设备。又如，输出设备可以是任何类型的头戴式耳机，诸如至少部分地覆盖用户耳朵并被布置成将声音引导至用户耳朵中的包耳式(或耳上)耳机。
36.在一些方面，音频输出设备可以是头戴式设备，如本文所说明。在另一方面，音频输出设备可以是被布置为将声音输出到周围环境中的任何电子设备。示例可包括独立扬声器、智能扬声器、家庭影院系统或集成在车辆内的信息娱乐系统。
37.在一个方面，输出设备可以是可通信地耦接到本地设备以便交换音频数据的无线设备。例如，本地设备可被配置为经由无线通信协议(例如，蓝牙协议或任何其他无线通信协议)与音频输出设备建立无线连接。在所建立的无线连接期间，本地设备可与音频输出设备交换(例如，发射和接收)数据分组(例如，互联网协议(ip)分组)，音频输出设备可包括任何音频格式的音频数字数据。具体地，本地设备可被配置为通过双向无线音频连接(例如，其允许两个设备交换音频数据)与音频输出设备建立和通信，例如进行免提呼叫或使用语音命令。双向无线通信协议的示例包括但不限于免提模式(hfp)和耳机模式(hsp)，两者都是蓝牙通信协议。在另一方面，本地设备可被配置为经由单向无线音频连接(诸如(例如，高级音频分发配置文件(a2dp)协议)与输出设备建立及通信，单向无线音频连接允许本地设备将音频数据传输到一个或多个音频输出设备。本文描述了关于这些无线音频连接的更多内容。
38.在另一方面，本地设备2可经由其他方法与音频输出设备6通信地耦接。例如，两个
设备均可经由有线连接来耦接。在这种情况下，有线连接的一端可(例如，固定地)连接到音频输出设备，而另一端可具有插入音频源设备的插口中的连接器，诸如媒体插口或通用串行总线(usb)连接器。一旦连接，本地设备就可被配置为经由有线连接用一个或多个音频信号来驱动音频输出设备的一个或多个扬声器。例如，本地设备可将音频信号作为数字音频(例如，pcm数字音频)传输。在另一方面，音频可以模拟格式传输。
39.在一些方面，本地设备2和音频输出设备6可以是不同的(单独的)电子设备，如本文所示。在另一方面，本地设备可以是音频输出设备的一个部件(或与音频输出设备集成)。例如，如本文所述，本地设备的部件中的至少一些部件(诸如控制器)可以是音频输出设备的一部分，和/或音频输出设备的部件中的至少一些部件可以是本地设备的一部分。在这种情况下，每个设备可经由作为音频输出设备内一个或多个印刷电路板(pcb)的一部分的迹线通信地耦接。
40.图2示出了根据一个方面的在与一个或多个远程设备3一起参与呼叫(例如，语音或视频)时发起联合回放媒体会话的本地设备2的框图，并且示出了与本地设备以无线方式通信的音频输出设备6。本地设备2包括控制器20、网络接口21、扬声器22、麦克风23、相机24、显示屏25和(任选地)一个或多个附加传感器40。在一个方面，本地设备可包括更多或更少的元件，如本文所述。例如，该设备可包括至少一些元件中的两个或更多个(例如，具有两个或更多个麦克风23)。
41.控制器20可以是专用处理器诸如专用集成电路(asic)、通用微处理器、现场可编程门阵列(fpga)、数字信号控制器或一组硬件逻辑结构(例如滤波器、算术逻辑单元和专用状态机)。控制器被配置为执行音频信号处理操作和/或联网操作。例如，控制器20可被配置为参与呼叫并同时执行联合媒体回放会话以经由网络接口21与一个或多个远程设备流式传输媒体内容。在另一方面，控制器可被配置为对媒体内容的音频数据及/或与所参与的呼叫相关联的音频数据(例如，下行链路信号)执行音频信号处理操作。本文描述了关于由控制器20执行的操作的更多内容。
42.在一个方面，一个或多个传感器40被配置为检测环境(例如，本地设备位于其中)并基于环境产生传感器数据。在一些方面，控制器可被配置为基于由一个或多个传感器40产生的传感器数据执行操作。例如，本地设备可包括被设计成产生指示物体与传感器(和/或本地设备)相距特定距离的传感器数据的(例如，光学的)接近传感器。又如，本地设备可包括被设计成测量本地设备的位置和/或取向的惯性测量单元(imu)。在一个方面，传感器可以是本地设备的一个部件(或集成到本地设备中)。在另一方面，传感器可以是(例如，经由网络接口21)与控制器通信地耦接的单独电子设备。例如，音频输出设备6可包括一个或多个传感器，其数据可经由无线连接提供给本地设备。
43.扬声器22例如可以是可被专门设计用于特定频带的声音输出的电动驱动器，诸如低音扬声器、高音扬声器或中音驱动器。在一个方面，扬声器22可以是“全音域”(或“全频”)电动驱动器，其尽可能多地再现可听频率范围。麦克风23可以是被配置为将由在声学环境中传播的声波导致的声能转换成输入麦克风信号的任何类型的麦克风(例如，差分压力梯度微机电系统(mems)麦克风)。
44.在一个方面，相机24是互补金属氧化物半导体(cmos)图像传感器，该cmos图像传感器能够捕获包括表示相机24的视场的图像数据的数字图像，其中视场包括设备2所处的
环境的场景。在一些方面，相机可以是电荷耦合器件(ccd)相机类型。该相机被配置为捕获由一系列数字图像表示的静态数字图像和/或视频。在一个方面，相机可被定位在本地设备附近的任何地方。在一些方面，设备可包括多个相机(例如，其中每个相机可具有不同视场)。
45.显示屏25被设计成呈现(或显示)数字图像或视频(或图像)数据的视频。在一个方面，显示屏可使用液晶显示器(lcd)技术、发光聚合物显示器(lpd)技术或发光二极管(led)技术，尽管在其他方面可使用其他显示技术。在一些方面，显示器可以是被配置为感测用户输入作为输入信号的触敏显示屏。在一些方面，显示器可使用任何触摸感测技术，包括但不限于电容、电阻、红外和表面声波技术。
46.音频输出设备6包括控制器75、网络接口76、扬声器77、麦克风78和加速度计79。在一个方面，设备可包括更多或更少的元件。例如，输出设备可包括一个或多个麦克风和/或一个或多个扬声器。在一些方面，输出设备可包括麦克风，该麦克风是被布置为捕获来自声学环境的声音的“外部”(或参考)麦克风，同时具有被布置为捕获用户耳朵(或耳道)内的声音(和/或感测压力变化)的至少一个其他“内部”(或误差)麦克风。在入耳式耳机的情况下，当耳机位于用户耳朵上(或中)时，内部麦克风可感测用户耳朵的内部。
47.加速度计79被布置和配置为接收(检测或感测)在用户(例如，可能佩戴输出设备的用户)说话时产生的语音振动，并且产生表示(或包含)语音振动的加速度计信号。具体地，加速度计被配置为感测在说话和/或哼唱时从用户的声带传输到用户的耳朵(耳道)的骨传导振动。例如，当音频输出设备是无线头戴式耳机时，加速度计可位于耳机上或耳机内可接触用户身体的一部分以便感测振动的任何地方。
48.在一个方面，控制器75被配置为执行音频信号处理操作和/或联网操作，如本文所述。例如，控制器可被配置为获得(或接收)媒体内容的音频数据(作为模拟或数字音频信号)或用户期望的媒体内容(例如，音乐等)，以通过扬声器77回放。在一些方面，控制器可从本地存储器获得音频数据，或控制器可从网络接口76获得音频数据，从而可从外部源诸如本地设备2(经由其网络接口21)获得数据。例如，输出设备可将来自本地设备的音频信号流式传输(例如，经由蓝牙连接)，以通过扬声器77回放。音频信号可以是信号输入音频通道(例如单声道)。在另一方面，控制器可获得用于通过两个或更多个扬声器输出的两个或更多个输入音频通道(例如立体声声道)。在一个方面，在输出设备包括两个或更多个扬声器的情况下，控制器可执行附加的音频信号处理操作。例如，控制器可空间地渲染输入音频通道(例如，通过应用空间滤波器，诸如头部相关传递函数(hrtf))以产生双耳输出音频信号，用于驱动至少两个扬声器(例如，左扬声器和右扬声器)。
49.在一个方面，控制器75可被配置为基于耦接到控制器的元件来执行(附加的)音频信号处理操作。例如，当输出设备包括两个或更多个被布置为将声音输出到声学环境中的“耳外”扬声器而不是被布置为将声音输出到用户耳朵中的扬声器(例如，作为入耳式耳机的扬声器)时，控制器可包括被配置为产生扬声器驱动器信号的声音输出波束形成器，扬声器驱动器信号在驱动两个或更多个扬声器时产生空间选择性声音输出。因此，当用于驱动扬声器时，输出设备可产生可指向环境内的位置的定向波束方向图。
50.在一些方面，控制器75可包括声音拾取波束形成器，该声音拾取波束形成器可被配置为处理输出设备的两个或更多个外部麦克风产生的音频(或麦克风)信号以形成用于
在某些方向上进行空间选择性声音拾取的定向波束方向图(作为一个或多个音频信号)，以便对一个或多个声源位置更敏感。在一些方面，控制器可对包含定向波束方向图的音频信号执行音频处理操作(例如，执行频谱成形)，并且/或者将音频信号传输到本地设备。
51.在另一方面，控制器75可执行其他功能。例如，控制器75可被配置为执行有源噪声消除(anc)功能以使扬声器77产生抗噪声，以便减少泄漏到用户耳朵中的来自环境的环境噪声。anc功能可被实现为前馈anc、反馈anc或它们的组合中的一者。因此，控制器75可从捕获外部环境声音的麦克风诸如麦克风78接收参考麦克风信号。在另一方面，控制器可执行任何anc方法以产生抗噪声。在另一方面，控制器75可执行透明功能，其中由音频输出设备6回放的声音是由设备的外部麦克风以“透明”方式(例如，如同耳机未被用户佩戴那样)捕获的环境声音的再现。控制器75处理由至少一个外部麦克风78捕获的至少一个麦克风信号并且通过透明滤波器过滤该信号，这可减少由于音频输出设备正位于用户耳朵上、中或上方而引起的声学阻塞，同时还保留了佩戴者的解剖特征(例如，头部、耳廓、肩部等)的空间过滤效果。滤波器还有助于保留与实际环境声音相关联的音色和空间提示。在一个方面，根据用户头部的特定测量结果，透明功能的滤波器可以是特定于用户的。例如，控制器75可根据基于用户的人体测量结果的头部相关传递函数(hrtf)或等效的头部相关脉冲响应(hrir)来确定透明滤波器。
52.如本文所述，本地设备和音频输出设备两者都被配置为建立无线音频连接(例如蓝牙连接)以便交换音频数据。在一个方面，控制器75(和/或控制器20)可被配置为在双向无线音频连接(例如，hfp连接)与单向无线音频连接(例如，a2dp连接)之间切换，以将两个设备通信地耦接在一起，以便交换(和传输)音频数据。本文描述了关于音频连接之间的切换的更多内容。
53.在一个方面，由控制器执行的操作可在软件中实现(例如，作为存储在存储器中并由控制器执行的指令)并且/或者可由如本文所述的硬件逻辑结构实现。
54.在另一方面，由如本文所述的音频系统20执行的操作中的至少一些操作可由本地设备2和/或音频输出设备6执行。例如，本地设备可包括两个或更多个扬声器并且可被配置为执行声音输出波束形成器操作(例如，当本地设备包括两个或更多个扬声器时)。在另一方面，操作中的至少一些操作可由与任一设备通信地耦接的远程服务器例如通过网络(例如互联网)执行。
55.在一个方面，本地设备2和/或音频输出设备6的至少一些元件可与每个相应设备集成(或作为其的一个部件)。例如，当音频输出设备是耳上耳机时，麦克风、扬声器和加速度计可以是耳机的至少一个耳杯的一部分，该耳杯放置在用户的耳朵上。在另一方面，至少一些元件可以是通信地耦接到设备的单独电子设备。例如，显示屏25可以是与本地设备通信地耦接(例如，有线或无线连接)以接收供显示的图像数据的单独设备(例如，是显示监视器或电视)。又如，相机24可以是耦接到本地设备以提供所捕获的图像数据的单独电子设备的一个部件(例如，网络摄像头)。
56.如本文所述，音频系统1的本地设备2和远程设备3可在参与呼叫时执行联合媒体回放会话，以便允许设备的用户在体验同时的媒体内容回放时进行通信。在一个方面，本地设备可在已参与呼叫时发起联合媒体回放会话。图3和图4分别示出了当参与电话呼叫和视频会议呼叫时发起联合媒体回放的本地设备和远程设备的图形示例。
57.图3示出了根据一个方面的三个阶段26至28，其中本地设备2和远程设备3发起联合回放媒体会话以在参与电话呼叫时同步地回放音乐作品。第一阶段26示出了当设备参与电话呼叫时在每个相应设备的显示屏幕上显示的主要(或主)屏幕用户界面(ui)。在一个方面，任一设备都可发起电话呼叫，如本文所述。具体地，本地设备的主屏幕ui 11示出了覆盖在若干可选ui项上的远程设备的呼叫者id信息，每个可选ui项与应用程序(例如，应用程序1至应用程序4)相关联，包括当被本地设备执行时将媒体内容(例如，从媒体内容服务器5)流式传输到本地设备的媒体应用程序29。具体地，媒体应用程序29可以是在被执行时流式传输音乐以供扬声器22(和/或音频输出设备的扬声器77)回放的音乐流式应用程序。类似地，远程设备的主屏幕ui 12示出了覆盖在若干(类似的)ui项上的本地设备的呼叫者id信息，这些ui项是针对本地设备示出的那些项。在一个方面，任一设备都可使用任何已知的方法发起电话呼叫。例如，本地设备的用户可能已发起存储在本地设备内的电话应用程序并拨打了远程设备的电话号码。一旦被拨打，本地设备就可经由网络4的蜂窝网络(例如，4g长期演进(lte)网络)连接到远程设备，如本文所述。
58.该阶段还示出了本地设备2的用户按下与媒体应用程序29相关联的ui项。例如，本地设备的显示屏(例如，图2所示的显示屏25)可以是触敏显示屏，如本文所述。本地设备可响应于用户按下媒体应用程序29的ui项而接收用户输入。第二阶段27示出了用户按下媒体应用程序29的ui项的结果。具体地，该阶段示出了媒体应用程序的ui 30显示在本地设备的显示屏幕上，该显示屏幕示出了音乐作品的标题(例如，“the music”)，以及包括播放按钮、倒回按钮和快进按钮的回放控制ui项。该阶段还示出用户已按下“播放”按钮。
59.第三阶段28示出了本地设备的用户选择播放按钮的结果。具体地，一旦选择了播放按钮，本地设备就向媒体内容服务器5传输请求，以开始将媒体内容流式传输到远程设备和本地设备。在一个方面，当多个设备一起进行呼叫(例如，会议呼叫)时，媒体内容服务器5可将媒体内容流式传输到参与会议呼叫的每个设备。因此，远程设备和本地设备都回放媒体内容(例如，通过用从媒体内容服务器接收的媒体内容的音频数据驱动相应的扬声器)。因此，两个设备同时且同步地回放内容，这由处于中途标记处的相应媒体应用程序ui中示出的两个设备的进程指示符39示出。本文描述了关于同时回放媒体内容的更多内容。
60.图4示出了根据一个方面的三个阶段31至33，其中本地设备2和远程设备3发起联合回放媒体会话以在参与视频呼叫时同步地回放影片。第一阶段31示出了当设备参与视频呼叫时在每个相应设备的显示屏幕上显示的主屏幕ui。具体地，覆盖在本地设备的主屏幕ui 11上的是视频呼叫ui 14，其示出本地用户38的视频表示位于ui的右上方并且远程用户37的视频表示(其大于本地用户的表示)位于视频呼叫ui的中部。类似地，覆盖在远程设备的主屏幕ui 12上的是视频呼叫ui 15，其示出远程用户的视频表示位于ui的中部并且本地用户的视频表示位于右上方。在一个方面，可使用由每个设备的一个或多个相机捕获的视频数据来产生视频表示。例如，当本地用户在相机24的视场中时，相机可捕获本地用户的视频数据，该视频数据随后显示在本地设备上并被传输(例如，经由网络4)到远程设备以供显示在远程设备的显示屏幕上。
61.该阶段还示出了本地用户选择与主屏幕ui 11内的媒体应用程序35相关联的可选ui项，媒体应用程序可以是视频流式应用程序。第二阶段32示出了用户按下媒体应用程序35的ui项的结果。具体地，该阶段示出了媒体应用程序35的ui 18显示在本地设备的显示屏
幕上，该显示屏幕示出了影片的标题(例如，“the movie”)、一小时三十分钟的回放持续时间，以及由本地用户按下的播放按钮。
62.第三阶段33示出了本地用户选择媒体应用程序ui 18中的播放按钮的结果。具体地，一旦选择了播放按钮，本地设备就向媒体内容服务器5传输请求，以开始将媒体内容(例如，影片的音频和视频数据)流式传输到参与视频呼叫的设备。因此，两个设备同步回放媒体内容36的视频(并输出媒体内容的音频)，同时仍然参与视频呼叫。
63.如这些示例所示，当设备参与电话呼叫时，音频内容可在联合媒体回放会话中回放，而当设备参与视频呼叫时，视频和音频内容可在会话期间回放。在另一方面，当本地设备和远程设备参与电话呼叫或视频呼叫时，可在联合媒体回放会话期间回放任何类型的媒体内容。例如，当设备参与电话呼叫时，可在联合媒体回放会话期间回放影片。
64.虽然在呼叫期间参与联合媒体回放会话可向参与者提供相对于正在通过参与者的设备回放的媒体内容更好的用户媒体体验(例如，通过允许参与者实时讨论回放会话的媒体内容)，但可能存在一些缺点。例如，参与者之间的谈话可能压过或掩盖媒体内容的声音。例如，当参与者正在观看影片时，参与者之间的谈话可能与同时输出的影片的对话无法区分开来。因此，参与这些单面谈话的参与者可能发现很难在播放影片时说话。此外，这也可能降低未参与这些谈话的那些参与者的整体用户体验，因为谈话可能使他们分心，从而将其全部注意力集中到影片的声音上。因此，需要在呼叫期间参与者参与联合媒体回放会话时保持媒体音频回放质量。
65.为了克服这些缺陷，本公开描述了一种能够通过在呼叫期间处理远程活动语音而在媒体回放会话期间保持媒体内容回放的音频质量的音频系统。具体地，该音频系统在参与呼叫和其中本地设备和(至少一个)远程设备独立地流式传输用于同步回放的媒体内容的联合媒体回放会话时，基于来自语音活动检测器(vad)的输出确定来自远程设备的下行链路(音频)信号包括语音。如果是，该音频系统将标量增益应用于媒体内容的音频信号以降低音频信号的信号电平。该音频系统随后用下行链路信号和音频信号的混合内容来驱动扬声器。这样，当远程设备的参与者正在说话时，系统可管理媒体内容的信号电平。
66.图5示出了根据一个方面的本地设备2框图，该本地设备基于是否在本地设备2与至少一个远程设备3之间执行的电话呼叫的信号内检测到语音而对媒体内容的音频信号执行音频信号处理操作。具体地，该图示出了控制器20具有用于执行音频信号处理操作以在呼叫和联合媒体回放会话期间处理远程活动语音的多个操作块。如图所示，控制器包括呼叫管理器46、联合媒体回放会话管理器47、语音数字信号处理器(dsp)41、语音活动检测器(vad)42、标量增益43、(例如矩阵)混合器44和(任选的)附加dsp 45。
67.呼叫管理器46被配置为在本地设备2与一个或多个远程设备3之间发起(和进行)呼叫。在一个方面，呼叫管理器可响应于用户输入而发起呼叫。例如，呼叫管理器可以是由本地设备(例如，本地设备的控制器20)执行的电话应用程序的一部分(或从电话应用程序接收指令)。例如，电话应用程序可在本地设备的显示屏25上显示ui，这可为本地设备的用户提供发起呼叫的能力(例如，键盘、联系人列表等)。一旦ui接收到用户输入(例如，使用键盘拨打远程用户的电话号码)，呼叫管理器就可与本地设备2的网络接口21通信以建立呼叫，如本文所述。在一个方面，电话呼叫可通过任何网络，诸如通过pstn和/或通过互联网(例如，用于voip呼叫)。在一些方面，呼叫管理器可如本文所描述和/或使用任何方法发起
呼叫。
68.一旦发起呼叫，呼叫管理器就可在本地设备用来参与呼叫的远程设备之间交换呼叫数据。例如，呼叫管理器可从远程设备中的每一个远程设备接收一个或多个下行链路音频信号。在一个方面，呼叫管理器可将下行链路信号混入(至少一个)下行链路音频信号中(例如，经由矩阵混合操作)。此外，呼叫管理器可从麦克风23接收麦克风信号(例如，其可包括本地用户的语音)，并且可将麦克风信号作为上行链路音频信号传输到每个远程设备。在一些方面，当本地设备包括两个或更多个麦克风时，呼叫管理器可传输包括定向波束图案的声音的声音拾取波束形成器信号。
69.联合媒体回放会话管理器47被配置为发起本地设备与一个或多个远程设备之间的联合媒体回放会话，其中两个设备独立地流式传输用于同步回放的媒体内容。例如，响应于接收到发起会话的指令，回放会话管理器可向媒体内容服务器传输发起会话的请求，如本文所述。具体地，在本地设备内执行的媒体应用程序可向会话管理器传输指令，以响应接收到用户输入(例如，基于用户在媒体应用程序中选择播放按钮，如图3和图4所示)。在另一方面，会话管理器可在发起会话之前请求用户授权。例如，一旦用户在媒体应用程序中发起媒体回放，会话管理器就可提供请求发起与呼叫参与者(中的至少一些)的联合媒体回放会话的用户授权的通知(例如，显示在显示屏25上的弹出通知)。当接收到用户授权时(例如，通过接收用户对弹出通知内的ui项的选择)，会话管理器可处理以请求会话的发起，如本文所述。
70.在一个方面，联合媒体回放会话管理器47被配置为接收媒体内容数据(例如，一旦会话被发起)。在这种情况下，会话管理器接收与媒体内容相关联的至少一个音频信号(或音频信道)。例如，所接收的音频信号可与本地用户已请求回放的音乐作品相关联，如图3所示。在一个方面，会话管理器可接收媒体内容片段的两个或更多个音频信号。例如，当从媒体内容服务器流式传输音乐作品时，会话管理器可接收两个音频信道(例如，音乐作品的立体声录音的左声道和右声道)。在另一方面，会话可接收两个或更多个音频信道，诸如5.1环绕格式影片的整个音频声轨。
71.语音dsp 41被配置为从呼叫管理器接收下行链路音频信号并且被配置为对信号执行语音处理操作。在一个方面，语音dsp可对下行链路信号执行降噪算法以减少(或消除)其中包含的噪声(例如，以便产生主要包含远程用户的语音的语音信号)。在一个方面，为了处理信号，算法可应用高通滤波器，因为大多数噪声(或非语音噪声)可能是低频内容。在另一方面，为了处理信号，算法可提高其信噪比(snr)。为此，语音dsp可通过对信号应用一个或多个滤波器(例如，低通滤波器、带通滤波器、高通滤波器等)来对下行链路信号进行频谱整形。又如，dsp可将标量增益值应用于信号。在一个方面，语音dsp可执行任何方法来处理下行链路信号以减少其中包含的噪声。
72.vad 42被配置为接收(例如，经处理的)下行链路音频信号，并且被配置为执行声音活动检测(或语音检测)操作以检测其中存在(或不存在)用户声音(语音)。例如，vad可确定下行链路信号的(至少一部分)频谱内容是否与人类语音相关联。在另一方面，vad可基于下行链路信号的信号电平是否超过阈值来确定语音的存在。在一些方面，vad可使用任何方法来确定信号内是否存在语音。vad被配置为基于下行链路信号生成输出。具体地，vad可生成指示语音是否包含在下行链路信号内的vad信号。例如，当检测到存在语音时，vad信号可
具有高信号电平(例如，1)，而当未检测到语音(或至少在阈值电平内未检测到语音)时，vad信号可具有低信号电平(例如，0)。在另一方面，vad信号不需要是二元决策(语音/非语音)；如本文所述，它可以是根据将被调整的标量增益的语音存在概率。在一些方面，vad信号还可指示所检测到的语音的信号电平(例如，声压级(spl))。
73.如本文所述，vad可接收两个或更多个下行链路音频信号的混合(例如，由呼叫管理器46混合)，每个下行链路信号接收自与本地设备一起参与(例如，会议)呼叫的远程设备。在一个方面，vad可接收每个单独下行链路信号以确定下行链路信号中的至少一者是否包含语音。一旦在下行链路信号中的至少一者中检测到语音，vad就可生成vad信号以指示语音检测。在一些方面，语音dsp可在由vad接收之前处理每个单独下行链路信号。
74.在另一方面，除了(或代替)生成vad信号，本地设备可任选地从远程设备(例如，其中的至少一者)接收vad信号。具体地，每个远程设备可包括其自己的vad，并且可被配置为生成作为vad的输出的vad信号，该信号指示由远程设备的麦克风产生的至少一个麦克风信号(和/或在呼叫期间传输到本地设备2的其上行链路信号)是否包括远程用户的活动语音。一旦生成，每个远程设备就可通过网络4向本地设备传输vad信号。一旦接收到，标量增益43就可基于从远程设备接收到的vad信号对媒体内容的音频信号应用标量增益值。
75.标量增益43被配置为接收来自联合媒体回放会话管理器47的音频信号和来自vad 42(和/或来自至少一个远程设备)的vad信号，并且被配置为基于vad信号来处理音频信号。具体地，标量增益被配置为基于vad信号是否指示在下行链路音频信号内检测到语音的存在，通过应用一个或多个标量增益值来调整音频信号的信号电平(例如，其至少一部分)。具体地，增益调整可降低与联合媒体回放会话相关联(例如，由联合媒体回放会话流式传输)的媒体内容的音频信号的音量级。在一个方面，所应用的标量增益值可以是预定值。在另一方面，该值可基于vad信号。例如，如本文所述，vad信号可指示下行链路音频信号的信号电平(或更具体地，其中包含的语音的信号电平)。在这种情况下，标量增益可被配置为基于信号来调整所应用的标量增益值。例如，当在下行链路音频信号中检测到的语音处于确定信号电平时，标量增益可应用增益值以将音频信号的信号电平降至低于下行链路信号的确定信号电平，以便确保媒体内容的声音低于呼叫内的语音。
76.混合器44被配置为接收来自标量增益43的经处理的音频信号和来自语音dsp 41的经处理的下行链路音频信号，并且被配置为执行矩阵混合操作，例如以便产生两个信号的混合内容。控制器可使用混合信号来驱动扬声器22以回放呼叫的声音以及回放会话的媒体内容。在另一方面，混合器可接收一个或多个未经处理的下行链路音频信号。例如，混合器可从呼叫管理器46接收下行链路音频信号，而不是从语音dsp 41接收经处理的下行链路音频信号。
77.在一个方面，控制器可任选地具有可被配置为对混合内容执行一个或多个音频信号处理操作的附加dsp 45。例如，附加dsp可执行本文所述的操作中的至少一些操作，诸如在空间上渲染混合内容(例如，通过应用空间滤波器，诸如头部相关传递函数(hrtf))，以产生用于驱动一个或多个扬声器(例如，左扬声器和右扬声器)的双耳音频信号，如本文所述。控制器20可随后使用经处理的混合内容来驱动扬声器22，如本文所述。因此，响应于确定远程用户在与本地用户的呼叫期间已开始(和/或正在活跃地)说话，控制器可执行本文所述的操作以降低媒体内容的音量级。
78.如到目前为止所述，响应于检测到来自一个或多个远程设备的一个或多个下行链路信号内存在声音(或话音)，控制器20应用标量增益。在另一方面，该确定可基于本地设备的本地用户是否正在说话。具体地，由vad生成的vad信号可指示一个或多个远程用户和/或本地用户是否正在说话。为了确定这一点，语音dsp 41可任选地获得由麦克风23产生的麦克风信号以执行本文所述的降噪操作。vad可从语音dsp 41接收经处理的下行链路音频信号及/或经处理的麦克风信号，并且可基于任一(或两个)信号生成vad信号。因此，当本地用户或远程用户正在说话时，本地设备可降低媒体内容的音频信号的信号电平。
79.在一个方面，当媒体内容包括两个或更多个音频信号时，控制器对音频信号中的至少一个音频信号执行操作中的至少一些操作。例如，当媒体内容包括用于立体记录的两个音频通道时，控制器20可对两个音频通道执行操作中的至少一些操作，以便降低由本地设备的两个或更多个扬声器输出的每个音频通道的信号电平。
80.在一些方面，控制器20可处理媒体内容的音频信号，而vad信号指示下行链路信号包括远程活动语音。具体地，当vad信号指示存在语音时(例如，只要远程用户或本地用户正在说话)，标量增益43可继续应用标量增益值。一旦vad信号指示不再存在语音，控制器就可停止应用标量增益43，在这种情况下，音频信号可在没有标量增益调节的情况下进入混合器44。在一个方面，一旦不再存在语音，就可逐渐减小所应用的标量增益值，以便逐渐增大音频信号的信号电平。
81.图6示出了根据一个方面的本地设备2框图，该本地设备基于音频输出设备6否检测到语音而对媒体内容的音频信号执行音频信号处理操作。具体地，该图示出了本地设备与音频输出设备通信地耦接以执行(例如，“免提”)呼叫和如图5所述的联合媒体回放会话。例如，两个设备可经由双向无线音频连接(例如，根据hfp协议)连接，其中两个设备交换电话呼叫的音频数据和在联合媒体回放会话期间正在回放的媒体内容。例如，音频输出设备可以是免提设备，诸如被配置为将由麦克风78产生的麦克风信号传输到控制器20(例如，控制器的呼叫管理器46)的无线头戴式耳机，控制器随后将麦克风信号作为呼叫的上行链路信号传输到一个或多个远程设备。此外，本地设备经由双向音频连接将音频信号和(经处理的)下行链路信号的(例如，经处理的)混合内容传输到音频输出设备，该音频输出设备使用混合内容来驱动扬声器77(而不是如图5所示使用混合内容来驱动扬声器22)。
82.此图还说明标量增益43可基于本地设备的vad 82的输出来应用增益值。具体地，可响应于音频输出设备检测到本地用户的语音来应用增益值。例如，音频设备包括vad 82，其被配置为接收由加速度计79产生的加速度计信号并且被配置为基于所接收的信号来生成vad信号。具体地，vad确定加速度计信号的能级是否高于加速度计信号阈值(或能量阈值)，这可以是用户正在说话的指示。响应于确定能级高于能量阈值，可将vad信号设置为高信号电平，如本文所述。在生成vad信号时，音频输出设备6将信号传输到本地设备2，标量增益43接收信号以基于信号来应用增益值，如本文所述。
83.在一个方面，除了vad 82接收加速度计信号(或作为代替)，vad可(任选地)接收由麦克风78产生的麦克风信号以生成vad信号，如本文所述。在另一方面，不是生成vad，而是音频输出设备可将加速度计信号(和/或麦克风信号)传输到本地设备的vad 42，其可随后使用该信号来生成vad信号，如本文所述。因此，本地设备(例如，本地设备的vad 42)可基于由加速度计79产生的加速度计信号来生成vad信号。
84.图7示出了根据一个方面的本地设备2的框图，该本地设备基于是否在视频呼叫的信号内检测到语音来执行音频信号处理操作。具体地，该图示出了控制器20在执行音频信号处理以处理远程活动语音和/或执行视频处理操作时与一个或多个远程设备同时进行视频呼叫和联合媒体回放会话。
85.在一个方面，本地设备2可执行视频呼叫和联合媒体回放会话，如图4所示。具体地，呼叫管理器46可被配置为在本地设备2与一个或多个远程设备3之间发起(和进行)视频呼叫。在这种情况下，除了传输由麦克风23捕获的麦克风信号作为上行链路音频信号，呼叫管理器可从相机24接收相机(例如，视频)信号，并且将视频信号作为上行链路视频信号与上行链路音频信号一起(或代替上行链路音频信号)传输到参与视频呼叫的远程设备。例如，如本文所述，呼叫管理器(例如，响应于在本地设备内执行的电话或视频会议应用程序中接收到用户请求)可建立与远程设备的通信会话，对麦克风和相机信号进行编码，以及将编码的信号(作为上行链路信号)传输到远程设备。除了传输上行链路信号，呼叫管理器可从参与视频呼叫的每个远程设备接收至少一个下行链路音频信号和至少一个下行链路视频信号，以便分别供扬声器22和显示屏25输出。在一个方面，可使用任何方法来发起和进行视频呼叫。在一些方面，联合媒体回放会话管理器47可被配置为接收包括与媒体内容片段相关联的至少一个音频信号和至少一个视频信号的媒体内容数据。例如，所接收的音频信号和视频信号可与本地用户已请求回放的影片相关联，如图4所示。
86.在一个方面，控制器20可在同时进行视频呼叫和联合媒体回放会话时执行与图5和图6中所述的由控制器执行的操作类似的操作。例如，控制器(例如，控制器的vad 42)可基于视频会议呼叫的下行链路音频信号(例如，音频内容)来确定远程设备的远程用户是否开始说话(和/或正在活跃地说话)。作为响应，控制器可使用标量增益43来应用标量增益值，以便在由扬声器22输出时降低音频信号的音量级。
87.此外，控制器20包括用于基于远程用户的语音是否活动来执行音频信号处理操作和/或视频处理操作的附加操作块。例如，控制器包括隐藏字幕生成器48和视频处理器49。隐藏字幕生成器被配置为基于vad 42的vad信号输出而生成表示包含在媒体内容的音频信号内的音频内容的隐藏字幕。具体地，字幕生成器可被配置为响应于控制器20基于vad信号(例如，具有指示下行链路信号包括语音的高信号电平的vad信号，如本文所述)确定下行链路信号(或至少一个下行链路信号)包括语音而生成隐藏字幕，并且可被配置为显示隐藏字幕。因此，当远程用户开始说话时(以及当用户说话时)，可生成和显示隐藏字幕。在一个方面，一旦vad信号指示下行链路信号不再包括语音，字幕生成器就可停止生成和显示隐藏字幕。在另一方面，隐藏字幕生成器可在远程用户停止说话之后的一段时间内继续生成和显示隐藏字幕。
88.在另一方面，隐藏字幕生成器48可被配置为响应于确定本地设备的输出声级低于阈值声级而生成供显示的隐藏字幕。例如，字幕生成器可确定本地用户是否已降低本地设备的音量(例如，通过调整本地设备的音量控制来检测用户是否已降低音量)。如果是，则字幕生成器可自动生成和显示字幕。在另一方面，可基于与媒体内容相关联的音频信号的信号电平来显示字幕。例如，字幕生成器可通过具有低于阈值的信号电平的标量增益响应于媒体内容的经处理的音频信号来生成和显示字幕。
89.在一个方面，为了生成隐藏字幕，隐藏字幕生成器被配置为从会话管理器47接收
与在会话期间流式传输的媒体内容相关联的音频信号，并且可被配置为基于包含在其中的音频内容来生成字幕。在一些方面，生成器可执行语音到文本算法以识别包含在音频信号内的语音并且可生成所识别语音的文本表示。因此，字幕可包括音频内容的转录。在另一方面，字幕可包括非语音音频的文本描述，诸如当前场景的描述。在另一个实施方案中，可从媒体内容数据获得字幕，而不是生成字幕。在这种情况下，字幕生成器可从会话管理器接收字幕。在一些方面，字幕生成器可使用任何方法来生成字幕。
90.在一个方面，视频处理器49被配置为接收图像数据，诸如来自呼叫管理器46的下行链路视频信号、来自会话管理器47的视频信号以及(任选地)来自字幕生成器48的隐藏字幕(例如，当vad信号指示活动远程语音时)，并且被配置为呈现数据以供显示在显示屏25上，以便在视频呼叫期间回放媒体内容(例如，如图4所示)。例如，视频处理器可将隐藏字幕覆盖在媒体内容的所显示视频信号上。在一些方面，视频处理器可对视频信号中的一者或多者执行其他视频处理操作，诸如图像调整大小、图像合成等。
91.在一个方面，控制器可基于vad 42是否检测到远程活动语音来调整媒体内容的回放。具体地，一旦(例如，通过vad)确定远程语音不再是活动的，联合媒体回放会话47就可将媒体内容倒回至初始检测到活动语音之前的时刻。例如，联合媒体回放会话管理器可从vad 42接收vad信号并沿媒体内容的回放持续时间确定第一时间戳，在该第一时间戳处，vad信号开始指示下行链路信号包括语音(例如，vad信号从低信号电平转换到高信号电平的时刻)。此时，远程用户和本地用户可能已开始谈话。一旦该谈话结束，就可倒回媒体内容以在沿回放持续时间的第一时间戳处(或之前)开始回放。例如，一旦会话管理器确定第二后续时间戳，在该第二后续时间戳处，作出其中vad信号指示下行链路信号已停止包括语音(例如，vad的信号电平从高信号电平转换到低信号电平的时刻)的确定，会话管理器就可暂停媒体内容的回放(在第二时间戳处或之后)。在一个方面，暂停视频回放可包括在沿回放持续时间的时刻暂停媒体内容的显示。此外，通过停止用下行链路信号和音频信号的混合内容来驱动扬声器22，可暂停音频信号的音频回放。在另一方面，可暂停音频信号的音频回放，而可继续下行链路音频信号的回放。在这种情况下，一旦确定音频回放将被暂停，混合器44就可停止混合两个信号并且可传递下行链路信号用于驱动扬声器22。因此，本地用户和远程用户可参与谈话，并且当完成时可继续体验媒体内容的回放。
92.在一个方面，回放调整可发生在参与呼叫和与本地设备的联合媒体回放会话的至少一些远程设备上。例如，响应于远程语音不再是活动的，控制器20可向远程设备传输控制信号，指示设备将回放倒回至沿回放持续时间的时刻。
93.图8至图10分别是用于响应于检测到远程活动语音而执行一个或多个操作的过程50、60和70的流程图。在一个方面，过程可由音频系统1的一个或多个设备执行，如图1中所示。例如，这些过程的操作中的至少一些操作可由本地设备2(例如，其控制器20)和/或由音频输出设备6(例如，其控制器75)执行。
94.关于图8，该图是用于基于是否在下行链路音频信号内检测到语音来处理媒体内容的音频信号的过程50的一个方面的流程图。过程50开始于控制器20发起本地设备2与一个或多个远程设备3之间的呼叫(例如，电话呼叫或视频呼叫)(在框51处)。如本文所述，呼叫可由呼叫管理器46响应于接收到本地用户的请求而发起。在一个方面，呼叫的发起可响应于从一个或多个远程设备接收到呼入呼叫。在这种情况下，呼叫可由呼叫管理器响应于
用户接受呼叫而发起(例如，经由用户选择电话应用程序的用于接听在从远程设备接收到呼入呼叫信号时显示在显示屏25上的呼叫的ui项)。
95.在呼叫期间，控制器20作为本地设备2发起联合媒体回放会话，其中本地设备和一个或多个远程设备独立地流式传输媒体内容供同步回放(在框52处)。例如，联合媒体回放会话管理器47可基于用户输入来发起回放。在一个方面，回放会话可在进行呼叫的所有设备之间。在另一方面，可在本地设备与远程设备中的至少一些之间发起回放会话。在这种情况下，当被发起时，本地用户可定义哪些远程设备将要参与。在一些方面，发起联合媒体回放会话可响应于控制器20从一个或多个远程设备和/或媒体内容服务器5接收到发起请求。
96.如本文所述，一旦被发起，控制器20可接收与媒体内容相关联的至少一个音频信号和/或至少一个视频信号，并且可被配置为回放媒体内容并同时输出下行链路音频信号和/或下行链路视频信号，如本文所述。
97.控制器20基于来自vad(诸如控制器20的vad 42和/或音频输出设备6的vad 82)的输出确定来自远程设备中的一者或多者的下行链路信号是否包括(例如，远程活动)语音(在决策框53处)。具体地，控制器可确定vad信号是否处于高信号电平，在远程用户开始说话或已开始说话时发生高信号电平。如果是，则控制器20将标量增益应用于与媒体内容相关联的音频信号以降低音频信号的信号电平(在框54处)。例如，在检测到语音时，控制器可将标量增益43应用于来自会话管理器47的音频信号。控制器20混合(经增益调整的)音频信号和下行链路信号(在框55处)。控制器20用混合内容来驱动扬声器(在框56处)。在一个方面，扬声器可以是本地设备的一个部件，诸如扬声器22。在另一方面，扬声器可以是与本地设备通信耦接的单独电子设备的一个部件，诸如音频输出设备6的扬声器77。
98.图9是用于显示表示媒体内容的音频内容的隐藏字幕的过程60的一个方面的流程图。在一个方面，该过程可在本地设备2和一个或多个远程设备3同时进行呼叫和联合媒体回放会话时执行，如本文所述。过程60开始于控制器20接收下行链路信号(在框61处)。控制器接收来自vad(例如，vad 42)的指示下行链路信号是否包括语音的输出(在框62处)。控制器确定来自vad的输出是否指示下行链路信号包括语音(在决策框63处)。具体地，控制器确定远程设备的用户是否开始(或已开始)说话。如果是，则控制器生成表示包含在媒体内容的一个或多个音频信号内的音频内容的隐藏字幕(在框64处)。控制器随后显示隐藏字幕(在框65处)。这样，响应于确定远程用户正在说话，本地设备2在显示屏25上显示隐藏字幕。
99.图10是用于在确定下行链路音频信号已停止包括语音时倒回媒体内容的回放的过程70的一个方面的流程图。过程70开始于控制器20确定沿媒体内容的回放持续时间的第一时间戳，在该第一时间戳处，来自vad的输出开始指示下行链路信号包括语音(在框71处)。控制器20沿媒体内容的回放持续时间确定在第一时间戳之后的第二时间戳，在该第二时间戳处，来自vad的输出指示下行链路信号已停止包括语音(在框72处)。具体地，可响应于确定由vad产生的vad信号处于高信号电平来确定第一时间戳，并且可响应于确定vad信号从高信号电平变为低信号电平来确定第二时间戳。控制器20通过在第二时间戳处或之后暂停媒体内容的回放并且从沿回放持续时间的第一时间戳起(或之前)开始媒体内容的回放来倒回媒体内容的回放(在框73处)。
100.一些方面可对在图8至图10中描述的过程50、60和/或70执行变型。例如，这些过程中的至少一些的特定操作可以不以所示出和所描述的确切顺序执行。可不在连续的一系列
操作中执行该特定操作，并且可在不同方面中执行不同的特定操作。例如，在图8中，可在发起呼叫之前发起联合媒体回放会话。在这种情况下，本地用户可(例如，在媒体应用程序诸如图3和图4中显示的媒体应用程序的ui内)选择供回放的媒体内容并选择一个或多个远程设备(例如，选择与远程设备相关联的联系信息，诸如电话号码)。一旦完成选择，本地用户可通过选择播放按钮来发起回放，例如如图3和图4所示。
101.此外，控制器20可响应于检测到远程活动语音而执行一个或多个操作。例如，在检测到远程语音已开始时，控制器20可执行过程50和60中的操作，以便降低音频信号的音量级并显示隐藏字幕。
102.在一个方面，控制器20可响应于指示下行链路信号不包括语音的vad的输出而停止执行过程50、60和/或70中描述的操作中的至少一些操作。例如，当vad的输出指示语音不在下行链路信号内时，控制器可在图8的框54处停止将标量增益应用于音频信号。因此，媒体内容的声级可恢复到从音量级降低之前(例如，在检测到远程用户的语音之前)的先前级别。类似地，一旦远程语音不再被确定为活动的，控制器就可在框64和65处停止生成和显示隐藏字幕。
103.在一个方面，由控制器执行以基于远程活动语音的检测来保持媒体内容的音频质量的操作可以是自动的(例如，无需用户干预)。例如，隐藏字幕生成器48可基于vad的输出自动生成和显示字幕，如过程60所述。在另一方面，响应于接收到用户授权，可执行操作中的至少一些操作(例如，通过应用标量增益进行的音频信号的信号电平的调整，隐藏字幕的生成和显示，和/或回放的倒回等)。具体地，响应于确定vad的输出指示下行链路信号已停止包括语音，控制器可向本地用户提供请求执行本文所述操作中的至少一个操作的授权的通知。例如，当在过程70的框72处确定不再存在远程语音的第二时间戳时，控制器可向用户提供通知，在框73处请求倒回回放的授权。在一个方面，通知可以是显示在显示屏25上的弹出通知。一旦(例如，通过用户选择ui项)接收到授权，控制器就可执行本文所述操作中的至少一个操作。在另一方面，如果(例如，在一段时间内)未接收到用户授权，则控制器可放弃执行本文所述操作中的至少一些操作。例如，如果未接收到倒回回放的授权，则控制器可在该时间段之后继续回放媒体内容。
104.如本文所述，由控制器执行以保持媒体内容回放的媒体质量的操作(例如，标量增益的应用，隐藏字幕的生成和显示，和/或媒体内容回放的倒回等)可基于在并发呼叫期间是否存在远程活动语音。此外，可响应于控制器确定存在本地活动语音来执行操作中的至少一些操作。例如，控制器20可响应于确定vad的输出指示1)由本地设备或音频输出设备的麦克风产生的麦克风信号包含本地用户的语音和/或2)由加速度计产生的加速度计信号具有指示语音的能级而将标量增益应用于音频信号。
105.如到目前为止所述，由控制器执行以保持媒体内容的音频质量的操作可响应于检测远程活动语音和/或本地活动语音。换句话讲，可在本地用户或远程用户正在说话时执行这些操作。在另一方面，可响应于下行链路信号的信号电平和/或由耦接到本地设备的麦克风(诸如麦克风23)产生的麦克风信号的噪声电平超过阈值电平而执行用以保持音频质量的操作中的至少一些操作。具体地，当在远程设备或本地设备处出现响亮的声音时，可执行这些操作。这样，例如，响应于下行链路信号或麦克风信号超过信号电平，控制器可生成和显示隐藏字幕，如过程60中所述。此外，当噪声减弱时(例如，信号电平降至阈值以下)，控制
器20可倒回回放，如过程70中所述。
106.当使用以无线方式连接到媒体源设备的音频输出设备(例如，无线头戴式耳机)时，诸如音乐作品、影片的流媒体内容要求源设备通过无线连接将高质量音频流传输到音频输出设备以供输出(例如，以驱动一个或多个扬声器)，以便提供良好的收听者体验。为了流式传输高质量音频，大多数无线头戴式耳机与源设备建立支持高比特率和采样率的单向无线音频连接。例如，两个设备可使用提供高质量音频的无线配置文件(诸如a2dp)来建立蓝牙连接。a2dp允许立体声音频从源设备流式传输到无线头戴式耳机并以高达48khz的采样率使用sbc编解码器。
107.当与已发起与另一设备的呼叫并已发起联合媒体回放会话以便流式传输媒体内容的源设备通信时，一些音频输出设备可能不能支持高质量音频。例如，为了允许音频输出设备与源设备之间的无线通信，两个设备可建立双向无线音频连接以交换与呼叫相关联的音频信号。然而，这些双向无线音频连接仅向音频输出设备提供低质量音频流。例如，两个设备都可使用允许在多个设备之间交换音频数据的无线配置文件(诸如hfp或hsp)来建立蓝牙连接。这些配置文件仅支持在两个设备之间交换的“语音质量”或低质量音频。例如，hfp传统上仅使用具有8khz至16khz的采样率的编解码器，并且仅能够传输单声道音频信号。虽然此类低质量流对于纯语音通信可能是足够的，但当除了进行呼叫还流式传输媒体内容时，此类无线连接可能不提供足够的音频质量。然而，在一个方面，其他音频输出设备可被设计成支持高质量音频无线传输。例如，音频输出设备可使用具有较高采样率(例如，24khz)的编解码器的无线配置文件来支持“高质量”双向无线音频连接。因此，需要在呼叫期间基于音频输出设备的能力发起联合媒体回放会话时在无线音频连接之间进行切换。
108.为了克服这些缺陷，本公开描述了一种用于在呼叫期间切换无线音频连接的方法和音频系统。具体地，该方法可由(例如，采用免提通信)通信地耦接到音频输出设备6的本地设备2执行。例如，当与远程设备一起参与呼叫(例如，电话呼叫或视频呼叫)时，本地设备经由双向无线音频连接与音频输出设备通信。本地设备确定已发起联合媒体回放会话，其中本地设备和远程设备独立地流式传输媒体内容，以供在参与呼叫时由这两个设备单独回放。基于对音频输出设备的一种或多种能力的确定(例如，确定输出设备仅支持低质量音频流)，本地设备切换为经由单向无线音频连接与无线头戴式耳机通信，其中1)与呼叫相关联的一个或多个信号和2)媒体内容的音频信号的混合内容通过单向无线音频连接传输到无线头戴式耳机。因此，当参与呼叫和联合媒体回放会话两者时，音频输出设备可提供高质量音频。
109.图11示出了根据一个方面的框图，其中本地设备2经由双向无线音频连接与音频输出设备6通信地耦接以在本地设备与远程设备3一起参与呼叫时交换音频数据。具体地，该图示出了本地设备经由双向无线音频连接与音频输出设备通信，同时与远程设备一起参与(例如，免提)呼叫，以便在本地设备与音频输出设备之间交换呼叫的音频数据。这通过本地设备的被停用(例如，显示为加删除线)的麦克风23和音频设备的捕获声音(例如，如声波所示)的麦克风78来举例说明。在一个方面，该图示出了在已发起联合媒体回放会话之前(或之后)的两个设备。
110.如图所示，两个设备经由允许两个设备交换音频数据的双向无线音频连接80通信地耦接，如本文所述。在一个方面，双向连接可以是允许两个设备交换音频数据的任何类型
的无线连接，诸如hfp连接。在一个方面，双向连接可能是“低质量”双向无线音频连接(低质量无线连接)或“高质量”双向无线音频连接(高质量无线连接)。在一个方面，低质量无线连接可被设计成支持单声道音频和/或以小于阈值采样率(例如，24khz)的采样率传输音频流。在一些方面，低质量双向连接可以是传统的hfp或hsp连接，如本文所述。在一些方面，高质量音频连接可被设计成支持立体声音频及/或以至少阈值采样率的采样率传输音频流。在一个方面，高质量音频连接可以是使用具有以阈值采样率或高于阈值采样率传输立体声音频流的编解码器的无线配置文件(例如，hfp)的蓝牙连接。
111.在一个方面，无线连接的音频质量可基于音频输出设备(和/或本地设备)的能力(或特性)。例如，在双向无线音频连接的发起期间，音频输出设备可将设备特性传输到本地设备。在一个方面，这些特性可指示音频输出设备可与本地设备建立何种类型的无线音频连接。例如，这些特性可指示音频输出设备支持哪些无线配置文件和/或音频编解码器。在一个方面，基于这些特性，本地设备可建立双向无线音频连接。
112.为了进行免提通信，本地设备和音频输出设备的控制器20和75两者分别包括一个或多个操作块。例如，控制器20包括音频呼叫管理器46和语音dsp 41，而控制器75包括(任选的)回声消除器83。控制器20还包括媒体回放管理器47，但由于两个设备都不进行联合媒体回放会话，所以该操作块是不活动的(如具有虚线边界所示)。
113.如本文所述，音频呼叫管理器被配置为在本地设备2与一个或多个远程设备3之间发起(和进行)呼叫(例如，通过交换呼叫的音频数据)。具体地，管理器从远程设备接收下行链路音频信号并且将从音频输出设备接收的麦克风信号作为上行链路音频信号传输到远程设备。语音dsp 41被配置为从音频呼叫管理器接收下行链路音频信号并且被配置为对信号执行音频信号处理(例如，语音处理)操作以便减少(或消除)其中包含的噪声。如本文所述，语音dsp可将降噪应用于与呼叫相关联的下行链路音频信号。音频输出设备通过双向无线音频连接80(经由网络接口21和76)将(经处理的)下行链路音频信号传输到音频输出设备以驱动扬声器77。
114.在一个方面，音频输出设备可包括任选的回声消除器83，该回声消除器被配置为接收由麦克风78捕获的麦克风信号并且被配置为执行回声消除操作以便从麦克风信号中消除线性回声。具体地，该消除器可基于麦克风78与扬声器77之间的传输路径来确定线性滤波器并且将该滤波器应用于下行链路音频信号以生成将从麦克风信号中减去的回声估计。在一些方面，回声消除器可使用任何回声消除方法。(经回声消除的)麦克风信号随后通过双向无线音频连接80传输到音频呼叫管理器46，以作为上行链路音频信号传输到远程设备。
115.图12示出了根据一个方面的框图，其中在联合媒体回放会话以及与远程设备3的呼叫期间，本地设备2经由双向无线音频连接通信地耦接到音频输出设备6。具体地，该图示出了本地设备2发起联合媒体回放会话，而本地设备和音频输出设备参与免提呼叫的结果，如图5所示。用从媒体内容服务器5接收媒体内容(例如，作为音频信号)的媒体回放管理器47举例说明回放会话的发起。在一个方面，该图可以类似于描述在同时进行免提呼叫和联合媒体回放会话时与音频输出设备通信耦接的本地设备的图6。该图还示出控制器包括一个或多个附加运算块，诸如混合器44、无线音频连接开关决策逻辑13和标量增益86(其是任选的)。
116.在一个方面，决策逻辑13被配置为确定是切换到单向无线音频连接还是(例如，维持)双向无线音频连接以最大化媒体内容和呼叫的音频质量，由此提供最佳用户体验。具体地，决策逻辑通过从联合媒体回放会话管理器接收指示(例如，将要)在本地设备与一个或多个远程设备之间建立(例如，新的)媒体会话的控制信号来确定已发起联合媒体回放会话。在一个方面，决策逻辑基于音频输出设备的能力(例如，可能已在双向无线音频连接80的初始化期间接收到的能力)来确定是否切换，如本文所述。例如，如果音频输出设备被判定为不支持通过使用双向连接获得高质量音频(例如，基于具有低于阈值速率的采样率的可用音频编解码器，如本文所述)，则决策逻辑可将无线连接切换到单向连接。图13a和图13b描述了关于单向连接的更多内容。然而，在该图中，决策逻辑已确定音频输出设备支持高质量音频。在这种情况下，本地设备已建立用于流式传输高质量音频的(例如，高质量)双向无线音频连接81。在一个方面，该连接可能在发起免提呼叫时建立(例如，在图11中)。在这种情况下，一旦作出现有连接(例如，在免提呼叫期间在本地设备与音频输出设备之间)提供高质量音频的确定，本地设备就可保持与音频输出设备的双向连接。因此，连接80和81可以是相同的连接。
117.在另一方面，决策逻辑13不是从音频输出设备接收特性，而是可基于音频输出设备来检索一个或多个特性。具体地，在免提呼叫的初始化期间，音频输出设备可向本地设备传输设备标识符。决策逻辑可使用该标识符对将特性与设备标识符相关联的数据结构执行表查找。
118.在一个方面，在发起联合媒体回放会话时，本地设备可确定是切换到单向无线音频连接还是(例如，维持)双向无线音频连接以最大化媒体内容和呼叫的音频质量，由此提供最佳用户体验。在一个方面，该确定可基于音频输出设备的能力，如本文所述。例如，如果音频输出设备不支持通过使用双向连接获得高质量音频(例如，基于具有低于阈值速率的采样率的可用音频编解码器，如本文所述)，则本地设备可将无线连接切换到单向连接。图13a和图13b描述了关于单向连接的更多内容。然而，在该图中，本地设备已确定音频输出设备支持高质量音频。在这种情况下，本地设备已建立用于流式传输高质量音频的(例如，高质量)双向无线音频连接81。在一个方面，该连接可能在发起免提呼叫时建立(例如，在图11中)。在这种情况下，一旦作出现有连接(例如，在免提呼叫期间在本地设备与音频输出设备之间)提供高质量音频的确定，本地设备就可保持与音频输出设备的双向连接。因此，连接80和81可以是相同的连接。
119.在一个方面，在进行联合媒体回放会话和呼叫时，本地设备可停止执行一个或多个操作并且开始对呼叫的下行链路信号和/或媒体内容的音频信号执行一个或多个音频处理操作。例如，控制器20包括混合器44和标量增益86(其是任选的)，其中混合器44接收来自媒体回放管理器47的媒体内容的音频信号和来自呼叫管理器46的下行链路音频信号，而不是语音dsp 41接收下行链路音频信号。在一个方面，控制器可响应于切换以经由单向连接与音频输出设备通信而停止执行语音dsp操作(例如，停止对下行链路音频信号应用降噪)，以便提供下行链路信号的媒体内容和音频内容两者的更完整频谱内容。如本文所述，混合器被配置为执行矩阵混合操作以生成信号的混合内容。标量增益86被配置为接收混合内容，并且被配置为将标量增益应用于混合，以便降低混合的信号电平。在一个方面，标量增益可在发起联合媒体回放会话之后(或在控制器20切换以经由单向无线音频连接与音频输
出设备通信之后)应用一个时间段。在该时间段之后，可减小(或去除)标量增益，使得不再将增益应用于混合内容。在一个方面，标量增益可递增地减小第二时间段以提供衰减效应。混合内容随后通过双向无线音频连接81传输到音频输出设备，用于驱动扬声器77，如本文所述。
120.图13a和图13b示出了根据一个方面的若干框图，其中与音频输出设备6通信地耦接以用于交换音频数据的本地设备2基于联合媒体回放会话的发起而在无线音频连接之间切换。具体地，图13a示出了其中本地设备和音频输出设备经由单向无线音频连接85耦接的框图。具体地，该图示出了本地设备2在参与呼叫时发起联合媒体回放会话的结果。然而，不同于其中在本地设备与音频输出设备之间维持双向无线音频连接的图12，该图示出本地设备已切换到单向无线音频连接85，以便将高质量音频数据流式传输到音频输出设备以供输出(例如，通过扬声器77)。
121.在一个方面，从双向连接到单向无线音频连接的切换(或转换)可基于音频输出设备，如本文所述。例如，决策逻辑13可确定(例如，响应于从会话管理器47接收到控制信号)音频输出设备不支持以至少阈值采样率的采样率经由双向无线音频连接交换音频信号。如本文所述，该确定可基于从音频输出设备接收的特性，或基于使用设备标识符对数据结构执行表查找。在一个方面，决策逻辑可基于未从设备接收到特性和/或未在数据结构内识别出设备来确定切换到单向无线音频连接(例如，转换的决策可以是决策逻辑的默认决策)。
122.在一个方面，本地设备2和音频输出设备可执行一个或多个操作以从双向连接80转换到单向无线音频连接85。例如，本地设备2(或音频输出设备6)可断开(或终止)双向无线音频连接80。一旦断开，本地设备就可与音频输出设备建立单向无线音频连接(例如，蓝牙a2dp连接)。在一个方面，由于针对其中音频数据仅可从本地设备传输到音频输出设备的单向连接而断开双向连接，所以控制器可被配置为激活一个或多个其他麦克风，以便捕获用于上行链路音频信号的本地用户语音。具体地，控制器可向音频输出设备传输信号以使麦克风78静音(如通过删除线所示)，并且可激活本地设备的麦克风23以捕获本地用户的语音。在一个方面，激活的麦克风可以是不同电子设备的一个部件。因此，麦克风23的麦克风信号可作为上行链路音频信号传输到远程设备。本文描述了关于由控制器执行的用于切换无线音频连接的更多内容。
123.在一个方面，控制器20可(任选地)对由麦克风23产生的麦克风信号执行回声消除估计操作。具体地，控制器20包括回声消除估计器87，其被配置为执行回声消除操作，以便从麦克风信号中消除回声。在一个方面，估计器可执行与图11中描述的消除器83类似的操作。例如，当两个设备都参与呼叫时，估计器可获得本地设备的将被传输到远程设备的麦克风信号。估计器被配置为生成与呼叫相关联的一个或多个(例如，下行链路音频)信号的一部分的估计。例如，估计器可基于麦克风23与扬声器77之间的传输路径来确定线性滤波器。在一个方面，不同于麦克风78与扬声器77之间的可界定的传输路径(例如，基于麦克风和扬声器两者在预定义位置处集成到音频输出设备中)，本地的麦克风23与音频输出设备的扬声器77之间的传输路径可以不是预定义的。因此，估计器可估计传输路径。例如，估计器可基于麦克风23捕获的由扬声器77产生的声音的到达时间来确定麦克风23与扬声器77之间的距离。在另一方面，估计器可基于无线音频连接的接收信号强度(rssi)来估计路径。在一些方面，估计器可使用任何声音定位方法来确定扬声器77的位置，并因此确定从扬声器到
麦克风的路径。在另一方面，传输路径可以是预定义的(例如，在诸如实验室的受控环境中确定的路径)。使用传输路径的估计，确定线性滤波器，该滤波器被应用于下行链路音频信号以生成将从麦克风信号中减去的回声估计，如本文所述。
124.在一个方面，无线音频连接切换决策逻辑13可被配置为在进行联合媒体回放会话和呼叫时在单向无线音频连接85与双向无线音频连接之间切换。在一个方面，决策逻辑可切换到高质量双向无线音频连接(例如，图12中的连接81)。在另一方面，当音频输出设备不支持高质量双向无线音频连接时，决策逻辑可将单向无线音频连接切换到低质量双向无线音频连接，以便提供与音频输出设备的免提通信，如本文所述。虽然由于具有较低音频质量而不如单向无线音频连接优选，但在一些情况下，基于一个或多个标准可能要求或需要这种功能。图13b描述了到低质量双向连接的切换。
125.在一个方面，切换到双向无线音频连接可基于本地设备2和/或音频输出设备6的位置。例如，如本文所述，当转换到单向无线音频连接时，在呼叫期间和在发起联合媒体回放会话之前使用的麦克风的位置可位于音频输出设备处，音频输出设备可以是佩戴在用户头上的无线头戴式耳机。然而，一旦发起单向连接，(例如，活动)麦克风的位置可改变为可能与音频输出设备分离的不同麦克风(例如，本地设备的麦克风23)。因此，在呼叫和联合媒体回放会话期间使用的麦克风和扬声器可以是不同电子设备的一个部件，每个设备位于不同位置。因此，为了参与呼叫和联合会话，可能要求本地用户使本地设备和音频输出设备都紧密接近(例如，为了使麦克风捕捉用户的语音并且为了使用户听到由音频输出设备的扬声器产生的声音)。在一个方面，决策逻辑可从一个或多个传感器40接收传感器数据，并且可被配置为确定本地设备与音频输出设备是否分开阈值距离。例如，决策逻辑可从一个或多个相机(例如，相机24)接收图像数据，并且使用图像数据通过使用图像识别算法来确定音频输出设备的位置。在另一方面，决策逻辑可基于单向连接的rssi来确定音频输出设备的位置。例如，响应于确定rssi低于阈值，决策逻辑可执行到双向连接的切换。由于用户可能离新的活动麦克风太远，以至于不能清楚地拾取本地用户的语音。
126.在另一方面，该决策可基于本地用户是否位于本地设备的显示屏25的前方(或旁边)。例如，相机24可与显示屏相邻地定位并且具有在显示屏前方的视场。决策逻辑可从相机接收图像数据并执行图像识别算法以确定用户是否在场(例如，位于显示屏的前方)。如果不是，则决策逻辑可执行切换。在一些方面，决策逻辑可基于其他传感器数据(诸如接近度传感器数据)作出此确定。在这种情况下，一个或多个接近传感器可被布置成确定物体是否在距显示屏25的阈值距离内。如果不是，这表示本地用户不在显示屏的前方，则决策逻辑可执行切换。
127.在另一方面，决策逻辑13可基于物体是否在距本地设备(例如，本地设备的麦克风23)的阈值距离内来执行切换。例如，当本地设备是智能电话时，用户可将智能电话放在口袋中。在这种情况下，麦克风可捕获沉闷的用户声音。这样，决策逻辑可接收指示物体是否在阈值距离内的传感器数据。例如，传感器可以是接近传感器。响应于物体在该距离内，决策逻辑可执行切换。
128.在一些方面，决策逻辑可基于本地用户是否正在说话来执行切换。例如，在本地用户不说话的时刻，麦克风可能不是必需的，因此可建立单向无线连接以便提供高质量音频。然而，响应于确定本地用户正在说话，决策逻辑可执行切换。例如，决策逻辑可响应于本地
用户说话而从音频输出设备接收控制信号，并且可基于所接收的控制信号来执行切换。例如，当控制信号是由音频输出设备的vad 82产生的vad信号以响应检测到来自加速度计79的加速度计信号的高能级时，决策逻辑可确定本地用户正在说话。在另一方面，可从本地设备的vad(例如，如图5中所示的vad42)接收vad信号，vad信号可被配置为基于从音频输出设备接收到的信号(诸如一个或多个加速度计信号和/或一个或多个麦克风信号)来检测本地用户的语音。一旦用户说话，决策逻辑就可切换到双向无线音频连接并且可激活输出设备的麦克风78以捕获用户的语音。一旦用户说话完毕(例如，vad信号指示不再检测到用户的语音)，则决策逻辑可切换回单向音频连接。
129.图13b示出了其中本地设备和音频输出设备已切换到双向无线音频连接，同时进行如本文所述的联合媒体回放会话和呼叫的框图。具体地，该图示出了在呼叫和回放会话期间决策逻辑13切换到双向无线音频连接(例如，基于一个或多个标准)的结果。如图所示，双向无线音频连接89是低质量连接，这可能是由于音频输出设备不支持高质量连接的事实而造成的，如本文所述。除了转换到双向连接之外，本地设备和音频输出设备已将麦克风的(活动)位置从本地设备恢复到音频输出设备。
130.如图12、图13a和图13b所述，本地设备可参与其中接收媒体内容(例如，音乐作品)的一个或多个音频信号以供回放的联合媒体回放会话。在一个方面，在这些图中执行的操作可在本地设备参与其中多媒体内容正被回放的联合回放会话时发生，例如视频显示在显示屏25上并且音频由扬声器77输出。此外，控制器20和/或控制器75还可执行本文所述的至少一些其他操作。
131.图14至图18分别是过程90、100、110、130和120的流程图，这些过程在呼叫期间执行用于切换无线音频连接的一个或多个操作。在一个方面，过程中的至少一些过程可由音频系统1的一个或多个设备执行，如图1中所示。例如，至少过程90、100和110由本地设备2(例如，其控制器20)执行，并且过程130和120由音频输出设备6(例如，其控制器75)执行。在另一方面，设备中的任一个设备可执行本文所述操作中的任一个操作。
132.图14是用于在无线音频连接之间切换的过程90的一个方面的流程图。在一个方面，该过程可由本地设备2的控制器20执行。过程90开始于控制器发起本地设备与远程设备之间的呼叫(在框91处)。例如，呼叫管理器46可发起本地设备与一个或多个远程设备之间的(例如电话或视频)呼叫，如本文所述。当与远程设备一起参与呼叫时，控制器20经由双向无线音频连接与音频输出设备通信(在框92处)。具体地，本地设备2可经由无线通信链路(例如，经由蓝牙协议或任何其他无线通信协议)与音频输出设备建立无线连接。例如，本地设备可与音频输出设备通信以配置蓝牙堆栈，该蓝牙堆栈在音频输出设备内执行，以经由双向无线音频连接在设备之间交换音频数据(例如，通过协商用于解码和编码在设备之间交换的音频信号的编解码器)。在此期间，音频输出设备可传输指示其能力(例如，其支持的音频编解码器等)的消息。在一个方面，基于这些能力，本地设备可建立双向无线音频连接。具体地，如果能够支持高质量音频流(例如，以至少阈值采样率的采样率)，则本地设备可建立高质量双向无线音频连接，如本文所述。一旦建立，本地设备就可经由双向连接将与呼叫相关联的一个或多个(例如，下行链路音频)信号传输到音频输出设备并接收用于呼叫的一个或多个麦克风信号。在另一方面，设备可建立低质量无线音频连接，而不论音频输出设备的能力如何，因为在设备之间仅交换语音数据。
133.控制器20确定已发起联合媒体回放会话，其中本地设备和远程设备独立地流式传输媒体内容，以供在参与呼叫时由这两个设备单独回放(在框93处)。具体地，联合媒体回放会话管理器47可能已从本地用户接收到用户请求(例如，经由显示在显示屏25上的ui)，或者可能已从媒体内容服务器5接收到指示一个或多个远程设备已请求发起回放会话的请求。
134.控制器20确定音频输出设备是否支持经由(例如，高质量)双向无线音频连接与本地设备交换呼叫和媒体内容的音频信号。(在决策框94处)具体地，无线音频连接切换决策逻辑13可例如基于音频输出设备6的一个或多个能力从(例如，当前建立的)双向无线音频连接切换到单向无线音频连接。例如，决策逻辑可基于对将特性与设备标识符相关联的数据结构执行表查找来确定音频输出设备是否支持高质量音频。在一个方面，由于已经建立双向无线音频连接，所以决策逻辑可确定已经存在于两个设备之间的连接的类型(例如，连接是否为使用具有高于阈值速率的采样率的编解码器的hfp连接及/或hfp连接是否支持立体声音频)。如果是，则控制器在参与呼叫时和在联合媒体回放会话期间经由(例如，高质量)双向无线音频连接与音频输出设备通信(在框95处)。在一个方面，如果初始无线音频连接是低质量连接，则控制器可断开该连接并建立高质量双向无线音频连接。然而，如果初始建立的双向无线音频连接是高质量连接，则控制器可维持现有连接。
135.然而，如果音频输出设备不支持高质量双向无线音频连接，则控制器20切换为经由单向无线音频连接与音频输出设备通信(例如，基于音频输出设备的一个或多个能力，如本文所述)，其中与呼叫相关联的一个或多个信号和媒体内容的音频信号的混合内容通过单向无线音频连接传输到音频输出设备(在框96处)。具体地，如本文所述，控制器20可断开双向无线音频连接并建立单向连接。一旦建立，控制器就可将媒体内容和呼叫的下行链路音频信号流式传输到音频输出设备以供回放。图15描述了关于用于切换无线音频连接的操作的更多内容。
136.图15是用于在无线音频连接之间切换的过程100的另一个方面的流程图。在一个方面，在过程100中执行的操作中的至少一些操作可由控制器20在切换为经由单向无线音频连接与音频输出设备通信时(和/或之后)执行，如图14的框96中所述。过程100开始于控制器传输信号以使音频输出设备的麦克风(例如，麦克风78)静音(在框101处)。具体地，控制器可通过双向无线音频连接向音频输出设备传输控制信号，让控制器75使麦克风78静音。在一个方面，使控制器75静音可通过停止将由麦克风产生的麦克风信号传输到本地设备来使麦克风78静音。在这种情况下，麦克风78可继续产生麦克风信号，控制器75可使用这些麦克风信号来执行一个或多个操作(例如，执行anc功能、透明度功能等)。控制器20从双向无线音频连接切换到单向无线音频连接(在框102处)。如本文所述，单向无线音频连接可以是提供高质量音频的任何无线连接(例如，a2dp连接)。在一个方面，单向连接可基于音频输出设备的能力。
137.控制器20提供指示音频输出设备的麦克风被静音和/或请求激活不同麦克风的用户授权的通知(在框103处)。例如，控制器可将通知作为弹出通知显示在本地设备2的显示屏25上，从而提醒本地用户麦克风已静音。在一个方面，这将提醒用户，使得用户在麦克风激活之前不开始说话。在一些方面，通知还可指示麦克风的新位置。具体地，通知可指示麦克风的位置可在本地设备处。在一个方面，通知还可请求激活不同麦克风的用户授权(例
如，通过在弹出通知内显示ui项)。
138.控制器20开始回放联合媒体回放会话的媒体(在框104处)。具体地，控制器20可开始经由单向连接将媒体内容的一个或多个音频信号传输到音频输出设备，音频输出设备可使用这些信号来驱动一个或多个扬声器。此外，当媒体内容包括视频时，控制器可在显示屏25上显示视频信号。控制器确定用户是否已授权切换麦克风(在决策框105处)。例如，控制器可确定用户是否已选择弹出通知中显示的ui项。如果没有，则控制器可继续回放媒体内容，而没有本地设备和/或音频输出设备的麦克风处于活动状态来捕获用于呼叫的上行链路信号的用户语音。然而，如果控制器接收到用户授权，则控制器激活不同的麦克风并开始接收麦克风信号以传输到远程设备(例如，作为上行链路信号)用于呼叫(在框106处)。
139.在一个方面，控制器可向用户提供用户可针对呼叫激活的麦克风的选择。例如，弹出通知可显示麦克风及其位置的列表，以便本地用户做出在呼叫期间使用哪个麦克风的决策。在另一方面，可向用户提供使本地设备经由双向无线音频连接继续与音频输出设备通信的选择。例如，控制器可提供请求执行从双向无线音频连接切换到单向无线音频连接的用户授权的通知。如果用户未能提供响应(和/或未通过选择ui项来提供授权)，则控制器可继续在双向无线音频连接内通信，如本文所述，双向无线音频连接基于音频输出设备的能力可以是低质量连接。
140.图16是用于基于一个或多个标准来确定是否在无线音频连接之间切换的过程110的一个方面的流程图。具体地，该过程用于确定是否从经由单向无线音频连接与音频输出设备通信转换到经由(例如，低质量)双向无线音频连接与设备通信。过程110开始于控制器20经由单向无线音频连接与音频输出设备通信，例如在呼叫和联合媒体回放会话期间，如本文所述(在框111处)。控制器20从至少一个传感器接收传感器数据(在框112处)。例如，控制器可从接近传感器、光传感器、麦克风(例如，麦克风23)、相机(例如，相机24)等接收传感器数据。控制器20基于传感器数据确定是否切换为经由双向无线音频连接与音频输出设备通信(在决策框113处)。如本文所述，控制器可使用传感器数据，诸如使用来自接近传感器的接近数据以确定物体是否在阈值距离内。响应于处于阈值距离内，控制器20切换成经由双向无线音频连接与音频输出设备通信(在框114处)。如本文所述，基于音频输出设备的能力，双向连接可以是低质量(例如，传统的8khz hfp)连接。
141.然而，如果控制器基于传感器数据确定不切换，则控制器确定本地设备是否已接收到切换到双向无线音频连接的用户请求(在决策框115处)。例如，本地设备可在显示屏25上显示允许本地用户切换到双向无线音频连接的ui项。在一个方面，出于各种原因，用户可能希望切换到双向连接。例如，当用户所处的环境具有环境噪声时，用户可能希望使用音频输出设备的板载麦克风。如果有，则控制器继续切换连接。
142.如果没有，则控制器确定单向无线音频连接的信号强度(在框116处)。例如，控制器可确定连接的rssi。控制器确定信号强度是否高于阈值(在决策框117处)。如果不是，则控制器可继续切换连接。在一个方面，由于用户在继续佩戴音频输出设备的同时走动远离本地设备，所以信号强度可能较低。例如，当本地设备是具有用来拾取用于呼叫的用户语音的板载麦克风的台式计算机时，如果用户走开，则控制器可执行切换，以便将活动麦克风保持在用户的距离内。如果信号强度高于阈值，则控制器可继续经由单向无线音频连接与音频输出设备通信(在框118处)。
143.在一个方面，当引起控制器切换的条件中的至少一个条件结束时，控制器可切换回单向无线音频连接。例如，当经由双向无线音频连接与音频输出设备通信时，在确定信号强度高于阈值时，控制器可切换回单向无线音频连接。继续前面的示例，当信号强度高于阈值时，可确定用户现在位于台式计算机的前方。
144.图17是由音频输出设备6(例如，其控制器75)执行的用于在无线音频连接之间切换的过程130的一个方面的流程图。过程130开始于控制器75在本地设备2与远程设备3之间的呼叫期间通过双向无线音频连接与本地设备通信(在框131处)。例如，音频输出设备可在呼叫期间与本地设备执行免提通信，如本文所述。控制器75确定在呼叫期间将在本地设备与音频输出设备之间建立单向无线音频连接来代替双向无线音频连接(在框132处)。例如，该确定可基于双向连接是否可支持高音频质量。在一个方面，现有的双向连接可支持以低于单向连接所支持的采样率的采样率来交换音频信号。例如，双向连接可以是支持8khz至16khz采样率的hfp连接，而单向连接可以是支持48khz采样率的a2dp连接。在一个方面，音频输出设备可(例如，从本地设备)接收指示双向无线音频连接将断开的控制信号。控制器75使音频输出设备的麦克风静音(在框133处)。如本文所述，控制器75可停用麦克风和/或停止将麦克风信号传输到本地设备。控制器75从双向无线音频连接切换到单向无线音频连接(在框134处)。例如，音频输出设备可断开双向连接并向本地设备传输指示连接已断开的确认消息。随后，音频输出设备可从本地设备接收通信以建立双向无线音频连接。作为响应，音频输出设备可建立连接。控制器75通过单向无线音频连接接收音频信号，该音频信号包括与呼叫相关联的信号和与在联合媒体回放会话中由本地设备和远程设备回放的媒体内容相关联的信号的混合内容(在框135处)。控制器可随后使用音频信号来驱动音频输出设备的扬声器(例如，扬声器77)(在框136处)。
145.图18是由音频输出设备6执行的用于基于是否检测到语音而从单向无线音频连接切换到双向无线音频连接的过程120的一个方面的流程图。在一个方面，在执行过程120之前，音频输出设备6可经由单向连接与本地设备通信地耦接，以接收在与呼叫同时进行的联合媒体回放会话期间由本地设备回放的媒体内容的音频数据，如本文所述。例如，音频输出设备可通过单向连接接收音频信号，该音频信号包括1)电话(或视频)呼叫的信号和2)与媒体内容相关联的信号的混合内容，其中本地设备和远程设备同时参与呼叫和联合媒体回放会话。此外，音频输出设备可使用音频信号来驱动扬声器。过程120开始于控制器75从音频输出设备的加速度计(例如，加速度计79)接收加速度计信号(在框121处)。控制器75基于加速度计信号生成vad信号(例如，作为vad 82的输出)(在框122处)。如本文所述，vad信号可指示基于加速度计的能级检测到用户语音。控制器75确定vad信号是否高于阈值，由此指示检测到用户语音(在决策框123处)。如果不是，则音频输出设备继续经由单向无线音频连接与本地设备通信(在框124处)。
146.否则，控制器75切换为通过双向无线音频连接与本地设备通信(在框125处)。控制器75从音频输出设备的麦克风接收麦克风信号(在框126处)。控制器75随后通过双向无线音频连接将麦克风信号传输到本地设备，以作为上行链路信号传输到远程设备，如本文所述(在框127处)。
147.一些方面可对在图14至图18中描述的过程90、100、110、130和120执行变型。例如，这些过程中的至少一些的特定操作可以不以所示出和所描述的确切顺序执行。可不在连续
的一系列操作中执行该特定操作，并且可在不同方面中执行不同的特定操作。例如，虚线框内的操作可以是在执行相应过程时可能不执行的任选操作。例如，在图15的过程100中，不需要提供通知。而是可以开始媒体内容的回放(在框104处)，并且可响应于连接被切换而激活不同的麦克风(在框106处)。
148.众所周知，使用个人可识别信息应遵循公认为满足或超过维护用户隐私的行业或政府要求的隐私政策和做法。具体地，应管理和处理个人可识别信息数据，以使无意或未经授权的访问或使用的风险最小化，并应当向用户明确说明授权使用的性质。
149.如前所述，本公开的一个方面可为其上存储有指令的非暂态机器可读介质(诸如微电子存储器)，该指令对一个或多个数据处理部件(这里通常称为“处理器”)进行编程以执行网络操作和音频信号处理操作，如本文所述。在其他方面，可通过包含硬连线逻辑的特定硬件部件来执行这些操作中的一些操作。另选地，可通过所编程的数据处理部件和固定硬连线电路部件的任何组合来执行那些操作。
150.虽然已经在附图中描述和示出了某些方面，但是应当理解，此类方面仅仅是对广义公开的说明而非限制，并且本公开不限于所示出和所述的具体结构和布置，因为本领域的普通技术人员可以想到各种其他修改型式。因此，要将描述视为示例性的而非限制性的。
151.在一些方面，本公开可包括语言例如“[元素a]和[元素b]中的至少一者”。该语言可以是指这些元素中的一者或多者。例如，“a和b中的至少一者”可以是指“a”、“b”、或“a和b”。具体地讲，“a和b中的至少一者”可以是指“a中至少一者和b中至少一者”或者“至少a或b任一者”。在一些方面，本公开可包括语言例如“[元素a]、[元素b]、和/或[元素c]”。该语言可以是指这些元素中任一者或其任何组合。例如，“a、b和/或c”可以是指“a”、“b”、“c”、“a和b”、“a和c”、“b和c”或“a、b和c”。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于区块链的融资平台构建方法、装置和计算机设备与流程

用于在呼叫期间处理远程活动语音的方法和系统与流程

相关文献

最热文献