讨论在线教室 iOS 端声音问题综合解决方案

背景介绍

在线教室场景下，声音是最重要的内容传输渠道之一，保障声音的稳定可靠，是在线教室质量非常重要的一环。同时在线教室里许多功能模块都与声音有关联，如何处理好各个模块间的声音冲突成为一个重要话题。

AVAudioSession

在 iOS 端，说到声音的话题就绕不开 AVAudioSession。AVAudioSession 的作用是管理音频这一唯一硬件资源的分配，通过调优合适的 AVAudioSession 来适配我们的 APP 对于音频的功能需求。切换音频场景的时候，需要相应的切换 AVAudioSession。

AVAudioSessionCategory

教育场景下主要使用到的音频场景有：

AVAudioSessionMode

iOS 提供 AVAudioSessionMode[1] 用于与 AVAudioSessionCategory[2] 搭配使用，教育场景下使用到的音频模式主要有：

AVAudioSessionOptions

我们可以使用 options 去微调 Category 行为，教育场景下常用的有：

通话音量与媒体音量

一般而言，通话音量指的是进行语音、视频通话时的音量。媒体音量指的是播放音乐、视频或游戏的音效、背景音的音量。

在实际使用中，两者的差异在于，通话音量有较好的回声消除，媒体音量有较好的声音表现力。媒体音量可以调整到 0，而通话音量不可以。

通话音量与媒体音量只能二选一，因此需要区分系统音量走的是通话音量还是媒体音量。系统音量走通话音量，是指在设备上调整音量时，调整的是通话音量。媒体音量同理。媒体音量和通话音量分别属于 2 个不同的、独立的系统，一个设置不会影响到另外一个。

进入通话后，音效的播放音量由通话音量控制。退出通话后，则由媒体音量控制。一般在教育场景下，学生作为观众拉流时，使用的媒体音量，老师说话的声音更加立体饱满，当学生连麦时，使用的通话音量，以保证通话声音的质量。

简单来说，非连麦模式下会使用媒体音量控制，连麦模式下会使用通话音量控制，两者有独立的音量控制机制。

当播放媒体资源时，使用播放器（如 AVPlayer）播放音频，播放器底层 AudioUnit 的 description 为 VoiceProcessingIO。

RTC SDK 内部维护了一个 AudioUnit，通话音量下 AudioUnit 的 description 为 RemoteIO，媒体音量下为 VoiceProcessingIO，当出现模式切换时，会销毁原来的 AudioUnit，再创建新的 AudioUnit，始终保持一个 AudioUnit 来进行音频播放。

通话音量下，AVPlayer 内 VoiceProcessingIO 的 AudioUnit 声音会被抑制。同样的，在媒体音量下，RTC SDK 内的 AudioUnit 的 description 设置为 VoiceProcessingIO，如果此时其他模块通过设置 AVAudioSession 切换到通话音量，RTC 的声音也会被抑制。

行业现状

在线教室场景下，很多功能都需要播放声音，包括课中音视频直播、课后回放、webview 内嵌课件声音（包括音频、视频、音效）、课堂音频、课堂视频、课堂游戏声音、音效声音等。除此之外，教室内还包括很多需要声音录制的功能，包括连麦、跟读、集体发言、聊天语音输入、语音识别等。

教室内这些功能存在各种组合，且对 AVAudioSession 的设置要求存在差异，而 AVAudioSession 又是一个单例，如果没有一个统一管理的逻辑，很容易就出现设置混乱的问题。

目前行业内碰到的比较多的问题主要是听不见 RTC 声音与媒体声音被抑制。

听不见 RTC 声音

听不见 RTC 声音的主要原因是其他功能在设置 AVAudioSession 时，AVAudioSessionOptions 未包含 AVAudioSessionCategoryOptionMixWithOthers 混音模式，导致 RTC 声音被高优进程打断。比如在非混音模式下播放 webview 的内嵌音频，因为 webview 是使用系统进程来播放声音，优先级最高，所以 APP 进程下的 RTC 声音就会被抑制导致无法正常发声。

这类问题一般都比较隐蔽，因为简单的场景如果有问题，在上线之前一般都能测试出来，而当多个功能场景串起来之后才触发问题，往往就很难在测试期间发现，且如果线上没有完备的日志查询体系，针对线上这类问题排查起来难度也非常大，往往因为定位不到原因而长期遗留。

媒体声音被抑制

在通话音量模式下，媒体声音会被压低，导致声音变小。比较常见的场景是在小班场景下，学生在推流时播放课堂音视频等媒体资源，声音会比 RTC 的声音要小，导致媒体声音听不清楚。

通话模式下（连麦时）媒体声音会被压低，原因是 iOS 手机系统会开启回声消除以保证人声体验，因此会压低媒体通道的声音，也会压低背景音效。

教育行业内部分头部 APP 也没有从根本上解决该问题，很多都是通过从产品功能层面上规避问题，通过产品妥协来为技术问题让步。比如在播放课堂音视频资源时，默认将所有学生都强制关麦，关麦时学生处于媒体音量，就不存在被压低的问题了，等到课堂音视频播放结束后，再允许学生开麦。这种通过规避问题场景来解决问题的方式，不具有可复制性。

RTC 声音变小

RTC 声音变小，主要原因是声音通过听筒发声，而没有正常通过扬声器发声，造成声音变小的假象。另外在 iOS14 系统下，使用过 RTC 的通话模式并切回媒体模式后，再调用 setCategory:PlayAndRecord + DefaultToSpeaker 就会必现声音小的问题。

解决方案

针对上述行业痛点，通过底层原理的分析与实际项目经验，从代码规范、问题兜底、问题报警梳理出一套可行的解决方案。

听不见 RTC 声音、RTC 声音变小

RTC 的声音问题基本是因为其他模块功能对 AVAudioSession 进行了更改，且在功能结束之后，也没有将 AVAudioSession 重置到 RTC 需要的设置。本身音视频 SDK（如 agora、zego 等）对这种情况会有一定的兜底逻辑，但是这种兜底如果存在侵入性，也是不合理的，因此具有一定的局限性。

AudioSession 修改规范

由于系统无法区分同一个进程中是哪个模块对 AudioSession 进行了更改，所以为了避免听不见 RTC 声音的问题，在使用 RTC 时，其它模块对 AudioSession 的调用更改，需要遵循以下原则：

模块调用 setCategory 前先判断下，当前 AudioSession 如已满足使用需要，不用再次设置，避免触发 iOS 14 系统 Bug
模块需要录音时，Category 应该使用 PlayAndRecord（为了防止打断正在播放的音频，不要使用仅录音的 CategoryRecord），当前 category 不是 PlayAndRecord 的情况下再调用 setCategory
模块仅需要播放时，当前 category 为 PlayAndRecord 或 Playback、Ambient 的情况下不需要 setCategory
若当前的 category 不满足模块使用，在 setCategory 之前应该先保存当前的 AudioSession 状态，然后再 setCategory、使用音频功能，使用结束后，应该重新 setCategory 恢复到之前的 AudioSession 状态
在设置 audioSession 时，categoryOptions 都应该包含 AVAudioSessionCategoryOptionDefaultToSpeaker 与 AVAudioSessionCategoryOptionMixWithOthers，iOS10 系统及以上还应包含 AVAudioSessionCategoryOptionAllowBluetooth。