OpenAI的《Her》难产，是被什么困住了手脚？

文章核心观点 - OpenAI发布的GPT-4o具有实时音视频对话的能力,可以感知用户的呼吸节奏并用更丰富的语气回复,但发布存在一些延迟 [2][3][5] - 实现GPT-4o的实时音视频对话需要解决一系列技术难题,包括网络延迟、多设备适配、噪音干扰等问题 [6][8][9] - 解决这些问题需要依赖RTC(实时通信)技术,包括信号采集、编码压缩、网络传输、解码还原等一系列优化 [19][20][21][22] - 除了OpenAI,其他AI公司也在与RTC厂商合作,以期实现更好的实时音视频对话体验 [23][24][25] 根据目录分别总结技术难点 - 需要"固定网络、固定设备、固定物理环境",全球用户能否获得与发布会相同体验存在不确定性 [5] - 视频通话存在延迟,语音和视觉处理不同步 [6] - 室外场景网络信号不稳定,噪音问题也会影响语音识别 [8][9] - 需要适配多种设备,低端机型的体验也需要考虑 [9][30] 解决方案 - 依赖RTC技术,包括信号采集、编码压缩、网络传输、解码还原等一系列优化 [19][20][21][22] - 与RTC厂商LiveKit合作,利用其成熟的RTC技术 [23][24] - 国内AI公司也在与声网等RTC厂商合作,已能将延迟控制在1秒左右 [25][26] - 声网从网络优化、模型压缩、多设备适配等方面进行技术创新 [27][28][29][30] 未来发展趋势 - AI实时音视频对话不仅可以实现《Her》般的体验,还可以应用于社交娱乐、电商直播、在线教育等场景 [36][37][38] - 未来可能会出现端云结合的架构,将更多计算能力下沉到终端设备 [31][32] - 与RTC厂商的合作模式也在不断创新,包括私有化部署、声网云平台、端到端解决方案等 [33][34][35]