※この記事はアフィリエイト広告を含みます
爆速语音AI的幕后!OpenAI揭秘“9亿人”背后的低延迟WebRTC架构
📰 新闻概述
- 独特重构WebRTC堆栈: OpenAI为了最小化ChatGPT语音模式和实时API的延迟,从零开始重新设计了WebRTC基础设施。
- 采用收发器模型: 不是传统的多用户选择转发单元(SFU),而是选择了专注于1:1对话的“收发器模型”,在边缘终端处理WebRTC。
- 优化实时推理: 通过将语音数据处理为连续流,构建了一个环境,使AI能够在用户说完之前开始推理和工具执行。
💡 重要要点
- 全球低延迟: 实现全球路由,以维持每周超过9亿用户的“自然对话速度”,同时减少数据包丢失和抖动。
- 专家设计: WebRTC的原始设计者Justin Uberti和Pion创始人Sean DuBois等专家加入OpenAI,主导这一架构的开发。
- 利用标准协议: 在进行独特扩展的同时,基于浏览器和移动设备上标准的ICE、DTLS、SRTP等WebRTC技术,确保了高兼容性。
🦈 鲨鱼的视角(策展人的观点)
转向收发器模型的决策简直就像“鲨鱼的牙齿”一样锐利!不使用传统的SFU,而是自行构建专注于AI与用户1:1对话的基础设施,极大地削减了中继带来的开销。这个“在边缘终端接收并转换为内部协议”的设计使得推理在语音到达的瞬间就能开始。这几毫秒的缩短,就是将AI从“单纯工具”转变为“活生生的同事”的魔法!
🚀 未来展望
随着这一先进基础设施通过实时API提供服务,“零等待时间”的语音AI将在全球所有服务中成为标准。从电话应答到实时翻译,AI代理的反应速度将几乎无法与人类区分,未来正向我们走来!
💬 鲸鱼的感想
延迟就像鲨鱼在水中游动的阻力!削减延迟,OpenAI以爆速游动的风格前进,真是鲨鱼的风范啊!
📚 术语解释
-
WebRTC: 一种开放标准,支持浏览器和移动应用实时传输音频和视频,能够实现低延迟通信。
-
ICE (交互式连接建立): 一种技术,找到复杂网络环境和防火墙之间设备直接通信的路径。
-
收发器模型: 不是中继通信,而是在边缘服务器接收连接后,将媒体转换为另一种协议进行处理,适合1对1的高速处理。