云边协同,网随云动——边缘计算助力云游戏高效运营

语言: CN / TW / HK

前言

  近期Linux基金会旗下的开源组织LF Edge揭晓了2021-2022年度Akraino奖项的评选结果,腾讯主导的5G边缘计算项目-“支持云游戏的5G移动边缘计算/切片系统”(5G MEC/slice system to support cloud gaming )凭借降低云游戏40%网络时延,节省30%带宽成本的出色表现,从二十多个项目中脱颖而出,荣获年度最佳项目奖。

云游戏及其面临的挑战

云游戏将传统主机游戏中包括渲染在内的计算从本地挪到云端,以音视频流的方式通过网络传输到用户端进行显示。这种新的游戏模式突破了硬件对玩家的限制,使得在低配置终端上运行3A大作成为了可能,同时云游戏“免下载”、“秒玩”的特性也可以让新玩家免去下载、安装导致的较长等待时间,一键即可体验游戏。

云游戏发展初期,渲染和推流等功能通常部署在中心云。位置分散的玩家从全国各地接入中心云所在的一二线城市将面临两个方面的挑战。

  • 云-端之间的通信距离远、路径长,端到端时延大,链路质量不稳定。云游戏依赖音视频流的稳定传输以向玩家呈现出优质的游戏服务。但较大的时延则降低了游戏的流畅度,链路的波动会引起丢包,导致终端画面出现花屏甚至卡顿,影响了用户体验;

  • 云游戏渲染后的视频流导致单个玩家的网络带宽膨胀数十倍,中心云较高的网络费用增加了云游戏的运营成本。

基于中心云的云游戏向云边协同的架构演进

“计算本地化,存储本地化”的需求促进云计算朝着分布式云的方向发展。与此同时,5G分布式UPF网关的新架构为计算节点靠近用户部署提供了网络基础,推动了云游戏向着“云边结合,以边缘云为主进行渲染和推流”的游戏模式演进。

在图1所示的新架构场景中,用户通过就近访问腾讯边缘计算的游戏平台,包括游戏渲染功能、推流功能等,享受即点即玩的服务。为了达到这一目的,腾讯云游戏在边缘计算机房的物理机上按需生成多个Android容器,此渲染容器获得游戏玩家指令,并渲染出媒体流,通过推流服务将游戏视频流推送给终端客户,并在终端上解码播放,最终实现用户通过瘦终端畅玩游戏,甚至3A大作。

图1 云边协同的云游戏架构

就近接入,节省30%带宽成本,

降低T1段流媒体传输时延40%

4G网络通常只支持在省会级城市由PGW提供互联网出口。而在5G时代,由于UPF下沉使得县/市级城市的运营商机房也可部署边缘计算。网络架构的变革有助于大幅降低网络时延,这对以云游戏为代表的时延敏感型应用来说十分关键。

如图2所示,充分利用这种灵活下沉的网络架构和边缘计算平台,腾讯云游戏将计算负载最高的渲染和推流模块从中心云迁移到靠近用户的边缘节点(如运营商机房)。中央路由调度器可根据用户接入网络情况,调度用户就近接入边缘计算机房,从而实现访问速度的提升和端到端时延的大幅降低。

图2 游戏的架构演进

 截止目前,云游戏已经上线近百个TEZ边缘节点,根据运营数据统计分析表明(图3),就近接入使得T1段流媒体的传输时延降低了40%。除性能提升之外,边缘节点更低的带宽价格为游戏运营方节省了约30%的带宽成本,也带来了不菲的经济效益。

图3 T1段时延实测结果

边云互联,降低T2段时延12%,

降低时延抖动35%

  在游戏过程中,部署在边缘机房的Android容器需要与部署在中心机房的游戏服务器建立连接,以同步玩家的游戏状态与角色信息。但边缘机房与中心机房之间的互通基于运营商公网链路,当发生网络拥塞时,较难保证可靠的游戏连接。在极端情况发生时(如,线路被挖断等),还可能直接导致玩家断开游戏连接,严重降低了游戏体验。

图4 云边互通加速与高可靠技术

 为了应对上述挑战,腾讯边缘计算采用了如下云边互联及加速技术,以降低延迟,提升可靠性:

1、多路选优与流量调度技术: 腾讯边缘计算构建了超融合网关之间的FullMesh探测机制,实时采集网络质量拓扑与站点流量,以提供给云调度中心执行全局的链路选择与流量调度(图4)。云调度中心通过追踪不同地域、不同运营商在不同时段的细粒度流量数据,基于帕累托分布与隐马尔可夫理论构建流量预测模型,实现了闲时流量链路的分析与提炼,为路径选择和流量调度提供数据支撑。云调度中心可以基于质量、成本等因素制定灵活的调度策略。相比于云边运营商直通的链路,腾讯边缘计算采用的云边加速技术可以将平均延迟降低12%(30ms降低到26.43ms),提升了用户体验。

2、云边多路协同聚合技术: 为进一步提升游戏网络连接的可靠性,腾讯边缘计算中的互通网关支持在多条可选链路上优选其中N条同时发送相同的数据,位于接收端的互通网关则从多条链路中选择先到达的且正确的数据包执行接收。此外,多路之间可进行动态负载分担,提升传输带宽。相比于单链路直通传输的方式,多路协同聚合技术能够将延迟抖动均值降低35% (1.51ms降低到0.98ms)。

超融合网关,软硬协同提供

融合功能, 降低45%设备成本

边缘计算机房,相比于中心机房,具有单点机位规模小(如,边缘机房上百台机位,中心机房上万台机位),基础功能需求全(如,边缘机房也需要中心机房的基础网络、加解密通信、虚实互通等功能),站点数量多等特点。上述特性对边缘计算机房提出了架构轻量、成本敏感等设计需求。

图5 边缘计算机房网络架构

为满足上述需求,腾讯边缘计算机房从如下几个维度进行了设计:

1、轻量级的基础网络架构: 相比于中心侧采用内外网分离部署的核心与接入交换机架构,腾讯边缘计算机房将内外网的核心与接入交换机合一部署(图5),采用三层协议隔离,大幅减少了边缘机房所需的交换机数量,能够降低约45%的设备成本。此外,边缘计算机房同时支持云游边缘计算业务与CDN业务,提高了机房利用率,盘活了闲时带宽。

2、软硬协同的融合网关架构: 为中心云设计的云网关,比如虚实互通网关、加解密网关等,皆基于x86服务器独立部署,若直接迁移至边缘机房中,将占据较大的机位空间,降低边缘机房可售卖资源比例。腾讯边缘计算基于自研可编程交换机Smart Switch提出了软硬协同的融合网关架构,以降低边缘机房成本,并满足边缘业务性能需求(图5)。如,对计算能力要求较高的加解密计算模块被卸载到专用的FPGA上,以实现高达百Gbps的双向加解密能力;虚实互通路由表项的查找功能被分配在交换机芯片上,实现线速转发;网关间的状态同步功能被卸载到CPU上,提供高可用的网关服务。为实现多种网关功能的隔离,避免相互影响,超融合网关基于端口和业务元数据分流的技术,将不同业务类型的数据流分发到不同的处理逻辑中。为了提升边缘机房转发性能与规格,超融合网关采用了流水线折叠的技术,支持Tbps级别的物理主机和虚拟化云主机之间的互通,并将支持的最大路由转发表项从40W提升到120W。

►►►

总结

云游戏通过将渲染在内的计算从用户终端挪到云端突破了硬件对玩家的限制。以中心云为主进行渲染和推流的云游戏会遇到时延较大、链路质量不稳定等诸多问题,影响了用户体验。通过引入5G、边缘计算等技术,腾讯云游戏建立了“云边结合,以边缘云为主进行渲染和推流”的新范式。就近接入降低了T1段40%的网络时延,节省了30%带宽成本,同时云游戏的“免下载”,“秒玩”,“跨端”等优势也进一步增强。

“中心-边缘”的分布式云游戏架构提升性能的同时也引入了云边互联加速、网关成本优化等一系列新的问题。通过多路优选、多发选收、流量调度等边云加速技术,降低了T2段12%的平均时延和35%的抖动,进一步提升了云游戏的性能,确保玩家随时随地都能享受极致的游戏体验;通过引入轻量化基础网络架构,自研低成本超融合网关,腾讯边缘计算减少了45%的设备成本,解决了边缘节点网关开销过高的问题,为云游戏的规模化部署铺平了道路。