一文深度解读音视频行业技术发展历程

语言: CN / TW / HK

从1948年的香农定律,到音视频的今天。

北京时间2月28日凌晨,FIFA年度颁奖典礼在巴黎举行。梅西荣膺年度最佳球员,斯卡洛尼当选年度最佳男足主帅,马丁内斯荣获年度最佳男足门将!阿根廷因此成为FIFA史上首个在同一届颁奖礼上赢得三个最佳评选的国家。毫无疑问,2022卡塔尔世界杯的冠军奖杯为此次评选增添了不少份量。

回望卡塔尔世界杯赛场,观众印象最深的不仅是“诸神黄昏”的老将谢幕、球王梅西的终极加冕,还有无数次比赛结果的逆转,而这些惊天大冷门的“参与者”——VAR,视频助理裁判(Video Assistant Referee)吸引了无数人的目光。

在小组赛第一轮中,VAR将阿根廷的3个进球全部判为无效,致使阿根廷1:2败于沙特阿拉伯,爆出本次世界杯最大冷门,差点在小组赛中淘汰了本届冠军阿根廷。VAR的背后,是12台鹰眼摄像机,捕捉球员身体29个关键点,每秒50次严密追踪,并将这些音视频数据实时发送至云端进行处理

在云计算时代,随着音视频技术的飞速发展,还有更多像VAR这样的新兴应用,既改写着绿茵场上的比赛结果,也改变了我们生活的方方面面。

01 从黑白小电视到超清4K直播

在世界杯举办的近百年历史上,大多数人可以坐在家中,实时观看赛事直播的历史,只是近几十年的事情。

由于摄影摄像、音视频编解码、信号传输等种种技术限制,一直到1954年的瑞士世界杯,人类才在历史上第一次通过电视观看世界杯比赛。在此之前,观众只能通过报纸、广播、甚至口口相传才能得知赛事结果。

央视第一次转播世界杯则是1978年的阿根廷世界杯。然而很少有人知道,彼时,还叫做“北京电视台”的央视,是由足球评论员宋世雄在香港的一间小酒店房间里完成了78年阿根廷世界杯的半决赛和总决赛赛事转播。

几十个球迷围着一台9寸黑白电视,如饥似渴地期待着进球结果,成了那个时代最具特色的一道风景。

那个时候,电视还是个稀缺物件,球迷们被迫盯着屏幕上模糊得连球员五官都看不清楚的超低分辨率画面,忍受着断断续续、时常“雪花”的信号传输。

几十年的人们大概很难想象,2023年的今天,通过云技术处理的比赛转播已经高达8K、60帧,延时缩短至1秒,运动员们纤毫毕现的赛事画面成为了日常,网络传输与边缘云技术的发展,更是让全球亿万观众能够轻松地通过电脑、手机、平板等多种设备流畅无阻地观看赛事。

也许更难想象的是,今天,云端处理的AI语音成为了赛事的播报员、视频技术让VAR成为了赛事结果的改判者,曾经只存在于科幻小说里的“VR看球”更是走进了现实。

正是云计算技术的持续进步,让人类能够不断突破音视频技术的边界,创造出更多超越想象力的全新体验。

02 「4.56亿」背后的技术奇迹

除了世界杯赛场上的种种应用外,各类音视频技术的创新应用,也正改变着我们生活的方方面面。

首先,直播、短视频毫无疑问已经成为了当代生活的重要组成部分。

根据中国互联网络信息中心数据,截至2022年6月,我国网民规模为10.51亿,其中短视频用户规模已经达到了9.62亿,占网民整体的91.5%。

而根据《中国网络表演(直播)行业发展报告(2021-2022)》数据,截至2021年12月,我国网络表演(直播)行业主播账号累计达到近1.4亿个,行业市场规模达1844.42亿元。

十年之前,仅用一台手机就能面向成百上千、甚至上亿人次的流畅无卡顿直播,简直是天方夜谭。当时,视频压缩、编解码、网络传输等诸多技术都严重限制了网络直播的发展,人们大多数还是从电视频道上观看各种大型直播,拥有昂贵设备与卫星转播系统的电视台成为了唯一能够驾驭“亿”这种量级的平台机构。

然而,十年之后的今天,在云、网、边、端技术的共同发展之下,直播从大屏走向小屏,2022年天猫双11预售首日,李佳琦一场直播的观看量就达到了惊人的4.56亿人次,同时接入观看的节点数高达千万级以上。

一方面,如此惊人的高并发流量对网络造成了巨大的压力。如何保证画面清晰、流畅、不卡顿成为了工程师们的最大挑战之一。在直播兴起初期,“卡的宝子退出来重进一下”几乎成了各大平台主播的日常用语。

另一方面,跟传统直播技术的单向传播不同,直播电商对实时互动更高,几秒钟的延时损害的不仅仅是用户体验,还会直接影响交易达成——这可是商家的命脉。

为了降低电商直播端到端的延时,并在超高并发情况下依旧可靠,阿里云与淘宝技术共同攻坚,将传统的CDN内容分发网络进行改造,打造了一张全球实时传输网GRTN(Global Real-Time Transport Network)。而基于这张网的超低延时直播技术RTS(Real-Time Streaming)更是让淘宝直播能够做到千万级大规模并发下,将延时控制在1s以内,做到真正意义上的低延时和沉浸式互动

淘宝直播的技术升级既是一个新时代的典型应用,又是音视频行业技术发展的一个缩影。

回望过去十年间,我们可以看到音视频行业发展的三大趋势:

1)超感体验

毫无疑问,人类对感受与体验的不断追求,正是驱动音视频行业迅猛发展的最大动力。

视觉方面,更快、更清晰、更细腻、更多彩、更流畅的观影体验始终是音视频大厦的根基。产业历经十年从1080P、走到4K、再走到了8K画质,传输数据量越来越大,每一代编码的升级复杂度以百倍计算,视频延时却由30秒急剧下降到10秒、1秒、甚至目前达到的百毫秒以内。

听觉方面,21世纪以来,音频编码技术突飞猛进,英国之宝的联合创始人Bob Stuart所开发出的MQA高格式PCM无损处理和压缩技术让网络流媒体高音频传输成为现实。杜比全景声等技术所覆盖的终端产品越来越广,手机、电脑、平板、电视、音箱、游戏主机……足以以假乱真的超感音频体验让每一个人身临其境。与此同时,DTS也推出下一代音效技术DTS:X,试图凭借这个新一代开放的沉浸式音编解码标准与基于声音对象的多维空间音频技术与老对手杜比平分秋色。

“2009年,你拿着最潮流的诺基亚手机,使用着刚刚普及的3G网络,打开DVD,与家人看一场1080P分辨率的经典大片,这就是幸福。”今天,你在地铁上打开5G手机,一场杜比全景声4K超清音视频盛宴就在眼前。

以体育赛事为例,曾几何时,观众梦想着像“上帝视角”一样对运动员多方位、多角度、自由观看

北京冬奥期间,阿里云与优酷联合,通过在体育场馆内环绕部署多台摄像机,将现场采集的多路视频内容编排整合后回传至中心云或边缘节点,通过中心云或边缘节点部署的算力,将视频流做3D渲染重建,再将渲染后的视频流实时传送给观众。此时,观众就可以像操控游戏角色一样,立体自由360度地观看运动员赛事的精彩瞬间,将直播体验发挥到极致,赋能视频行业突破原有业务边界。

2)极致成本

技术的普及从来都离不开成本的降低。许多前沿音视频技术之所以鲜为人知,不是因为没有发明出来,而是因为它真的——太贵了。

举个例子,2018年,央视宣布开始投建三阶段4K推进计划,其项目总投资85.5亿元,建成后每年运行维护及节目传输投入10.94亿元,每年4K节目制作投入约150亿元(不含人员等经费)。商业需求驱动视频技术极致化发展,也燃动着对成本的极致化追求,而边缘云技术的发展则为这一难题提供了解法。

当前,90%的直播业务已下沉至边缘云,基于广泛覆盖的节点就近分布,边缘云将能力拓延至“最后一公里”,在降低传输与算力延时基础上,以更低的综合成本推动着用户的体验不断升级

想要在保证观看体验的前提下降低成本,一种从人眼视觉模型出发,以“主观体验最好”为目标的编码和传输方式——窄带高清可以实现两者的平衡。

原始视频的数据非常巨大,需要进行编码与压缩才能进行存储与传输。从某种程度来说,编解码技术的发展正是音视频技术的发展。传统云端转码是在用户端形成一个原始视频,经过编码之后以视频流的形式传到服务端,在服务端解码之后做转码,然后再编码通过CDN分发出去。

而窄带高清技术的“窄带”是指让视频经过窄带高清转码之后,对带宽的需求变得更小。同时,“高清”是指经过转码后的画质仍然能够保持高清、丰富的视觉体验。

此外,在算力方面,视频编码与视频处理均为计算密集型场景,如何解决视频云赛道的算力困局,让高压缩率的视频编码算法更加普惠?

更强大、更高效、更多样的云端音视频处理能力离不开底层算力的支持,近年来,云计算厂商纷纷开启了多样的技术架构升级。首先,是依托老牌厂商,不断进行硬件升级。

例如英特尔Data Center GPU Flex解决方案,内置了开源 AV1 编解码器, 显著提高了压缩效率,与AVC 和HEVC相比使带宽增加30%以上,有助于大幅降低总拥有成本, 在不影响视频质量的情况下增加了云服务器支持的视频流密度。

另外一条,即是自研。作为国内云计算产业的领头玩家,阿里云也在2021年的云栖大会上推出了首款自研云原生处理器CPU——倚天710,该芯片针对云场景研发,同时兼顾了性能与易用性

经过一年的业务验证后,基于倚天710的云计算实例在数据库、大数据、视频编解码、AI推理等核心场景中的性价比提升30%以上,单位算力功耗(耗电量)降低了60%以上。

3)虚实融合

如果说更清晰、流畅、低成本是音视频行业在过去半个世纪以来永不停歇的不懈追求,那么在最近十年间,一项最具时代特色的音视频体验则非虚实融合莫属。

无论是《雪崩》中的元宇宙社区,还是《头号玩家》中的“绿洲”,人类对于打破虚拟与现实界限的超次元体验始终怀有梦一般的向往。

过去,这种向往只能在科幻作品中实现,然而这十年间,SLAM技术的高速发展让机器能够迅速定位人体位置,光学与现实技术的突飞猛进让更轻、更薄、更逼真的VR/AR头显成为现实,Pancake光学方案、双眼4K屏、90Hz超高刷新率等曾经难以企及的技术更是成为了虚拟现实的标配。

在音视频超感体验的不断发展与边缘云、视频云技术的不断降本增效之下,3D网络购物成为了现实;《黑客帝国》中惊心动魄的“子弹时间”如今可以在云端实时合成;《钢铁侠》中的万能AI管家贾维斯有了自然语言处理能力,我们甚至能够为他配上一张有着细腻喜怒哀乐表情的逼真面庞。

冬奥期间,在演播室里,当谷爱凌在自由式滑雪女子大跳台的决赛中一举夺冠时,AI剪辑系统实时提供谷爱凌精彩动作视频集锦并第一时间成片后,这一视频迅速登上央视频首页推荐焦点位,两小时内播放量超过500万。

除了冬奥赛场上,音视频技术的发展也正不断突破我们日常生活中的体验。VR看球、工业孪生建模、3D全息购物……更多交互维度的虚实融合拓宽着人类感知的边界,引领着一个更有想象力的未来。

而音视频行业之所以能够不断向前发展,衍生出360度自由视角观看、AI剪辑、VR看球等诸多超越想象力的精彩应用,正是由于技术与产业的共同进步。

03 从克劳德·香农到Imagine Computing大赛

1948年,近代最伟大的数学家之一、信息论的创始人、美国天才电子工程师克劳德·香农,以一篇震惊世界的《A Mathematical Theory of Communication》论文,正式拉开了当代信息论的大幕。

此后的几十年间,由信息论衍生出的信道编码、图像/视频压缩、甚至人工智能技术,成为了推动音视频产业进步、甚至大量计算机科学产业突破的底层动力。

是的,任何产业技术领域的突破进展,都离不开产、学、研多方面的共同努力。近年间,人工智能领域最有名的学术大赛当属ImageNet计算机识别挑战赛。在2012年的ImageNet大赛上,日后的“深度学习三巨头”之一、多伦多大学的Geoffrey Hinton教授带领团队首次使用深度学习技术训练人工智能进行图像识别,错误率骤降至15.3%。

而在2015年的ImageNet大赛上,来自微软亚洲研究院的团队更是第一次将错误率压到了3.57%——这意味着,人工智能第一次在图像识别上,超越了人类。这一成果,成为了音视频学科历史上的又一个里程碑式事件。

前沿技术的探索需要学界和产业的共同探索,音视频技术涵盖了编解码、网络调度、人工智能、云端协同等多个技术领域,覆盖面广、技术体系复杂,面对飞速发展的业务需求,往往技术人才的储备和创新实践却显得不足。

去年,阿里云与英特尔联合主办的Imagine Computing创新技术天池大赛以“新算力·新体验”为主题,聚焦音视频与云技术结合的关键领域技术创新。

“新算力”与“新体验”分别指代的是音视频行业发展的两大重要技术基础,也是本次大赛两大赛道的比拼主线。

首先是“新体验”。

体验始终是驱动音视频技术发展的根基。无论是更先进的音视频编码技术让画面更清晰流畅,还是更强大的网络分发技术让用户观看得更低延时、更实时互动,其本质上都是工程师们对于更好、更快的音视频体验的不懈追求。

随着企业数字进程的加速,云上视频算力也从中心逐步延展到网络边缘从而形成新型的边缘基础设施。算力和网络在边缘侧加速融合,而视频应用是否流畅、高清、低延时等这些直观感受已成为用户最为关心的,如何基于边缘云构建实时音视频处理的应用,有效降低计算时延和成本,提升最终用户体验,成为了本次比赛关注的赛道之一。

其次是“新算力”。

众所周知,近半个世纪以来,电子信息科学的进步与芯片算力、云计算架构的发展息息相关。

当前,继公有云、私有云、混合云的不断发展之后,企业对云计算的使用需求愈加多样化,推动云计算服务不断向边缘延伸、下沉,向更加全局化的分布式模式进发,并逐渐形成了涵盖中心云、区域云、边缘云的分布式云形态

其中,由于边缘云可以提供靠近终端用户的、全域覆盖的、弹性分布式算力资源,通过将视频存储和分发、AI计算、智能化数据分析等工作放在边缘处理,构建实时音视频处理,达到降低响应时延、减轻云端压力、降低带宽成本,并供全网调度、算力分发等云服务的目的,而如何准确地预测网民侧的客户体验水平是视频内容分发网络进行节点优化布局、调整流量调度策略、节点软件优化的基础和指南针。基于此,边缘云内容分发网络客户体验预测算法的探索变得至关重要。

此外,如上文所言,音视频的创新和突破不仅需要从云服务层面入手,也需要底层算力的硬件支撑。本次赛事还为参赛者提供了基于英特尔® Data Center GPU Flex 系列GPU产品的解决方案,其标准且灵活的开放软件堆栈和oneAPI、强大的AV1编码器和AI视觉推理能力,有助于减少边缘云使用不同解决方案并管理异构或专有环境的需求,助力参赛选手更好的探索性能加速与低延时命题。

04 结语

从9英寸的黑白世界杯到4亿人次观看的淘宝直播,从1948年的香农定理到2022年的Imagine Computing大赛,随着音视频技术的不断发展与突破,感知与技术的边界也正被不断拓宽,许多曾经以为天方夜谭的新奇应用,正随着人工智能算法、算力、以及网络技术的共同发展,逐步从科幻作品中走进现实。

在1966年的科幻电视剧《星际迷航》中,Kirk船长与企业号船员们常常使用“通用翻译”听懂宇宙各地的外星人语言;

在1968年的科幻电影《2001:太空漫游》中,宇宙飞船上的计算机HAL9000能够直接用AI语音与乘务员进行对话;

而在1992年的科幻小说《雪崩》中,黑客、日本武士兼披萨饼快递员Hiro Protagonist与女孩Y·T一同在元宇宙中制服了雪崩病毒。

今天,它们都成为了现实。

当人类优渥于一种状态,总有想象力来冲破平衡。Cloud Imagine《云想之力》是阿里云联合36氪共同打造的系列报道,旨在探索云计算大背景下爆发的应用场景和新兴技术,以想象的高维碰撞之力,窥探“云”上的无限空间。从9英寸的黑白世界杯到4.56亿人的直播狂欢,从1948年的香农定理到2022年的lmagine Computing的天池大赛,一个超越想象力的崭新纪元,就在眼前。