即构科技副总裁陈今今:RTC+AI,服务5亿终端用户实时互动

12月19日,由霞光智库联合新黄河、经济观察报举办的“WAVE2023 全球领航者大会”在北京举办。

面对新周期下的全球化,中国企业出海在2023年迎来爆发。出海已成为各行各业都在关注的新趋势、新机遇。而过去数年,已经在海外深扎布局的企业,也逐渐成长为中企出海的“领航者”。它们的经验、教训和洞察,正是新一代中国出海企业最需要的营养。

在主论坛下午的主题演讲环节,即构科技副总裁陈今今以《RTC+AI,出海共增长》为题,详细讲述了音视频行业在生成式AI大潮下的变革,与开拓泛娱乐出海增长新范式的方法论。

以下是演讲实录。

很高兴今天在这里给大家做关于 RTC(实时通信)和 AI 出海共增长的分享。

首先介绍一下即构,即构是一家来自深圳的公司,是全球领先的智能实时互动云服务提供商,成立于 2015 年,创始团队在实时音视频领域有 20 多年的行业技术积累,目前为止已经连接了全球 5 亿终端用户,日均通话 30 亿分钟。

在实时互动领域,音视频技术以及围绕音视频技术发展出来的一些行业能力是很重要的,音视频也是现阶段最直接、最高效的一种互动方式,虽然音视频技术已经发展了几十年,但目前音视频行业还是在不断突破,直到今天整体行业还在不断地定义与创造未来实时互动的能力。

为什么我们要选择做这样一个赛道?或我们的价值在哪里?我们今天聊的是出海,因此我想讲一下音视频出海的痛点和价值。

我们现在联接全球大概 5 亿终端,但是海外的终端能力参差不齐:有大量的千元机,甚至千元机以下的机型,操作系统、软件能力水平等等不一。音视频实时通讯,其实非常依赖于终端的能力。在海外终端水平比较差的情况下,摄像头素质也比较差,采集出来的音视频效果不好,时延也比较高,让业务面临很复杂难处理的场景,这时候就需要我们对底层芯片进行极致的压榨,以及把这个技术能力发挥到极致,做好全球各种各样终端的兼容性,来解决这个问题。

从网络上来看,我以前一直在海外做网络架构转型以及网络流量工程相关工作,也去过很多国家,在这方面海外与国内相比差距非常大,而且海外网络环境以及地域环境比国内环境要复杂的多。比如菲律宾、印尼等等,印尼是岛国,在各个岛之间部署网络连接能力是很难的,导致印尼的整体网络情况比较差。

很多企业要出海中东,例如埃及、土耳其,这些地区的 3G、4G 占比很高,网络极其不稳定。我们还有一些客户在非洲,流量资费非常高。从网络层面上讲,是非常复杂的弱网环境,怎么在弱网环境下提供高质量的音视频通话,这是出海的痛点和难点。

再者,音视频非常基于感知,是基于人的感官体验来发展的技术。我们的感官很难用几个数字来定义,这时候 AI 的引入就顺理成章,AI 基于人的感知、思考、想法方面大有可为。

总结一下,我们身处的物理世界需要面临各种复杂的环境状况,即构希望通过整个产品矩阵去支撑企业快速构建高质量的实时互动环境,让企业有更好的发展。

在传输上,我们通过覆盖全球的虚拟网络进行音视频高质量传输,可以提供比传统 CDN 更低的、小于 1 秒的延迟,帮助大家做大量的分发,提升产品体验。

在扩展服务方面,我们可以提供如白板、实时录制、共享等能力,也会提供 AI 云服务能力,比如 Avatar、元宇宙、实时音频转文字处理、抠图等云服务。

而实际上AI 的能力其实是贯穿于即构整个产品矩阵底座的。在基础的产品基座下面,我们会提供更多基于具体细分行业的解决方案,包括泛娱乐、社交、游戏、元宇宙以及出海、金融教育等各方面。

我们也会提供Saas平台,比如我们的即构会议,同时即构也为国内艺试等相关严肃考试提供技术支持,我们有一个小艺帮产品,是国内高考底层音视频能力最大的供应商。我们知道国内的高考或者严肃教育,对于音视频的质量稳定性、可靠性要求非常高,因为任何一个事故都可能导致负面社会效应。

今年 OpenAI 的发展,AI 界迎来了 iPhone 时刻,让大家颇为震惊。据 IDC 的数据显示,国内外对于生成式 AI 的需求以及期望都是非常大的。生成式 AI 在 ChatBot 在线问答、生命科学等领域,发挥了非常大的作用,我们也看到 AI 在蛋白质破译上的应用,帮助人类大幅提升生产效率。那么,AI 对于即构以及整个泛娱乐行业而言,也会在玩法创新、质量优化上应用 AI 能力,为企业提供更好的服务。

刚才我提到,现在行业一直在寻找未来更好的实时互动能力,之前视网膜手机是 2K 或者 4K 分辨率,当你把屏幕放到眼睛前时,这个分辨率就远远不够了。对苹果今年推出的 Vision Pro 而言,4K 只是个入门级,它最高能达到到 8K 甚至 16K 的分辨率。那么这么高的分辨率,必然使功耗、算力以及编解码的能力、传输的能力达到一个质的飞跃,这其中也会引入像 AI 的一些能力去支撑端到端的变革。

Google 的 Starline 全息投影技术,使用更高级的高分辨率专业设备,构造真正能够让用户感知的惊艳效果,目前这样的一套设备还是比较贵的,可能要十几万美金。但是随着技术发展,它可能慢慢地会变成一个更平价,可以推广开来的技术。这些技术最终还是离不开音视频的传输与整个行业的发展,也是即构现在正在做的方向。

泛娱乐是即构关注比较大的行业领域,有众多客户使用我们的方案。即构是如何利用 AI 赋能整个泛娱乐场景,可以给大家做一些详细的介绍。

泛娱乐场景的业务目前都在从国内往海外发展。对于海外来讲,我们的玩法也在遍地开花,有很多的优秀企业通过即构的方案实现业务增长。

其中,就像我刚刚提到的在直播的场景下,海外网络情况很差,客户往往会采用很低清效果或画质。不过,客户通过即构把低清画质提升到高清,让产品的留存、DAU 以及使用时长都有了极大的增长,因为高清的画质给用户带来更好的感官体验,这样必然会带来营收增长。

那么,即构是如何在网络很差的情况下提升画质呢?或者说即构如何在压缩码率的情况下,带给用户更高清的画质?这里我们就会用到 AI 能力,比如说我们优化 H.265 编码算法,节约 30% 以上的码率,以此实现画质提升。另外我们会采用超分算法,传统来讲,要使分辨率变高,一般采用差值算法去放大画面,但是这种算法带给用户的感知不太友好,会有很多的色块,处理效果不佳。现在即构采用 AI 的方式,通过卷积神经网络算法去做,在业界优秀模型基础上进一步进行调优,会有更高清的画质能力。

对于语聊场景,即构自研 3A 算法及 AI 场景化降噪。传统的降噪只能针对通用场景降噪,但在 AI 加持下,我们可以针对不同场景,比如办公场景、户外场景等,去做基于场景的降噪。在视频背景存在噪声的情况下,如果我们应用 AI降噪能力,可以把背景中“咔咔咔”的噪声消除掉,还原出更好的音质。

此外,在语聊的场景下即构也提供 AI 变声功能。以前传统变声的效果并不好,现在 AI 技术帮助下,我们可以变音成卡通音、萝莉音等,去给语聊用户使用,也让应用场景变得更加有趣。

在海外十分火热的 1V1 场景中,接通率非常重要。即构曾经帮助客户从原来 70% 的接通率提升到97% ,这是通过即构底层智能选路的算法,以及音视频平台架构能力的支持下,帮助客户提升APP内接通水平,有助于提升营收。

今年“游戏+社交”的融合玩法比较流行,尤其是弹幕游戏,可以让玩家低门槛参与,大家通过弹幕方式控制游戏进程,跟主播互动。不过,弹幕游戏画面内容较复杂,且速度变化较快,需要大分辨率推流及较大码率,常有画质模糊现象发生。即构自研云游戏开播,降低主播开播门槛,且上行网络更友好,采用即构全链路 H.265 高级编码实现更高画质,以及云端高清低码,实现在同等拉流码率下有效提升游戏画质,给用户带来更高清流畅的弹幕游戏体验。

即构也提供 AI+KTV 的玩法解决方案。即构是业内最早推出实时合唱解决方案的公司,实时合唱会面临很复杂的情况,因为两个人远在天涯海角,同时去唱一首歌,需要很好的网络技术支持,对终端兼容性、声音的处理,以及同步的能力要求非常高。即构做了极致压缩,端到端最终能够压缩到 70ms 延迟的水平,给用户提供极佳的合唱体验。

另外,用户经常是不带耳机在语聊房场景中唱歌,因此会产生很多回声。要想基于场景化消除噪声的同时保证音质,使声音与 BGM 不被消除,是需要很多 AI 能力支撑的,即构 3A+AI 回声处理,让扬声器外放时也能也保持高音质体验。此外,即构还自研实时打分能力,通过 AI 算法让打分变得更精准,而不是傻瓜式的打分模式。

今年,即构也上线了数字人平台,支持 3D 数字人、真人数字人,还做了文本和声音方式驱动嘴型的能力,让嘴型根据声音变化。近期我们还上线了实时互动数字人,可以随时打断数字人的的讲话1.5秒以内做出相应。

我们在教育场景上也助力客户拓展场景能力。教育客户有个出海方面的痛点,就是需要教各国语言,就要雇佣很多老师和翻译人员。目前我们有了这种 AI 能力后,企业仅需提供教育片段,我们就可以帮助自动生成各种语言的教学视频,极大的节省了老师及翻译成本,所以当 AI 作为一种工具来使用时,可以大幅提升我们的工作效率。

最后想讲的是,即构在全球构建了这样一个实时网络:覆盖我们所有的终端用户以及各个国家,选用智能化能力(包括选路能力、容灾能力、规划能力、自动扩缩容的能力),保障我们全球可达,用最低的网络要求做到最好的用户体验。

其中,传音就在接入我们音视频的能力,它在尼日利亚一个非常差的网络上,测试过很多家音视频服务商,最后选用了即构。我们在弱网抗性方面是做得最好的,在80%、90%丢包情况下都能够保证音视频通话的流畅度。

一言以概之,通过即构的实时互动 RTC 能力,叠加 AI 能力,希望可以给我们的企业客户及朋友们带来更好的业务增长。