看了今年《英雄联盟》S11比赛,我见识到了这些玩出花的黑科技( 二 )
"与所有音视频直播领域面对的问题一样 , 我们还有个最入门但也最苛刻的要求:实时性 。 尤其对S11直播而言 , 以4K+60FPS+HDR举例 , 我们需要在1秒内对60张1080P图像进行超分辨率到4K , 以及对4K图像进行SDR2HDR的AI模型推理 , 最后通过编码器编码成4KHDR视频流 。 "

文章图片
在研发过程中 , 为了获取最佳HDR效果 , 陀健团队做了一系列精细化的处理 。 比如对视频场景实时分类 , 以此区别游戏场景和舞台场景的HDR效果;为了准确控制HDR的亮度分布和色彩呈现效果 , 进行了实时的ROI分割 , 使用对应的SDR2HDR模型进行调色转换等等 。
在落实SDR2HDR的AI模型时 , 陀健团队里有个年轻的算法研究员小曹 , 在做效果fine-tuning时 , 需要长时间盯着屏幕校对效果 。 由于HDR拥有更高的峰值亮度和对比度 , 眼药水成了小曹的常备物品 。 团队甚至开玩笑地用滴眼药水的次数来检验各模型的优劣 。
"我们其实也不知道游戏的HDR效果应该是什么样 。 我们无意参与到游戏创作里面去 , 但我们尝试去定义游戏直播HDR的效果 。 这需要长期的算法和优化经验沉淀 。 "
要怎么保证AI字幕的准确和流畅?
再说到黑科技的部分 。 像去年就推出的AI智能回放和弹幕防遮挡功能 , 我们不难想象它们的使用场景 。 比如经典的TheShy剑魔天神下凡1V4 , 这种精彩操作总会让人去回顾和欣赏 , 同时玩家还会有讨论热情 , 想要看看弹幕是怎么说的 。
而AI字幕功能 , 放眼所有传统体育赛事中都颇为罕见 。 虎牙技术副总裁许佳告诉我 , 其实这也是从用户需求出发 。
"首先 , 虎牙赛事观众有很多硬核玩家 , 他们想要通过观看比赛向职业选手学习 。 解说可以把专业的战术、关键的操作捕捉到 , 讲解出来 , 便于玩家学习 。 光听一遍 , 可能很快就会过去 , 但如果配合字幕 , 观众可以加深印象 , 或者更好地理解赛事里转瞬既逝的内容 。
另外 , 直播内容本身是视觉+语音多模态的 。 当观众没有耳机也不方便外放(或者听力不方便时) , 比如在乘车坐地铁 , 或者晚上和家人在一起 , 甚至上班的时候 , AI字幕就可以满足观众的需求 , 将多模态内容完整呈现出来 。 "
正如文章开头提到 , 游戏赛事直播中 , 会涉及到大量的黑话、专业术语、甚至是无厘头的梗等等 。 大家用过语音转文字 , 都能感受到文字转换的准确性是影响体验的重要因素 。 那虎牙的AI字幕要怎么保证准确性?
许佳表示:"虎牙从5、6年前就开始直播S赛事 , 现在还有LPL、LCK等联赛的语音和视频数据 。 我们会针对S赛事做很多标注 , 比如战队名、英雄名、选手名、黑话 , 积累一个比较大的数据集 , 并且训练一个深度学习模型 。 这个模型在AI领域叫作语言模型 , 我们也叫热词模型 , 能够识别专业的术语 。 保证准确性就是在虎牙积累的数据前提下 , 不断做内部算法迭代的过程 。
虽然字幕功能真正测试可能就1-2个月 , 但真正底层的语音转文字技术 , 我们做了一年多 。 目前我们AI字幕的识别错误率已经降低到了4.02% , 在游戏直播场景上已经领先所有第三方识别引擎 。 "

文章图片
此外 , 我在实际观赛时 , 发现虎牙的AI字幕显示类似于YouTube的识别字幕 , 是逐字逐词出来 , 而不是一整句话的形式 。 许佳说这种流式的处理方式也是为了保证识别的低延迟性 。
【看了今年《英雄联盟》S11比赛,我见识到了这些玩出花的黑科技
相关经验推荐
- 《魔兽世界》tbc怀旧服p2阶段面临人数崩盘
- 宝蓝直播调侃fpx战队转会成绩:lng,ra今年能成好成绩
- 2021年已经过去了|开放大世界手游or端游曝光,《逆水寒》开放大世界玩法
- 作为《原神》中最重要的组成部分|《原神》4星角色培养满意度top8出炉
- 《WWE2K22》官方公布预告片确认3月11日推出
- 《半妖的夜叉姬》特别宣传片第二章2阶段1月8日开播
- 本文转自:新快报无论从玩家数量还是收入来看|《2021年全球移动游戏玩家白皮书》,发掘移动游戏领域与TikTok间的新机遇
- 《WWE 2K22》官方公布预告片 确认3月11日推出
- Steam特别好评模拟经营游戏《木架》开启特价促销
- 《魔域口袋版》年兽养成福利多五虎列阵闹新春
