今年以来,由ChatGPT引发的AIGC浪潮席卷全行业,AI大模型正在被应用于各行各业的效率提升与产品研发上。就社交泛娱乐行业而言,不断进击的AI技术带来了怎样的互动体验改善与场景创新?在落地的过程中,又面临着哪些技术上的瓶颈与挑战?
在RTE2023 实时互联网大会上,喜马拉雅首席科学家卢恒、Soul App技术副总裁张高政、小红书音视频架构负责人陈靖、商汤科技商务总监&数字文娱事业部副总裁李星冶围绕相关话题展开了圆桌探讨。
以下内容基于圆桌讨论内容进行整理,为方便阅读略有删改。
Q1:AI技术已经发展很多年了,大家觉得此次AI大模型的浪潮与之前的AI技术相比,对各自的业务影响有何不同?
卢恒:喜马拉雅是全国最大的有声内容平台,我们从文本处理到音频内容生成过程中使用了大量AI技术。以话本工作为例,喜马拉雅之前在演绎小说原著或篇章时,会对小说进行海量标注,现在基本上可以用AI完成了。我们结合大模型做了很多优化工作,在话本出来之后,我们会把它送到后端支持多情感的系统里,让它自动挑选用哪个音色去进行当前句子演绎,几乎已经达到完全自动生成多情感音频内容的阶段,在角色分配、情感理解、甚至是韵律预测上,都变得更加精准。现在,喜马拉雅大概有3.7万本小说音频都是结合AI技术生成的,AIGC生成的音频内容日均播放量超过250万小时。
张高政:我认为有两点对社交行业比较重要。首先,大模型的理解将带来内容生产效率提升与门槛下降,对于UGC类的平台和用户都非常有利。随着大模型多模技术的发展,以前不太喜欢表达或不擅长表达的用户,都可以通过大模型去生产文字、图片、视频,并以更多维的方式去表达自己,展现自己,在UGC平台上,大模型将是一个很重要的工具。
其次,随着社交行业虚拟人、虚拟陪伴、智能对话等现象级产品的爆发,用户越来越能接受人机对话的互动形式,现在的bot也可以通过大模型变得更加智能、流畅、有情感,这种变革会带来社交关系的代际变化。
陈靖:先谈一下我对AI过去与现在的认识。过去的AI,更倾向于处理偏固定性的问题,或者更偏专用、小范围的具体问题,比如识别类。现在的AI,一是很通用,二是更有娱乐精神,更适用于泛娱乐行业。
起初,我们最担心的是生成式内容创作会不会影响社区真人创作氛围,大家都在讨论如何避免AIGC在我们平台失控,与此同时,我们也担忧未跟上AIGC的脚步。之前搞了一个黑客马拉松,看到了一些非常有趣的idea。虽然现在很多项目还没有落地,但我们都在持续的研究。
李星冶:相比传统的AI浪潮,这波大模型核心体现出来的是大。
第一是对大算力的要求。商汤科技的上海临港AIDC是全国最大,也是亚洲最大的人工智能计算中心之一,还在广州、重庆、深圳、福建等地打造了多个区域级算力中心,储备了很多计算资源,目前看来边际效应还是递增的状态。回过头去看,当时的做法很正确。
第二个是大模型的参数量上。商汤的模型数量增长迅速,仅去年到现在,短短一年,基本上翻了一倍。所以,从模型数量上也体现了其泛化的特点。
第三个是它的应用空间很大。今年我们成为了拿到网信办首批AI大模型牌照的8家公司之一,也做了一些像商汤如影、商汤格物等应用,但我们的目的不是为了去做C端的运营,而是作为技术厂商,需要更往前走一步,看看C端的痛点在哪。只有拿到用户的真实需求反馈,才能服务好客户的对应场景需求。
Q2:在落地实际的业务与场景时,大家遇到的痛点和挑战是什么?
卢恒:我们在落地的时候确实碰到了很多痛点和挑战。首先,要真正做好一个虚拟陪伴机器人、AI主播与用户进行交互,其算力成本非常贵。也就是说,如果要向C端大量提供这样的服务,本身的成本以及工程上的实时化要求就非常高。所以这块还需要做大量的工程化工作,促进算力的获取和保障。另外,虽然现在大模型的通用能力很强,但真正对于一个AGI来说,除了逻辑和智商之外,可能还需要情感表达这样的EQ能力,目前来看是有所欠缺的。
张高政:我们这边面临两个挑战。第一,AGI爆发之后,我们在思考用通用大模型,还是在垂直领域做更有人格、情绪化、情感温度的大模型。后来慢慢发现,社交行业的通用模型能解决四五十分的问题,但如果想让智能对话能力变得更人格化,通用AGI就无法满足。第二,现在的大模型几乎可以代替所有的业务模式,但对社交来说,需要的并不是简单的一问一答,而是综合的互动体验。否则就无法产生粘性和深度的关系网络。我们在大模型的应用上,除了Chatbot以外,还要配合音乐、图像的生成使用。如何推进AI新技术与社交场景的深度融合,如何借助AI工具产生更具参与感、趣味性的社交玩法,可能将是社交行业存在的一个挑战。
陈靖:大模型落地的痛点和挑战不光是技术和成本,还有一个挑战是,对于很多公司而言,说清楚一些AI大模型项目的必要性是一个巨大挑战,很多项目并不像利用AI去做体验增强那样,能够跟用户留存及转化的一些指标建立关联。
李星冶:站在我们的角度,我认为有两点。
第一,在服务C端流量产品时,算力、带宽、智力相关的弹性储备是一个很现实的挑战。比如某偏图像社区的产品,日常输出速度上限是每10秒钟200张图,但遇到万圣节等营销节点时,可能会变成至少2000张图。这背后都涉及到与算力相关的弹性储备。
第二,大模型开发厂商该如何平衡投入以及预期收入之间的关系。现在行业内大模型真正能够落地产生商业价值的并不多。只有随着行业慢慢进入深水区,才会有更多更合适的产品和技术供应方诞生,共同打造好的行业生态。
Q3:在大家已经做的尝试和探索里,能看到哪些实时互动领域业务体验的改善,或者是玩法创新?
卢恒:以内容搜索和推荐为例,此前用户想在喜马拉雅上搜索喜欢的内容,更多的是直接搜索专辑或书籍名字。大模型出来后,就可以完全根据相关算法去了解用户的想法和意图,并推荐一些适合当前听的内容,提升搜索效率和用户体验。
张高政:我分享三个案例,第一个是Soul自研的让人和人、人和内容“智能链接”的灵犀系统。因为平台有内容的分发,也有人的互动,所以我们自研了一套系统,这套系统打通了人、内容的连接,其最重要目的就是帮助用户获得更及时和高质量的互动反馈,实现注意力普惠,对于社交平台来说,这是帮助用户平等获得内容分发和交流机会的一个大突破。第二个,我们自研了NAWA引擎,一套集AI、渲染与图像处理于一体的集成化SDK,可以帮助用户创建个性化形象和个性化虚拟场景。第三,Soul 2020年就开始做与AIGC相关的研发,在智能对话、图像生成、语音技术等方面拥有相应技术积累,并且推出了AI绘画、AI聊天、AI音乐等活动和功能,例如“AI苟蛋”在内测上线以后,用户会在各个平台上自发宣传这个功能。我们认为,用户在慢慢接受人和虚拟人共存的社交体验和关系网络,未来,Soul也会陆续推出人和虚拟人互动等场景。
陈靖:从我的观察来看,美颜美体功能是过去AI为实时互动领域贡献最大价值的场景,它能极大地提高主播观看率。小红书用AI可以说是无孔不入,不仅是实时音视频、美颜、美体,还有画质增强和码率压缩方面,都应用了非常多的AI技术。在创新落地上,我们在搜索和推荐里使用了大量的AI,比如用一张图片即可搜索小红书笔记,以及如何让用户快速找到他最喜欢看的主播等等。
李星冶:整个AI互动我们经历了三个阶段。第一阶段,从2016年直播短视频爆发后,我们做了行业内第一个直播用的美颜特效、美体特效、背景分割等;第二个阶段,是2021年,也是元宇宙元年,我们做了人物场数字孪生技术。第三个阶段,我们更多的是大模型综合能力的运用,比如在《长安三万里》火的时候,我们和一个学习机硬件产品合作,用大模型做了李白的人设,放到学习机上引导小朋友与李白做互动。还有我们跟一个阅读网站合作,实现了七八个、甚至几十个虚拟人与一个真人互动的场景。用户还可以生成他的虚拟女友,失去的亲人等,这些都是我们在AI实时互动玩法上看到的一些变化。