用AI做一期播客节目,有什么不同?——只需要30秒的语音素材,就能在ChatGPT的帮助下制作出一期和主播声音一模一样的节目,曾经科幻电影中的情节,已经在“aigc元年”的今年实现了。就在上个月,网易云内的播客节目《大俗小雅》发布了《139AI播客:最长情的陪伴无需告白》,这是一期完全由AI生成故事情节和语言的播客,在一周内收获了几万播放量却几乎没有被任何听众发现,节目中由GPT书写的真情实感的故事收获了非常多听众的留言和分享。
我们和这期节目的制作者以及大俗小雅的主理人秧子和小希聊了聊她们的这次新尝试。
【资料图】
01如果让ai替代制作人做一期节目,还能有听众和它共情吗?小希、秧子与阿陀是共同就读于南加州大学,作为大学同学,三个人在一间公寓同住了三年。他们会在赶due的夜晚一起散步,结伴壮胆穿过洛杉矶市中心治安堪忧的街区,去校园里24小时营业的星巴克买上一杯咖啡,美其名曰熬夜学习,实则为拖延复习找借口;也会一起窝在公寓的小房间里边画图、写论文,电脑上放着《快乐大本营》和《一年级》作为背景音,或是约定在期末前到离校园车程五分钟的韩国城吃参鸡汤。2020年因为居家时间变多,那时小希在纽约建筑师事务所工作,阿陀是刚刚入职旧金山大厂的码农,秧子就在德国小城海德堡继续着自己的博士学业,三位老友都处在异乡宅家的困顿和孤独之中,于是便相约远程视频,那是他们三个人两月进行一次的传统项目(但经常鸽掉对方)。
《大俗小雅》创始人小希
《大俗小雅》创始人秧子
这个小小尝试居然逐渐在之后的日子里延续下来并成为了一档受听众欢迎的陪伴型艺术生活方式播客,每周三在各大音频平台稳定更新,收获了超过1800万的收听,陪伴大家走过了150个小时。在这个节目即将来到三周年的时间点,秧子和小希逐渐想探索一些播客这个媒介新鲜的可能性。他们在自己的栏目里发布了一期由AI生成的播客,一周内就收获了两万多播放量,没有被大家发现是由AI制作,还得到了很多温暖的陪伴故事评论互动。
许多听友在收听完这期由AI生成的节目对里面的故事产生了强烈的共情,很多朋友听到主播们的声音会有一点点不自然,担心小希与秧子最近是否遭遇了一些日常生活中的不如意,希望主播们不要太辛苦。
也有小伙伴分享自己在异乡的经历,感谢《大俗小雅》一路以来的陪伴。
在接下来第二周的节目中,小希和秧子详细介绍了整个AI播客制作的过程和不同模型的效果对比。她们希望通过这个互动实践探索AI生成的内容是否能激起人类真实的共情以及AI与听众产生真实情感交流的可能性,而《大俗小雅》也收获了很多温暖疗愈的留言。正如其中一个小伙伴所说:“AI永远无法彻底取代人类,感情是用心陪伴滋养出来的”……
02再也不用录节目,靠ai创造就能变现,真的如此简单吗?随着《大俗小雅》逐渐变成一个体量较大的播客,她们的商业化也逐渐越来越成功。曾获得加拿大旅游局、喜马拉雅与天猫“双11”、多邻国、佩枪朱丽叶等多个品牌与机构的合作。AI制作节目的工作方式在她们一开始的设想里,是一次大胆的艺术尝试,利用AI生成播客也会是一件令她们提高节目制作效率的方式。
随着录制的节目越来越多,以及每周需要一期的稳定更新,秧子和小希也逐渐发现自己的生活已经陷入了素材瓶颈和精力局限,AI也能帮助她们实现源源不断的制作灵感。那么让AI实现创作变现真的有这么简单吗?
秧子认为“制作一期由AI生成的播客节目需要两个方面的结合:由chatgpt生成的文稿结合声音克隆的模型将文本转化为语音节目。我们将往期陪伴或感情节目的大纲及逐字稿投喂给AI,比如《043见习爱情一无所知的每问必答》、《091七夕回访特辑:智者不坠爱河》等等,计划生成一期城市漫游与恋爱结合的故事。”
小希和秧子首先输入了《121独自生活十一年:享受孤独赋予的满足与力量》给chatgpt。这期节目主要讲述了小希、秧子、桃酱辗转在不同城市独居生活的故事, AI很快就给她们生成了更多流转在不同城市生活的细节。比如小希在巴塞罗那的故事,chatgpt通过一些资料分析出小希是从洛杉矶搬去巴塞罗那。AI如是描写道: “……住在一个有点老租的小公寓,虽然是二手的,也有点旧,但坐在窗边一看,满眼的城市风光,古老的教堂塔尖矗立在蓝天下……”这些描述与小希的经历有80%相似,但是又增添了几分浪漫的想象,这让小希和秧子第一次意识到AI的理解和表达能力是超乎想象的。除却文稿创作,在语音录制上,我们尝试了AIGC和SoVIT等人工智能系统语音生成模型。AIGC "AI Generated Content"(人工智能生成的内容)指的是由人工智能系统或模型生成的各种类型的内容。这些内容可以包括文本、图像、视频、音乐、语音等。SoVITS“So Vits Svc”是一个是基于VITS用来模拟人声的开源项目,可以将训练好的声音模型,用于生成歌曲音色改变或类似文字转语音等效果。VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种结合变分推理(variational inference)、标准化流(normalizing flows)和对抗训练的高表现力语音合成模型。VITS通过隐变量而非频谱串联起来语音合成中的声学模型和声码器,在隐变量上进行随机建模并利用随机时长预测器,提高了合成语音的多样性,输入同样的文本,能够合成不同声调和韵律的语音。
最终AI制作完成了一期由四段在不同城市的恋爱故事组成的节目,AI甚至编写了四个华丽动人的故事子标题:《东京夏日绯恋:彼女与彼女》、《威尼斯夏澜:水城光影下的细语恋曲》、《巴塞罗那初夏:彩色轮廓与古老鹅卵石的秘语》、《纽约雨色:地下迷城的街头旋律》。
不过这个由AI编写的故事最终在主播们给父母的试听环节就被否决了,那时planet money正好发布了一期大概5分钟的AI对话内容。Planet money倾注了很多资金,也运用了最顶尖的技术团队,毕竟它是背靠NPR,股东是Google和Apple的头部播客,那个时候小希和秧子就挺气馁的,觉得凭她们两个外行不可能做出来这个AI节目了。
不过,在经历了短暂的消沉之后,两位主播又重振旗鼓,打算采用一种更符合AI特点的方式完成这期节目的制作。
03用ai写自己的故事,模仿自己的声音AI像朋友一样提供非常稳定的陪伴支持,于是,在最后阶段《大俗小雅》选用了关于陪伴的命题。因为秧子和AI平时的互动很像书信对话,她会让gpt每天写一条早安信息,为开启活力一天加油打气。书信的形式也与两位主播平时和听友们在小宇宙留言区的交流形式很相似,于是《大俗小雅》最终选用了“听友来信”的方式创作一期AI节目。
《大俗小雅》选用GPT4.0进行文本创作,模仿听友的语气撰写了三封从小猫、播客和AI三个方面关于 “陪伴”这一主题的来信。GPT4.0GPT是“生成预训练式变换器”(Generative Pre-trained Transformer)的缩写,这是一种大规模的语言模型,用于处理各种语言理解和生成任务。每个新版本的GPT模型都在前一个版本的基础上进行改进和扩展。最新内测的版本为GPT4.0版本
语音生成方面《大俗小雅》获得了来自MINIMAX开放平台的技术支持。
(MINIMAX新一代通用大模型所提供的语音大模型区别于传统TTS合成技术,可以通过对文本语义语境的理解,可以直接生成有声小说、有声漫画等,达成高质量的文本理解及语音合成能力。)
04伦理争议AI生成的内容以及在社交媒体的运用一直以来都有争议性。例如播客最大的平台喜马拉雅就明确规定纯AI生成的内容需要加以标注说明。
此外,这期节目虽然收到了大家的很多好评,有听友评价道,这是“最有创意的节目”,但同时也受到了一些伦理方面的争议,比如有听众留言,两位主播利用了大家的感情。
而这次播客界的AI艺术互动实验项目也借鉴了玛丽Marina Abramović的《艺术家在现场》(Artist is Present)以及Amalia Ulman的《优秀&完美》(Excellences & Perfections)等艺术家的女性主义与行为艺术理论与概念,利用AI创造了在虚拟平行世界里录制节目,扮演着双重角色的秧子和小希。
05真实的情感交流,是一切播客的意义秧子和小希表示,每一次和听友们的真诚交流都使她们更加珍惜播客让互不认识的人们穿越电波,产生心灵的共振与联结。无论是在早高峰的通勤路上还是睡前的独处时间,声音这一神奇的媒介总能给予人们特别的治愈力与陪伴感。
从2020年11月开始,默默无闻沉寂了3个月后,《重返20岁–Lan La Land的美食地图》登上小宇宙新星榜,再之后《纽约客们的师生谊与断背情–木心 陈丹青 白先勇 李安》 等数期节目登上小宇宙首页,直到最近的《樱花满天的日子–绘画少年的出走与回归》,小宇宙首页在蔡国强工作室Instagram的跨次元相遇……
06跨越无数,在电波的尽头和真心相遇从三人节目到阿陀退出,小希和秧子每周请不同的嘉宾录制节目;再到今年,小希和秧子双双成为都市打工人,下了班努力,“把对⼀件事的拖延化作对另⼀件事的动力”……她们至今已经完成《城市漫游:旅居在别处》系列在内,一周不落的140余期节目。一直和热爱的事物和有爱的一群听友们在一起,小希和秧子是抓住播客井喷元年的幸运儿。
她们说:“立言是传统文人的理想。除了灌输思想之外,便是表达情感吧。感谢网络,让世界的每一个角落都可能联结;感谢一个个角落里那些心弦共振的人,让远隔万里的人不那么孤独 ……让数以万计的人倾听和共情的我们是幸运的。那么,就请这样一直陪伴彼此走下去吧……”
作者:《大俗小雅》创始人:秧子、小希