当地时间3月29日,全球知名的人工智能研究机构OpenAI发布了一款人工智能语音引擎:Voice Engine。仅通过单个15秒的音频样本和文本输入,Voice Engine便能生成与原始说话者声音高度相似的自然语音。这一技术成果标志着AI在语音合成领域迈出了革命性的一步。不过,适逢OpenAI努力在全球大选年将破坏性虚假信息的威胁降至最低之际,这款新工具被认为风险太大,不适合全面发布。
革命性语音引擎“谨慎”发布
3月29日,OpenAI在官网上首次公开展示了其最新研发的语音生成模型——Voice Engine。这一系统可以从15秒的音频样本中生成与原始说话者声音高度相似的自然语言语音。也就是说,如果你上传一段自己的录音和一段文字,这款语音引擎就可以使用听起来和你声音一样的合成声音,来阅读文字。此外,语音引擎“复制”出来的声音不一定只能朗读原始说话者的母语文字,它还能用西班牙语、法语、汉语等多种语言“重现”原始说话者的声音。
AI语音新赛道
OpenAI的语音引擎不是行业内唯一在AI语音领域的研究。2023年初,微软也曾宣布推出了一款名为VALL-E的全新文本转语音人工智能模型,可以基于仅有3秒钟的语音样本,生成几近真实的人类声音。
为了模仿语音,目标说话人的语音必须与训练数据紧密匹配。研究人员表示,他们已经对VALL-E进行了6万小时的英语语音训练,其中语音来自meta的LibriLight音频库中的7000多名演讲者,这个训练量比现有其他系统都大数百倍。通过这种方式,AI可以使用其“训练”来尝试模仿目标说话者的声音或大声朗读所需的文本。
对于VALL-E存在的安全隐患,微软公司发表了一份伦理声明:“这项工作中的实验是在假设模型的用户是目标演讲者并得到演讲者认可的情况下进行的。当模型被推广到现实世界中无法辨别说话人时,它将包括一个协议来确保说话人批准使用和合成他们的声音。”
在2014年接受喉癌治疗后永久失声的演员瓦尔·基默(Val Kilmer)就曾与Sonantic公司合作,为自己在日常生活中创造了一种由人工智能驱动的说话声音。而当日渐成熟的AI语音技术与AI对话技术相结合,逼真声音将为虚拟对话带来更真实的体验。新聊天机器人Character.AI可以让用户与几乎任何人交谈,不管是历史上诸如马克思、伊丽莎白等名人,还是去世的亲人。那么,将VALL-E与Character.AI结合,怎样的元宇宙将展现在我们面前?
部分图片来自网络
iWeekly周末画报独家稿件,未经许可,请勿转载
原标题:《15秒钟复刻人类原声,OpenAI发布革命性AI语音引擎》