为了向大众发布这则喜讯,微软公司的研究员发布了一篇将近16页的论文,展开了详细描述。VALL-E只需要对3秒钟的声音样本进行采样,就能清晰地模拟出这种声音的语音。简单来说,VALL-E只要“听懂”了别人的特定声音,就能合成这个人说的所有话,并保存说话者的心态与声学设计。这是语音合成技术的一次重大进展。
那么微软公司是怎样完成这个神奇的技术的呢?VALL-E被称为“神经系统编码解码语言表达模型”,它以现成的神经系统音频转码软件模型中提取离散变量编码训练而成,它被建立在一个名为EnCodec的音频转码专业技术之上。相比之前的语音合成方式,VALL-E需要经历“语素-离散变量编码-波形”的过程,而非“语素-节奏-波形”的传统过程。具体来说,VALL-E将TTS视为一个标准语言表达模型任务,根据语素和声码提醒形成离散变量的音频编码解码编码,相配合于总体目标内容和说话人的声音。
微软公司在LibriLight音频库上进行了VALL-E的语音合成实验,该库包含了来自7000多位演讲人的60,000小时英语演讲内容,其中大部分来源于LibriVox公共音频读物。这个训练数据为VALL-E的预训练提供了很好的条件,而且VALL-E不断地学习和自我提升,适合合成高质量的个性化语音。
虽然推出VALL-E是一项伟大的技术成就,但仍有可能导致安全隐患。科研人员担心VALL-E可能会被滥用用于诈骗或违法活动。为了缓解这种风险,他们正在设计一种模型来检验一段音频是不是由VALL-E合成的。微软公司也会进行人工智能标准的开发和运用。因此,我们需要小心注意这个技术的潜在风险。
更多细节内容请参考以下链接:https://www.rockpapershotgun.com/microsoft-unveil-vall-e-their-creepy-ai-that-can-mimic-voices#comments https://valle-demo.github.io/ https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/ 来源:iNFTnews深层优选
电信电信诈骗是近些年多发高发的一类新式网络诈骗,广大群众深恶痛疾。现阶段运用数字货币、区块链等新技术应用物质开展电信网络诈骗案件也是愈来愈多。知帆高新科技安全性权威专家从过去的实例中发觉数字货币诈骗犯(犯罪团伙)大...
电信电信诈骗是近些年多发高发的一类新式网络诈骗,广大群众深恶痛疾。现阶段运用数字货币、区块链等新技术应用物质开展电信网络诈骗案件也是愈来愈多。 实例:假冒交易中心在线客服行骗 事情 ...
电信电信诈骗是近些年多发高发的一类新式网络诈骗,广大群众深恶痛疾。现阶段运用数字货币、区块链等新技术应用物质开展电信网络诈骗案件也是愈来愈多。 如何防范 碰到相近状况知帆安全性权威专家提示大...
别着急,仔细分析一下这些骗局,你没看出它们和加密圈一些人设计的ICO、铭文、NFT骗局一样,不同风格的发币却没有改变本质吗。上次还不够,还能被同一个人同一件事骗十几次。而你自己身处币圈,你有没有发现,你其实在一类项目中不...