IT之家 2 月 3 日报道,科技媒体 9to5Mac 今天(2 月 3 日)发表博文,苹果与特拉维夫大学联合发表论文,提出一种名为“Principled Coarse Graining”(PCG)的新语音生成方法,以解决 AI 文本转语音(TTS)技术的速度瓶颈。 IT之家援引博文称,在语音生成方面,当前行业主流采用“自回归模型”和“逐一预测”方法,即根据现有代币预测下一个代币。然而,由于这种机制要求预测结果与预设标记“完全匹配”,因此该模型常常会拒绝实际上完全可用且听力差异最小的预测结果。这种验证标准过于严格的生产,直接降低了整体的生产速度。为了解决上述问题,研究团队提出了“粗粒度原理”(简称PCG)技术。这这种技术的中心逻辑是“求同存异”。研究人员认为,不同的声音信号往往可以产生几乎相同的听觉效果。因此,PCG 不会将每个声音视为完全独立的实体,而是创建“声学相似性组”。只要模型生成的预测标记位于正确的“相似性组”内,系统就会采用它。这种灵活的验证机制实质上将严格的“单点验证”升级为容错性更强的“范围验证”。对于某些操作,PCG引入了“推测解码”策略,并构建了双模型协作架构。在 prFirst 中,一个小型、轻量级的模型可以快速“猜测”并建议可能的语音标记。然后,它们由具有更广泛参数的“裁判模型”进行审查。只要候选标记属于正确的声学组,大型模型就会“不管它”。这种分工不仅维护既保证了小模型的高速度,又保证了使用大模型的输出质量,有效保持了效率和精度之间的平衡。根据实验数据,PCG技术应用GEE后,在不牺牲语音质量的情况下,语音生成速度提高了约40%。在自然度评分(满分 5 分)方面,该模型获得了 4.09 的高分。在极端压力测试中,研究人员将 91.4% 的语音令牌替换为同一组的其他令牌。他们发现,单词错误率仅增加了 0.007,说话人相似度 dIt 仅下降了 0.027,这是人耳几乎无法察觉的差异。 PCG 是一种“推理阶段”优化解决方案。这意味着它可以直接应用,而不需要对现有模型进行耗时和劳动密集型的再培训。此外,存储声学相似性组仅需要大约 37 MB 的额外内存。 IT主页附参考地址
特别注:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
请注意:内容(包括图片和视频,如有)由网易号用户上传和发布,网易号是一个仅提供信息存储服务的社交媒体平台。