苹果推出 PCG 技术：AI 语音生成速度提高 40%，且质量不受影响

IT之家 2 月 3 日报道，科技媒体 9to5Mac 今天（2 月 3 日）发表博文，苹果与特拉维夫大学联合发表论文，提出一种名为“Principled Coarse Graining”（PCG）的新语音生成方法，以解决 AI 文本转语音（TTS）技术的速度瓶颈。 IT之家援引博文称，在语音生成方面，当前行业主流采用“自回归模型”和“逐一预测”方法，即根据现有代币预测下一个代币。然而，由于这种机制要求预测结果与预设标记“完全匹配”，因此该模型常常会拒绝实际上完全可用且听力差异最小的预测结果。这种验证标准过于严格的生产，直接降低了整体的生产速度。为了解决上述问题，研究团队提出了“粗粒度原理”（简称PCG）技术。这这种技术的中心逻辑是“求同存异”。研究人员认为，不同的声音信号往往可以产生几乎相同的听觉效果。因此，PCG 不会将每个声音视为完全独立的实体，而是创建“声学相似性组”。只要模型生成的预测标记位于正确的“相似性组”内，系统就会采用它。这种灵活的验证机制实质上将严格的“单点验证”升级为容错性更强的“范围验证”。对于某些操作，PCG引入了“推测解码”策略，并构建了双模型协作架构。在 prFirst 中，一个小型、轻量级的模型可以快速“猜测”并建议可能的语音标记。然后，它们由具有更广泛参数的“裁判模型”进行审查。只要候选标记属于正确的声学组，大型模型就会“不管它”。这种分工不仅维护既保证了小模型的高速度，又保证了使用大模型的输出质量，有效保持了效率和精度之间的平衡。根据实验数据，PCG技术应用GEE后，在不牺牲语音质量的情况下，语音生成速度提高了约40%。在自然度评分（满分 5 分）方面，该模型获得了 4.09 的高分。在极端压力测试中，研究人员将 91.4% 的语音令牌替换为同一组的其他令牌。他们发现，单词错误率仅增加了 0.007，说话人相似度 dIt 仅下降了 0.027，这是人耳几乎无法察觉的差异。 PCG 是一种“推理阶段”优化解决方案。这意味着它可以直接应用，而不需要对现有模型进行耗时和劳动密集型的再培训。此外，存储声学相似性组仅需要大约 37 MB 的额外内存。 IT主页附参考地址
特别注：以上内容（包括图片、视频，如有）由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
请注意：内容（包括图片和视频，如有）由网易号用户上传和发布，网易号是一个仅提供信息存储服务的社交媒体平台。

归档

分类

由 admin

发表回复取消回复

您错过了

IDC：存储芯片短缺导致智能手机市场可能下滑13%

80岁仍记忆力极佳的大脑有什么区别？

美国拟有条件放松对古巴石油禁运

美国政府对伊朗新核协议的限制曝光：无到期条款

苹果推出 PCG 技术：AI 语音生成速度提高 40%，且质量不受影响

由 admin

相关文章

80岁仍记忆力极佳的大脑有什么区别？

美国政府对伊朗新核协议的限制曝光：无到期条款

小米：自媒体向“AutoReport”赔偿500万元。在多个网络平台上传播未经证实、自称且明显贬义的内容。

发表回复 取消回复

您错过了

IDC：存储芯片短缺导致智能手机市场可能下滑13%

80岁仍记忆力极佳的大脑有什么区别？

美国拟有条件放松对古巴石油禁运

美国政府对伊朗新核协议的限制曝光：无到期条款

发表回复取消回复