探索加密行业风口:3EX
OpenAI再发大招推出Voice Engine!让失语者发声只需要15秒音频...
作者:小岩
编辑:彩云
许久没有新动作的OpenAI最近显得颇为低调。但事实上,对于这些卷的不能再卷的AI头部公司而言,没有人是敢躺平的。大家不是在发布新品,就是在研发新品的路上。
3月30日,OpenAI宣布推出全新的人工智能模型——Voice Engine。这并非是一个全新的模型,事实上,自2022年开始,OpenAI便默默布局,开展了对于该模型的研发工作。
工作原理简单而高效!能够驾驭合成声音所带来的挑战和机遇。
对于这款最新发布的模型,OpenAI官方推特的措辞异常小心而谨慎,它表示,“我们正在分享从 Voice Engine模型的小规模预览中获得的经验体会”。事实上,Voice Eengine所呈现出来的工作效率的确是简单而高效的。
Voive Engine最大的特点在于语音克隆。其中的工作原理很简单:用户仅需通过电话或电脑麦克风录制一段15秒的声音片段,OpenAI的语音引擎便能生成“与其声音高度相似的自然语音”。在此之后,无论是面对什么样的文本,它都能以近乎完美的克隆声音进行朗读。
这项技术的问世,显然会对那些经常录制自己语音的人,诸如播客,配音艺术家,口语表演者,有声书和广告解说员,游戏玩家,流媒体主播,客户服务代理,销售人员等众多职业产生重大影响。
除此之外,OpenAI还特别强调了语音引擎在支持非语言个体方面的独特能力。它能为这些个体提供个性化的,非机械化的声音,为那些有语言障碍或学习需求的人提供治疗和教育方面的帮助。
一旦技术得以成行,Voice Engine不仅能实现更真实的人声复刻,更重要的是,它还能适用于各种场景的应用,诸如为孩童朗读故事,企业产品介绍,医疗咨询服务,为语言障碍者提供帮助等。它不仅支持多种语言,更能模仿出不同的语调和情感,应用不可谓不广泛。
Voice Engine由来已久,相关应用早已有之。
正如我们前文所提到的那样,早在 2022 年底,OpenAI 便开发了 Voice Engine 并将其用于支持文本到语音 API 中的预设语音以及 ChatGPT 语音和朗读。所以,在展望Voice Engine未来可能产生的广泛应用场景之前,我们不妨看看它曾经有过哪些实用案例。
首先,Voice Engine可以通过自然,富有感情的声音为非阅读者和儿童提供阅读帮助。这些声音不是呆板的预设声音,它代表了更广泛的说话者。譬如一家名为Age of Learning 的教育技术公司就一直在使用 Voice Engine 生成预设的画外音(voice-over)内容。他们还利用 Voice Engine 和 GPT-4 创建实时且个性化的回应,从而与学生进行互动。
其次,Voice Engine可以翻译视频和播客等方面的内容。通过使用Voice Engine,创作者和企业可以用自己的声音流利地向世界各地更多的人进行传播。据悉,HeyGen便是这方面的早期应用者之一。HeyGen是一个人工智能视觉故事平台,通过使用 Voice Engine 进行视频翻译,将演讲者的声音翻译成多种语言,从而覆盖全球受众。值得一提的是,即便是翻译,Voice Engine也会保留原说话者的母语口音,譬如带有法语口音的英语等。
此外,Voice Engine可以为不会说话的人群提供支持:为患有影响语言的疾病的人群提供治疗应用;为有学习需求的人群提供教育增强功能等。譬如它能够为不会说话的人群提供多种语言的独特非机器人语音。用户可以选择最能代表自己的语音,对于多语种用户,它也能使每种口语都保持一致的语音。
担心合成技术可能会被滥用,暂时没有完全公开的计划。
尽管语音生成式AI被认为是OpenAI的又一次巨大突破,但很显然,官方并不急于向外界完全公开Voice Engine。究其原因,主要是因为合成语音技术具有巨大的风险,很可能会被滥用。特别是最近一段时期,由合成语音引发的电信诈骗,版权侵害等社会风险问题层出不穷,这些都是OpenAI做出“暂不公开”选择的重要原因。OpenAI也表示,在开发的过程中,一直在与政府,媒体,教育等社会各界的美国和国际合作伙伴接触,保证听取和采纳反馈。特别当下这处于美国大选时期,OpenAI又正与政府和外部企业合作,势必会采取必要的安全措施和谨慎的态度。