复制成功

分享至

主页 > 数字货币 >

个性经济时代,MiniMax 语音大模型如何 To C?

2024.02.04

文章来源:AI科技评论

作者:王悦

图片来源:由无界AI生成 图片来源:由无界AI生成

大约一个月前,距离 GPT Store 上线还有两周,一位名为 Kyle Tryon 的国外开发者在个人博客上分享了其基于 ChatGPT Plus 开发的三个 Agent(又称“GPTs”),其中一个 Agent 是关于美国费城旅游出行的个人指南“PhillyGPT”,它能访问当地 SEPTA 公共交通 API,为个人提供费城当地的实时天气、旅游资讯、文艺演出活动、出行路线、公交车站与地标数据、预计抵达时间等等。

具体可访问 PhillyGPT 链接:https://chat.openai.com/g/g-GlYMtkbse-phillygpt

费城个人指南的开发背后,实际是人们对于 GPT 时代 C 端个性消费产品的真正想象。无独有偶,1 月 11 日 OpenAI 正式上线 GPT Store 后,公布 300 万个 GPTs 之余,也将与用户日常消费活动息息相关的徒步路线指南“AllTrails”放在推荐榜单上。与国内对大模型前景颇有微词的情况不同,海外大量的个性化应用开发正如火如荼。

个性经济时代,国内大模型经济的发展,实则要改变旧的解题思路。

在国内一众大模型厂商中,MiniMax 就是一家坚持产品创新、追求个性应用的“少数者”。从这一初衷出发,自去年 3 月初亮相起,当大多数团队还处于语言大模型起步阶段时,MiniMax 就以多模态大模型的定位在拥挤的赛道中出类拔萃,估值突飞猛进,成为国内估值最高的大模型厂商之一。

尤为值得注意的是,MiniMax 也是极少数下注语音大模型的团队之一。

区别于文本、图像,语音大模型的研发由于方向小众,社区数据生态并不繁荣,难以获得大量的高质量数据进行模型训练。但在社交、互娱、教育等具有大量个人用户的场景中,声音又往往是许多 To C 与 B2B2C 产品的重要构成,是大模型商业化的兵家必争之地。

近日,MiniMax 也推出了新一代语音大模型,在多项性能指标上超越了传统的语音技术。

语音模型的能力在 MiniMax 自家产品星野中有广泛运用。在近期星野 APP 内发起的 AI 挑战赛中 , MiniMax 语音模型的能力得到充分展示。不仅能语音合成得很自然,还能模拟真人 rap,花样百出,逼近真人 rapper 水准。

(有想在星野 AI 战赛中跟 AI battle rap 的朋友可点击:https://m.xingyeai.com/share/chat?npc_id=64236&share_user_id=54072629321819 进行体验):

据 AI 科技评论了解,MiniMax 最新语音大模型基于长达数百万小时的高质量音频数据进行训练,效果不输 ElevenLabs 和 OpenAI。

同时,MiniMax 也在积极推进语音能力的落地应用,在 To B 侧面打造了开放平台,不断迭代 B 端用户所需要语音能力,在 To C 侧面上线了 AI 语音对话产品「海螺问问」,仅需 6 秒音频即可进行音色复刻。

GPT 时代,MiniMax 的大模型经济打破了单一文本的局限,从“声”出发,定义了个性化应用的新内涵。

1、每个硅基用户都能有自己的声音


AIGC 时代,语音生成的需求实际并不亚于文本与图像。

从 AI 落地的角度来看,大语言模型能够预测出文字序列,是 AIGC 产品工程化的第一步,但在实际应用中,单一的文字呈现效果往往不佳,声音的表现力能为文字内容的情感色彩、个性表达提供有力加持。

以 AI 视频生成为例。在用 AI 技术生成短视频的场景中,“出戏”是用户体验减分的主要短板,而声音则往往是用户出戏的“罪魁祸首”。在 AIGC 产品的应用中,人物音色的还原度、语流语调的流畅度、说话停顿的自然度是语音合成技术的主要挑战,且必须“打包”解决,不能顾此失彼,任一短板都会降低用户的产品体验。

不同场景对语音合成效果的要求也不同。例如,数字人直播带货要求主播与观众的语音互动时效性高、延时性低,复刻有声书需要快速批量生成多角色的音色和语音内容,教育教学场景要求达到对一些特殊字词和生僻字的精准发音。

因此,在传统语音合成技术的基础上,面向用户提供高品质、个性化的语音体验与服务,成为语音生成的下一道难题。

过去,市面上的语音合成技术痛点明显:

  • 机械感较强,原因是牺牲部分人声的自然度,声音无法传递出情感;
  • 音色较单一,以至于无法提供多种音色供用户选择,也就不能满足不同场景的多样化需求;
  • 成本高且效率低下,需要专业的设备且耗时较长。
  • 为了解决这一系列痛点,国内外不少头部大厂也进行过相关探索。

    免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

    加⼊OKEx全球社群

    和全球数字资产投资者交流讨论

    扫码加入OKEx社群

    相关推荐

    industry-frontier