复制成功

分享至

主页 > 数字货币 >

被高估的Pika,被低估的多模态AI

2023.12.12

原文来源:甲子光年

作者|苏霍伊

编辑|王博

被高估的Pika,被低估的多模态AI

图片来源:由无界 AI生成

多模态 AI 正处于爆发前夜。

从 GPT-4V 的“惊艳亮相”,到 AI 视频生成工具 Pika 1.0 的“火爆出圈”,再到谷歌 Gemini 的“全面领先”,多模态 AI 都是其中的关键词。

尽管 Pika 1.0 的宣传视频被一些用户认为是“炒作”,亦或谷歌承认 Gemini 的演示视频“经过剪辑”,但不能否认,它们丰富了人们对多模态 AI 的想象力。

“之前很多公司都在卷文本大模型,GPT-4V 的出现代表多模态大模型可落地,毫无疑问明年大家都会卷多模态 AI ,原因很简单,因为 OpenAI 说明这条路是能够走得通。”微博新技术研发负责人、AI 首席科学家张俊林说。

在行业主语为“落地”的当下,多模态 AI 正走向场景化、实用化、商业化。例如,在医疗领域可以通过结合图像、录音和病历文本,提供更准确的诊断和治疗方案;在交通领域,结合图像和传感器数据,带来更智能、更安全的自动驾驶体验;在教育领域,将文本、声音、视频相结合,呈现更具互动性的教育内容。

但是业界一直在提多模态的概念,远没有近期几个现象级产品的演示那么直观:多模态不仅可以为 AI 应用带来更多可能性,还是实现通用人工智能的重要路径。


1.Pika:实力还是炒作?


最近的 AI 圈的饭局上,大家聊到多模态 AI ,往往都会提到一家硅谷的初创公司—— Pika Labs。

公司初创团队只有 4 个人,创始人兼 CEO 郭文景有“女学霸”“斯坦福退学创业”“上市公司创始人女儿”等个人标签; Pika 三轮融资已筹款 5500 万美元,估值在 2-3 亿美元之间;投资者包括 Quora 创始人兼CEO Adam D’angelo 、 OpenAI 科学家 Andrej Karpathy、Hugging Face 联合创始人兼CEO Clem Delangue、YC 合伙人 Daniel Gross 等人。

这些都加起来,可以说 Pika 的爆火是在发展过程中,讲了一个技术、商业、资本、用户都感兴趣的故事,而且赶上了一个好的时机。

“今年 6 月份之后, AI 生成图片的投资变得比较保守,很多投资人会更关注 AI 生成视频。”从事 AI 生成视频研究的浦林(化名)告诉「甲子光年」,自有 AIGC 概念开始,无论是 AI 生成图片还是 AI 生成视频都很热,但是基于技术的发展程度,业内预计今年年底,AI 生成视频会有一个不错的 demo 出现。“这个 demo 足够吸引很多的流量,甚至出圈,有这样的信心,那投资的逻辑就能走下去了。可以说, Pika 占到一个很好的时间点。”

Pika 1.0 推出的当天,科技圈大佬们纷纷为其站台。

自然语言处理领域著名学者 Christopher Manning 称赞 Pika 的两位创始人郭文景和孟晨琳推动了高质量视频的快速发展;OpenAI 科学家 Andrej Karpathy 在社交平台上转发了 Pika 1.0 的演示内容并表示:“每个人都能成为多模态梦想的导演,就像《盗梦空间》中的建筑师一样。”

Pika 1.0 火爆出圈,离不开一段官方宣传视频。视频中,用户只要输入“马斯克穿着太空服,3D 动画”,就生成了下面这段视频。

Pika 1.0 官方宣传视频中其它演示也可以用“惊艳”来形容,视频发布后,已经有媒体迫不及待地称“AI 生成视频的 ChatGPT 时刻即将达来”。

但是,Pika 真的如宣传视频上所展现的那么“惊艳”吗?

今年 7 月,Pika Labs 就在 Discord 推出服务器,短短几个月时间内收获了 50 万用户。不过,想使用最新的 Pika 1.0 ,在官网可能还需一段时间的排队。但在 Discord 上,许多用户已经晒出了测试视频。

目前,Pika 1.0 还只能生成 3 秒展示视频。在社群中,用户 A 输入提示词: A dragon fly in sky(一条龙在天上飞)。这个表达是比较清晰明确的,但输出的视频结果却和龙毫不相关,更像一个克苏鲁生物。

而用户 B 输入了更为细致的提示词:female priest - dnd character - in battle pose - character select default animation - camera zoom in - motion 1(女性牧师 - 龙与地下城角色 - 战斗姿势 - 角色选择默认动画 - 摄像头放大 - 动作1)。

这次 Pika 1.0 输出的视频结果大体相符要求,但细节依然有明显缺陷,角色的手部构图“惨不忍睹”。不过,“AI 不会数数”是存在已久的问题,并非 Pika 独有的“瑕疵”。

但也不乏效果惊艳的案例,比如用户 C 提供了图片并输入提示词:stranded medieval ship, violent sea, rain, clifs, slow motion, -motion 2 -gs22 -camera pan right Image: 1 Attachment(搁浅的中世纪船只、汹涌的海浪、雨水、悬崖、慢动作、动作2 、gs22 -摄像机向右平移、图像:附件1),生成的视频效果较为精美。

AI 教育者 Chase Lean 在试用了 Pika 1.0 后难掩激动之情,他在社交媒体上直言这是他“使用过的最好的 AI 视频生成器”。

浦林一直在关注 Pika 及相关产品,从 demo 和实际使用感受来说,Pika 1.0 已经属于“行业领先水平”。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier