复制成功

分享至

主页 > 数字货币 >

对话 Pika 创始人:AGI 时代的产品,需要「少年气」和为用户「留白」

2024.02.05

文章来源:Founder Park

图片来源:由无界AI生成 图片来源:由无界AI生成

2023 年 11 月底,视频生成产品 Pika 发布 1.0 版本,同时宣布了 5500 万美元的融资消息。

近期,极客公园创始人张鹏与 Pika 创始人 Demi Guo 在硅谷进行了一次深度交流,期间谈到了视频生成的技术现状,Demi 本人对 AI 产品、应用创业的思考,Pika 团队的优势和壁垒所在,以及她对 AI 初创团队的组织思考等等。

以下是对谈部分精华内容,经 Founder Park 编辑。


01、视频模型的稳定性是当下的关注重点


张鹏:23 年 6 月份我来硅谷的时候觉得硅谷 VC 对于生成式视频好像没有多大热情,但是过了一个季度,大家好像都开始关注这事儿。

Demi:对,6 月那会我们打算融最后一轮的时候,很多人都不知道这方面是什么样的情况。

张鹏:那你觉得是哪些因素,让大家开始形成共识,让很多头部 VC 都开始关注这件事情?

Demi:我觉得有很多因素。一个是视频生成的进步,另外的的确确有需求的因素在里面。之前我们刚开始的时候,有很多人对标我们,然后整个行业也慢慢成熟。

之前可能很多人觉得这条赛道火不了,一些公司做出来后大家又发现还是有些希望的。

张鹏:确实,你们这几个优秀玩家的涌出拓宽了这条赛道。那你觉得目前生成式视频目前技术核心的卡点在什么地方?

Demi:现在的卡点,从模型上说的话就是视频模型的稳定性、模型的高清程度、视频长度以及内容的意义等等这些。

张鹏:那这些问题要怎么去优化?比如像语言模型会关注数据的问题,视频模型要突破的话,核心也是在数据吗?还是一些别的什么地方?

Demi:我觉得是比较综合的事情,甚至可能比语言模型更难,因为视频模型是一个更加 open 的东西。现在语言模型大家大概知道优化的方向是 scale,那视频模型除了 scale 的问题,还有数据的问题、模型结构之类的问题。

张鹏:就是说视频模型里的不确定性和 open 的程度比语言模型多得多?所以现在视频模型的优化大家也可能会选择不同的创新方向,结构或者架构上的创新,而不是在一个确定性的方向上大力出奇迹。

Demi:现在我觉得很大的问题不仅是算力问题,更多可能是数据,或者说方法上的问题,现在一些方法本身就有瓶颈。比如现在有的生成方法就无法生成长一点的视频,这是一个结构问题。

张鹏:对,就看起来今天大家在应用上的一些点,背后可能涉及到模型侧得做一些新的调整。比如视频长度的问题,运镜角度的调整,以及审美风格的多样性,你比较关心的是哪几个能力?

Demi:其实各方面我们都有关注,而且不同阶段我们对问题关注的优先程度也不一样。我觉得现在视频最大的问题是它的稳定性问题,就是说如何让每个人,不管学没学过 prompt 工程的人都能一次性生成很棒的视频,这是 first thing to achieve 的。

同时审美也是在我们的 top list 中的事情,我们搞数据的时候会有很多审美的元素在里面。至于时间长度这些,随着模型的提高,都会有提高。

张鹏:所以从你的角度看,虽然各个维度都有一些点是可以修炼的,但最重要的还是像 ChatGPT 那样,要达成一种每个人用完都想再接着用的效果,这是你们首要要达成的。

Demi:是的,核心点就是模型 improve quality,把 quality 提高后,很多问题也会迎刃而解。

张鹏:我们最近跟一些大模型领域的创业者聊,他们说现在大语言模型都是三个问题的叠加,一个是通用性,一个是稳定性(质量),还有一个是经济性,这三个东西搁在一起,在某个特定的场景中很好地 match,就能产生价值。但现在的问题是,这三个同时要做得很好,就比较难。

Demi:我觉得不全是。

张鹏:那你是怎样想的?

Demi:我觉得通用性和质量有些情况下可以是一致的,有些情况是不一致的,就是要看怎么去提高质量。因为提高质量有很多种方式,比如专门训练某一方面,前期提高质量的东西。但还有一种方法是你把模型提高了,那所有都提高了。

张鹏:通用性最终覆盖了模型的短期加强。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier