3EX AI交易:美国PPI 和 CP
OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代
文章来源:机器之心
ChatGPT 问世才 17 个月,OpenAI 就拿出了科幻电影里的超级 AI,而且完全免费,人人可用。
太震撼了!
当各家科技公司还在追赶大模型多模态能力,把总结文本、P 图等功能放进手机里的时候,遥遥领先的 OpenAI 直接开了大招,发布的产品连自家 CEO 奥特曼都惊叹:就像电影里一样。
5 月 14 日凌晨,OpenAI 在首次「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App,并展示了一系列新能力。这一次,技术颠覆了产品形态,OpenAI 用行动给全世界的科技公司上了一课。
今天的主持人是 OpenAI 的首席技术官 Mira Murati,她表示,今天主要讲三件事:
ChatGPT 的这次更新以后,大模型可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出 —— 这才是属于未来的交互方式。
最近,ChatGPT 不用注册也可以使用了,今天又增加了桌面程序,OpenAI 的目标就是让人们可以随时随地的无感使用它,让 ChatGPT 集成在你的工作流中。这 AI 现在就是生产力了。
GPT-4o 是面向未来人机交互范式的全新大模型,具有文本、语音、图像三种模态的理解力,反应极快还带有感情,也很通人性。
在现场,OpenAI 的工程师拿出一个 iPhone 演示了新模型的几种主要能力。最重要的是实时语音对话,Mark Chen 说:「我第一次来直播的发布会,有点紧张。」ChatGPT 说,要不你深呼吸一下。
好的,我深呼吸。
ChatGPT 立即回答说,你这不行,喘得也太大了。
如果你之前用过 Siri 之类的语音助手,这里就可以看出明显的不同了。首先,你可以随时打断 AI 的话,不用等它说完就可以继续下一轮对话。其次,你不用等待,模型反应极快,比人类的回应还快。第三,模型能够充分理解人类的情感,自己也能表现出各种感情。
随后是视觉能力。另一个工程师在纸上现写的方程,让 ChatGPT 不是直接给答案,而是让它解释要一步步怎么做。看起来,它在教人做题方面很有潜力。
ChatGPT 说,每当你为数学焦头烂额的时候,我就在你身边。
接下来尝试 GPT-4o 的代码能力。这有一些代码,打开电脑里桌面版的 ChatGPT 用语音和它交互,让它解释一下代码是用来做什么的,某个函数是在做什么,ChatGPT 都对答如流。
输出代码的结果,是一个温度曲线图,让 ChatGPT 以一句话的方式回应所有有关此图的问题。
最热的月份在几月,Y 轴是摄氏度还是华氏度,它都能回答得上来。
OpenAI 还回应了一些 X/Twitter 上网友们实时提出的问题。比如实时语音翻译,手机可以拿来当翻译机来回翻译西班牙语和英语。
又有人问道,ChatGPT 能识别你的表情吗?
看起来,GPT-4o 已经能够做到实时的视频理解了。
接下来,就让我们详细了解下 OpenAI 今天放出的核弹。
全能模型 GPT-4o
首先介绍的是 GPT-4o,o 代表 Omnimodel(全能模型)。
第一次,OpenAI 在一个模型中集成了所有模态,大幅提升了大模型的实用性。