谷歌向微软英特尔全面宣战！首款自研Arm CPU，最强大模型公测，AI视频对垒Sora

2024.04.10

文章来源：新智元

昨天的谷歌Next大会可是太精彩了，谷歌一连放出不少炸弹。

- 升级「视频版」Imagen 2.0，下场AI视频模型大混战

- 发布时被Sora光环掩盖的Gemini 1.5 Pro，正式开放

- 首款Arm架构CPU发布，全面对垒微软/亚马逊/英伟达/英特尔

此外，谷歌的AI超算平台也进行了一系列重大升级——最强TPU v5p上线、升级软件存储，以及更灵活的消费模式，都让谷歌云在AI领域的竞争力进一步提升。

连放大招的谷歌，必不会在这场AI大战中退让。

从OpenAI跳槽的研究员Logan Kilpatrick，也在第一时间转发了Gemini 1.5 Pro的消息。看得出来，他已经是一名真真正正的谷歌员工了

在短短两个月内，谷歌一键将多种前沿模型引入Vertex AI，包括自家的Gemini 1.0 Pro、轻量级开源模型Gemma，以及Anthropic的Claude 3。

Gemini 1.5 Pro，人人可用了！

传说中的谷歌最强杀器Gemini 1.5 Pro，已经在Vertex AI上开放公测了！

开发者们终于可以亲自体验到，前所未有的最长上下文窗口是什么感觉。

Gemini 1.5 Pro的100万token，比Claude 3中最大的200K上下文，直接高出了五倍！而GPT-4 Turbo，上下文也只有128K。

当然，超长上下文在无缝处理输入信息方面，仍然有一定的局限性。

但无论如何，它让对大量数据进行本机多模态推理成为可能。从此，多海量的数据，都可以进行全面、多角度的分析。

自然而然地，我们可以正式用Gemini 1.5 Pro开发新的用例了。比如AI驱动的客户服务智能体和在线学术导师，分析复杂的金融文件，发现文档中的遗漏，查询整个代码库，或者自然语言数据集。

现在，已经有无数企业用Gemini 1.5 Pro真实地改变了自己的工作流。

比如，软件供应商思爱普用它来为客户提供与业务相关的AI解决方案；日本广播公司TBS用它实现了大型媒体档案的自动元数据标注，极大提高了资料搜索的效率；初创公司Replit，则用它更高效、更快、更准确地生成、解释和转换代码。

不仅如此，Gemini 1.5 Pro现在还增加了音频功能。

它能处理音频流，包括语音和视频中的音频。

这直接就无缝打破了文本、图像、音频和视频的边界，一键开启多模态文件之间的无缝分析。

在财报电话会议中，一个模型就能对多种媒介进行转录、搜索、分析、提问了。

Imagen 2.0能生视频了：4秒24帧640p

并且，这次谷歌也下场开卷AI模型了！

AI生图工具Imagen，现在可以生成视频了。

只用文本提示，Imagen就能创作出实时的动态图像，帧率为每秒24帧，分辨率达到360x640像素，持续时间为4秒。

谷歌表示，Imagen在处理自然景观、食物图像和动物等主题时，表现尤为出色。

它不仅能够创造出一系列多样的摄影角度和动作，还能确保整个序列的视觉一致性。

同时，这些动态图像也配备了安全过滤和数字水印技术。

并且，谷歌对Imagen 2.0也升级了图像编辑功能，增加了图像修复、扩展、数字水印功能。

相关推荐