谷歌7大模型22项AI大招轰炸！70秒视频生成、Gemini安卓合体、200万tokens上下文

2024.05.15

文章来源：智东西

作者 | 智东西编辑部

图片来源：由无界AI生成

秀杀手级AI玩法、Gemini安卓合体截胡苹果、最强TPU，谷歌2小时提了121次AI。

智东西5月15日报道，今日凌晨，在一年一度的谷歌I/O开发者大会上，谷歌干了一场AI硬仗！

谷歌7大模型22项AI大招轰炸！70秒视频生成、Gemini安卓合体、200万tokens上下文

时长不到2小时的开幕式期间，谷歌CEO桑达尔·皮查伊携一众谷歌高管总共提到121次“AI”。谷歌DeepMind的联合创始人兼CEO戴密斯·哈萨比斯首次在I/O大会上发表演讲，顺序仅次于皮查伊，足见AI大模型已经成谷歌的头等大事。

在昨天OpenAI发动奇袭、推出干掉传统语音助手的旗舰模型GPT-4o后，作为“全球AI一哥+搜索一哥”的谷歌，势必得扳回一城，搏一搏谁才是AI赛道的头号“大模王”。

这次，谷歌连珠炮般甩出了22项AI大招，包括公布200万tokens超长上下文Gemini 1.5 Pro进阶版、Gemini 1.5 Flash轻量级模型、通用AI Agent、高质量文生图模型Imagen 3、AI音乐创作工具Music AI Sandbox、70秒视频生成模型Veo、首个视觉语言开放模型PaliGemma等多款模型，还剧透了下一代Gemma 2大模型。

Veo生成视频的部分片段：

其他大招包括第六代TPU、AI基础设施、AI搜索新功能、Google Workspace应用Gemini功能、Gemini Live多模态功能、Gemini定制功能、Gemini Advanced、画圈即搜功能、Gemini Nano新功能、安卓Gemini合体、AI辅助红队技术、扩展和开源SynthID文本水印等。

谷歌还展示了一系列AI系统，包括将视觉和语言转化为机器人行动的RT-2、浏览复杂虚拟3D环境的SIMA、解决奥数问题的AlphaGeometry。

发布会开场，皮查伊称目前有超150万开发人员在使用Gemini模型，谷歌拥有20亿用户的产品都在使用Gemini，谷歌推出安卓和iOS上可用的应用程序直接与Gemini互动，3个月内已有超过100万人注册尝试。

谷歌今天的诸多AI大招还有哪些精彩细节，这些技术又将如何深度影响产业，我们将带你一文看尽。

01.

未来通用AI Agent：
日常生活随时答疑解惑的超级助手

昨天OpenAI果然是有预谋的精准狙击，率先亮出聊天丝滑宛如真人、具有炫酷实时视频理解能力的旗舰模型GPT-4o，导致今天谷歌展示的未来AI助手Project Astra演示有点儿眼熟，演示者打开手机摄像头，边走边问摄像头捕捉到的现实场景中的问题。

比如要求“看到能发出声音的东西就告诉我”，Gemini就会给出准确描述：“我看到一个音响发出声音。”接着你可以在手机屏幕上画出红色箭头，追问“音响的这部分叫什么”，Gemini立即回复说这是“高频扬声器”并解释它的用途。

再比如要求Gemini给出创造性的头韵体，它随即根据画面中的蜡笔给出回答：“Creative crayons color cheerfully. They certainly craft colorful creations.”

谷歌7大模型22项AI大招轰炸！70秒视频生成、Gemini安卓合体、200万tokens上下文

加⼊OKEx全球社群

相关推荐