Worldcoin恐现「恶性通膨」
谷歌7大模型22项AI大招轰炸!70秒视频生成、Gemini安卓合体、200万tokens上下文
文章来源:智东西
作者 | 智东西编辑部
秀杀手级AI玩法、Gemini安卓合体截胡苹果、最强TPU,谷歌2小时提了121次AI。
智东西5月15日报道,今日凌晨,在一年一度的谷歌I/O开发者大会上,谷歌干了一场AI硬仗!
时长不到2小时的开幕式期间,谷歌CEO桑达尔·皮查伊携一众谷歌高管总共提到121次“AI”。谷歌DeepMind的联合创始人兼CEO戴密斯·哈萨比斯首次在I/O大会上发表演讲,顺序仅次于皮查伊,足见AI大模型已经成谷歌的头等大事。
在昨天OpenAI发动奇袭、推出干掉传统语音助手的旗舰模型GPT-4o后,作为“全球AI一哥+搜索一哥”的谷歌,势必得扳回一城,搏一搏谁才是AI赛道的头号“大模王”。
这次,谷歌连珠炮般甩出了22项AI大招,包括公布200万tokens超长上下文Gemini 1.5 Pro进阶版、Gemini 1.5 Flash轻量级模型、通用AI Agent、高质量文生图模型Imagen 3、AI音乐创作工具Music AI Sandbox、70秒视频生成模型Veo、首个视觉语言开放模型PaliGemma等多款模型,还剧透了下一代Gemma 2大模型。
Veo生成视频的部分片段:
其他大招包括第六代TPU、AI基础设施、AI搜索新功能、Google Workspace应用Gemini功能、Gemini Live多模态功能、Gemini定制功能、Gemini Advanced、画圈即搜功能、Gemini Nano新功能、安卓Gemini合体、AI辅助红队技术、扩展和开源SynthID文本水印等。
谷歌还展示了一系列AI系统,包括将视觉和语言转化为机器人行动的RT-2、浏览复杂虚拟3D环境的SIMA、解决奥数问题的AlphaGeometry。
发布会开场,皮查伊称目前有超150万开发人员在使用Gemini模型,谷歌拥有20亿用户的产品都在使用Gemini,谷歌推出安卓和iOS上可用的应用程序直接与Gemini互动,3个月内已有超过100万人注册尝试。
谷歌今天的诸多AI大招还有哪些精彩细节,这些技术又将如何深度影响产业,我们将带你一文看尽。
01.
未来通用AI Agent:
日常生活随时答疑解惑的超级助手
昨天OpenAI果然是有预谋的精准狙击,率先亮出聊天丝滑宛如真人、具有炫酷实时视频理解能力的旗舰模型GPT-4o,导致今天谷歌展示的未来AI助手Project Astra演示有点儿眼熟,演示者打开手机摄像头,边走边问摄像头捕捉到的现实场景中的问题。
比如要求“看到能发出声音的东西就告诉我”,Gemini就会给出准确描述:“我看到一个音响发出声音。”接着你可以在手机屏幕上画出红色箭头,追问“音响的这部分叫什么”,Gemini立即回复说这是“高频扬声器”并解释它的用途。
再比如要求Gemini给出创造性的头韵体,它随即根据画面中的蜡笔给出回答:“Creative crayons color cheerfully. They certainly craft colorful creations.”