Worldcoin恐现「恶性通膨」
谷歌反击:Project Astra正面硬刚GPT-4o Veo对抗Sora
来源:机器之心
机器之心编辑部
通用的 AI,能够真正日常用的 AI,不做成这样现在都不好意思开发布会了。
5 月 15 日凌晨,一年一度的「科技界春晚」Google I/O 开发者大会正式开幕。长达 110 分钟的主 Keynote 提到了几次人工智能?谷歌自己统计了一下:
是的,每一分钟都在讲 AI。
生成式 AI 的竞争,最近又达到了新的高潮,本次 I/O 大会的内容自然全面围绕人工智能展开。
「一年前在这个舞台上,我们首次分享了原生多模态大模型 Gemini 的计划。它标志着新一代的 I/O,」谷歌首席执行官桑达尔・皮查伊(Sundar Pichai)说道。「今天,我们希望每个人都能从 Gemini 的技术中受益。这些突破性的功能将进入搜索、图片、生产力工具、安卓系统等方方面面。」
24 小时以前,OpenAI 故意抢先发布 GPT-4o,通过实时的语音、视频和文本交互震撼了全世界。今天,谷歌展示的 Project Astra 和 Veo,直接对标了目前 OpenAI 领先的 GPT-4o 与 Sora。
这是 Project Astra 原型的实时拍摄:
我们正在见证最高端的商战,以最朴实的方式进行着。
最新版 Gemini 革新谷歌生态
在 I/O 大会上,谷歌展示了最新版 Gemini 加持的搜索能力。
25 年前,谷歌通过搜索引擎推动了第一波信息时代的浪潮。现在,随着生成式 AI 技术的演进,搜索引擎可以更好地帮你回答问题,它可以更好地利用上下文内容、位置感知和实时信息能力。
基于最新版本的定制化 Gemini 大模型,你可以对搜索引擎提出任何你想到的事情,或任何需要完成的事 —— 从研究到计划到想象,谷歌将负责所有工作。
有时你想要快速得到答案,但没有时间将所有信息拼凑在一起。这个时候,搜索引擎将通过 AI 概述为你完成工作。通过人工智能概述,AI 可以自动访问大量网站来提供一个复杂问题的答案。
借助定制 Gemini 的多步推理功能,AI 概述将有助于解决日益复杂的问题。你无需再将问题分解为多个搜索,现在可以一次性提出最复杂的问题,以及你想到的所有细微差别和注意事项。
除了为复杂问题找到正确的答案或信息之外,搜索引擎还可以与你一起,一步步制定计划。
在 I/O 大会上,谷歌重点强调了大模型的多模态和长文本能力。技术的进步为 Google Workspace 等生产力工具变得更加智能化。
例如,现在我们可以要求 Gemini 总结一下学校最近发来的所有电子邮件。它会在后台识别相关的 Email,甚至分析 PDF 等附件。随后你就能获得其中的要点和行动项目的摘要。
如果你正在旅行,无法参加项目会议,而会议的录音长达一个小时。如果是 Google Meet 上开的会,你可以要求 Gemini 给你介绍一下重点。有一个小组在寻找志愿者,那天你有空。Gemini 可以帮你写一封邮件进行申请。
更进一步,谷歌在大模型 Agent 上看到了更多的机会,认为它们可作为具有推理、计划和记忆能力的智能系统。利用 Agent 的应用能够提前「思考」多个步骤,并跨软件和系统工作,更加便捷地帮你完成任务。这种思路已经在搜索引擎等产品中得到了体现,人们都可以直接看到 AI 能力的提升。
至少在全家桶应用方面,谷歌是领先于 OpenAI 的。
Gemini 家族大更新
Project Astra 上线
生态上谷歌有先天优势,但大模型基础很重要,谷歌为此整合了自身团队和 DeepMind 的力量。今天哈萨比斯也首次在 I/O 大会上登台,亲自介绍了神秘的新模型。
去年 12 月,谷歌推出了首款原生多模态模型 Gemini 1.0,共有三种尺寸:Ultra、Pro 和 Nano。仅仅几个月后,谷歌发布新版本 1.5 Pro,其性能得到了增强,并且上下文窗口突破了 100 万 token。
现在,谷歌宣布在 Gemini 系列模型中引入了一系列更新,包括新的 Gemini 1.5 Flash(这是谷歌追求速度和效率的轻量级模型)以及 Project Astra(这是谷歌对人工智能助手未来的愿景)。
目前,1.5 Pro 和 1.5 Flash 均已提供公共预览版,并在 Google AI Studio 和 Vertex AI 中提供 100 万 token 上下文窗口。现在,1.5 Pro 还通过候补名单向使用 API 的开发人员和 Google Cloud 客户提供了 200 万 token 上下文窗口。