Worldcoin恐现「恶性通膨」
2024 Google I/O 发布会汇总
来源:有新Newin
5 月 15 日凌晨,Google I/O 开发者大会正式召开,以下是长达 2 小时发布会内容总结:
1. 关于 Gemini
1)Gmail 中的 Gemini
Gmail 用户将能够使用 Gemini AI 技术搜索、总结和起草电子邮件。它还能够对电子邮件采取行动以执行更复杂的任务,例如通过搜索收件箱、查找收据和填写在线表格来帮助你处理电商退货。
2)Gemini 1.5 Pro & Flash
另一个升级是 Gemini 现在可以分析比以前更长的文档、代码库、视频和音频记录。谷歌目前的旗舰机型 Gemini 1.5 Pro 新版本的私人预览中,据透露,它最多可以容纳 200 万 token。这是之前的两倍,新版 Gemini 1.5 Pro支持所有商用型号中最大的输入。
对于要求较低的应用,谷歌推出了公共预览版 Gemini 1.5 Flash,这是 Gemini 1.5 Pro 的“精炼”版本,是专为“窄”、“高频”生成 AI 工作负载而构建的小型高效模型。Flash 拥有多达 200 万个 token 上下文窗口,与 Gemini 1.5 Pro 一样是多模式的,这意味着它可以分析音频、视频和图像以及文本。
此外,超过 150 个国家/地区和超过 35 种语言的 Gemini Advanced 用户可以利用 Gemini 1.5 Pro 的更大上下文,让聊天机器人分析、总结和回答有关长文档(最多 1,500 页)的问题。
Gemini Advanced 用户可以从今天开始与 Gemini 1.5 Pro 进行交互,还可以从 Google Drive 导入文档或直接从移动设备上传文档。
在接下来的几个月中,Gemini Advanced 将获得一种新的“规划体验”,可以根据提示创建自定义旅行行程。考虑到飞行时间(来自用户 Gmail 收件箱中的电子邮件)、膳食偏好和当地景点信息(来自 Google 搜索和地图数据)以及这些景点之间的距离等因素,Gemini 将生成自动更新的行程以反映任何变化。
在不久的将来,Gemini Advanced 用户将能够创建 Gems,这是由 Google Gemini 模型提供支持的自定义聊天机器人。沿着 OpenAI 的 GPT 的思路,Gems 可以从自然语言描述生成 - 例如,“你是我的跑步教练。给我一个每日跑步计划”——并与他人分享或保密。
很快,Gems 和 Gemini 将能够利用与 Google 服务的扩展集成,包括 Google 日历、任务、Keep 和 YouTube Music,以完成各种省力任务。
3)Gemini Live
谷歌预览了 Gemini 中名为 Gemini Live 的新体验,它可以让用户在智能手机上与 Gemini 进行“深入”的语音聊天。
用户可以在聊天机器人说话时打断 Gemini,提出澄清问题,它会实时适应他们的语音模式。Gemini 可以通过智能手机摄像头拍摄的照片或视频来查看用户的周围环境并对其做出反应。
谷歌表示,它利用生成式 AI 新技术来提供卓越的、不易出错的图像分析,并将这些技术与增强的语音引擎相结合,以实现更一致、情感表达和现实的多轮对话。
从某种程度上来说,Gemini Live 是Google Lens(谷歌长期用于分析图像和视频的计算机视觉平台)和 Google Assistant(谷歌跨手机、智能音箱和电视的人工智能驱动、语音生成和识别虚拟助手)的演变 。
DeepMind 首席科学家 Oriol Vinyals 表示,这是一个实时语音界面,具有极其强大的多模式功能和长上下文。
推动 Live 的技术创新部分源于 Project Astra,这是 DeepMind 内部的一项新举措,旨在创建 AI 驱动的应用和智能体,以实现实时、多模式理解。
DeepMind CEO Demis Hassabis 表示,谷歌一直希望打造一款在日常生活中有用的通用智能体,想象一下代理可以看到和听到我们所做的事情,更好地了解我们所处的环境并在对话中快速做出反应,从而使交互的速度和质量感觉更加自然。
据悉,Gemini Live 直到今年晚些时候才会推出,它可以回答有关智能手机摄像头视野内(或最近视野内)事物的问题,例如用户可能位于哪个社区或损坏的自行车上的某个部件的名称。指向计算机代码的一部分,Live 可以解释该代码的作用。或者,当被问及一副眼镜可能在哪里时,Live 可以说出它最后一次“看到”眼镜的位置。