复制成功

分享至

主页 > 数字货币 >

Google“反击战” 一夜放出近10款模型

2024.05.15

作者:屠敏,CSDN

今年的 5 月宛如梦回 2023 年的 3 月,一场场热闹的 AI 盛宴相继开席。

不过,不知是有意还是无意,去年 3 月,Google 选择开放大语言模型 PaLM API 之际,几乎在同一时间 OpenAI 释出最强模型 GPT-4 惊艳四座,此外仅时隔几天后,微软又在一场发布会上官宣自家 Office 全家桶被 GPT-4 革新,导致 Google 似乎成为被众人忽视的存在。

些许尴尬的是,今年同样的情形似乎正在上演,一方面 OpenAI 于昨日凌晨带来了全面升级的旗舰级 GPT4o 作为本月 AI 小春晚的开场,另一方面微软将于下周召开 Bulid 2024,那么,这一次再次遭到夹击的 Google 能否逆风翻了其两家“组的局”,我们将从今日凌晨开幕的 I/O 2024 开发者大会中窥见一斑。

今年的 I/O 大会也是 Google 旗帜鲜明地推行“AI First”战略的第八个年头。

01 亮点抢先看

正如此前所料,在这场时长近 2 小时的 Keynote 上,「AI」是贯穿 I/O 大会全场的关键词,只是没想到的是,它被提及的次数能高达 121 次,也不难看出 Google 对 AI 的焦虑了。

Google“反击战” 一夜放出近10款模型

面对外部来势汹汹的竞争对手,Google CEO Sundar Pichai(桑达尔·皮查伊)近日在做客一档节目时表示,「AI 目前还处于发展的早期阶段,相信谷歌最终将赢得这场战争,正如谷歌当初并不是第一家做搜索的公司」。

在 I/O 发布会现场,Sundar Pichai 同样强调了这一点,「我们仍处于人工智能平台转变的早期阶段。对于创作者、开发者、初创公司和每个人来说,我们看到了巨大的机遇。」

Sundar Pichai 表示,去年发布 Gemini(双子座)时,它的定位便是多模态的大模型,可以跨文本、图像、视频、代码等进行推理。今年 2 月,Google 发布了 Gemini 1.5 Pro,在长文本方面实现了突破,将上下文窗口长度扩展到 100 万个 tokens,比任何其他大规模基础模型都要多。如今,超过 150 万的开发者在 Google 工具中使用 Gemini 模型。

在发布会上,Sundar Pichi 分享了 Google 内部的最新的进展:

  • Gemini 应用程序现在已上线 Android 和 iOS 系统。通过 Gemini Advanced,用户可以访问 Google 最强大的模型。

  • Google 将向全球所有开发者推出 Gemini 1.5 Pro 的改进版本。此外,今天拥有 100 万个 token 上下文的 Gemini 1.5 Pro 现在可以直接在 Gemini Advanced 中供消费者使用,它可以跨 35 种语言使用。

  • Google 将 Gemini 1.5 Pro 上下文窗口扩展到了 200 万个 tokens,并以私人预览版的形式提供给开发人员。

  • 虽然我们还处于 Agent 的早期阶段,但是 Google 已经开始先行探索,尝试了 Project Astra,通过智能手机摄像头分析世界,识别及解释代码、帮助人类寻找眼镜、还能辨别声音...

  • 比 Gemini 1.5 Pro 更轻量级的 Gemini 1.5 Flash 发布,针对低延迟和成本等重要的任务进行了优化。

  • 可制作“高质量” 1080p 视频的 Veo 模型和文本生成图像模型 Imagen 3 发布;

  • 采用全新架构、27B 大小尺寸的 Gemma 2.0 来了;

  • Android,第一个包含内置设备基础模型的移动操作系统,深度集成了 Gemini 模型,成为以 Google AI 为核心的操作系统;

  • 第六代 TPU Trillium 发布,与上一代 TPU v5e 相比,每个芯片的计算性能提高了 4.7 倍。

  • 02 Google “杀疯了”,多款模型齐发

    都说做大模型的很“卷”,没想到在加速赶超的路途中,Google 的“卷”远超乎想象。在发布会上,Google 不仅对过往的大模型进行了升级,还发布了多款新模型。

    Gemini 1.5 Pro 升级更新

    去年发布 Gemini(双子座)时,Google 对它的定位便是多模态的大模型,可以跨文本、图像、视频、代码等进行推理。今年 2 月,Google 发布了 Gemini 1.5 Pro,在长文本方面实现了突破,将上下文窗口长度扩展到 100 万个 tokens,比任何其他大规模基础模型都要多。

    发布会上,Google 首先对 Gemini 1.5 Pro 一些关键用例进行了质量改进,例如翻译、编码、推理等,可以处理更广泛、更复杂的任务。1.5 Pro 现在可以遵循一些复杂和细致的指令,包括指定涉及角色、格式和风格的产品级行为的指令。也可以让用户能够通过设置系统指令来控制模型行为。

    同时,Google 在 Gemini API 和 Google AI Studio 中添加了音频理解,因此 1.5 Pro 现在可以对 Google AI Studio 中上传的视频的图像和音频进行推理。

    更值得注意的是,如果说 100 万 token 的上下文已经足够长了,就在今天,Google 进一步拓展它的能力,将上下文窗口扩展到 200 万个 token,并以私人预览版的形式提供给开发人员,这意味着其朝着无限上下文的最终目标迈出了下一步。

    Google“反击战” 一夜放出近10款模型

    免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

    加⼊OKEx全球社群

    和全球数字资产投资者交流讨论

    扫码加入OKEx社群

    相关推荐

    industry-frontier