btc市场信心回暖,重返7万
谷歌向微软英特尔全面宣战!首款自研Arm CPU,最强大模型公测,AI视频对垒Sora
文章来源:新智元
【导读】昨晚的Google Cloud Next 2024大会上,谷歌接连放出一堆模型和产品王炸:Gemini 1.5 Pro公开可用、上线音频处理能力;代码模型CodeGemma上新,首款自研Arm处理器Axion正式向微软和亚马逊宣战……这次,谷歌要以量取胜。
昨天的谷歌Next大会可是太精彩了,谷歌一连放出不少炸弹。
- 升级「视频版」Imagen 2.0,下场AI视频模型大混战
- 发布时被Sora光环掩盖的Gemini 1.5 Pro,正式开放
- 首款Arm架构CPU发布,全面对垒微软/亚马逊/英伟达/英特尔
此外,谷歌的AI超算平台也进行了一系列重大升级——最强TPU v5p上线、升级软件存储,以及更灵活的消费模式,都让谷歌云在AI领域的竞争力进一步提升。
连放大招的谷歌,必不会在这场AI大战中退让。
从OpenAI跳槽的研究员Logan Kilpatrick,也在第一时间转发了Gemini 1.5 Pro的消息。看得出来,他已经是一名真真正正的谷歌员工了
在短短两个月内,谷歌一键将多种前沿模型引入Vertex AI,包括自家的Gemini 1.0 Pro、轻量级开源模型Gemma,以及Anthropic的Claude 3。
Gemini 1.5 Pro,人人可用了!
传说中的谷歌最强杀器Gemini 1.5 Pro,已经在Vertex AI上开放公测了!
开发者们终于可以亲自体验到,前所未有的最长上下文窗口是什么感觉。
Gemini 1.5 Pro的100万token,比Claude 3中最大的200K上下文,直接高出了五倍!而GPT-4 Turbo,上下文也只有128K。
当然,超长上下文在无缝处理输入信息方面,仍然有一定的局限性。
但无论如何,它让对大量数据进行本机多模态推理成为可能。从此,多海量的数据,都可以进行全面、多角度的分析。
自然而然地,我们可以正式用Gemini 1.5 Pro开发新的用例了。比如AI驱动的客户服务智能体和在线学术导师,分析复杂的金融文件,发现文档中的遗漏,查询整个代码库,或者自然语言数据集。
现在,已经有无数企业用Gemini 1.5 Pro真实地改变了自己的工作流。
比如,软件供应商思爱普用它来为客户提供与业务相关的AI解决方案;日本广播公司TBS用它实现了大型媒体档案的自动元数据标注,极大提高了资料搜索的效率;初创公司Replit,则用它更高效、更快、更准确地生成、解释和转换代码。
加入音频处理能力
不仅如此,Gemini 1.5 Pro现在还增加了音频功能。
它能处理音频流,包括语音和视频中的音频。
这直接就无缝打破了文本、图像、音频和视频的边界,一键开启多模态文件之间的无缝分析。
在财报电话会议中,一个模型就能对多种媒介进行转录、搜索、分析、提问了。
Imagen 2.0能生视频了:4秒24帧640p
并且,这次谷歌也下场开卷AI模型了!
AI生图工具Imagen,现在可以生成视频了。
只用文本提示,Imagen就能创作出实时的动态图像,帧率为每秒24帧,分辨率达到360x640像素,持续时间为4秒。
谷歌表示,Imagen在处理自然景观、食物图像和动物等主题时,表现尤为出色。
它不仅能够创造出一系列多样的摄影角度和动作,还能确保整个序列的视觉一致性。
同时,这些动态图像也配备了安全过滤和数字水印技术。
图像编辑
并且,谷歌对Imagen 2.0也升级了图像编辑功能,增加了图像修复、扩展、数字水印功能。