Animoca Brands 首席执行官:
谷歌DeepMind联手复仇!Jeff Dean、Hassabis万字长文总结2023绝地反击
来源:新智元
图片来源:由无界 AI生成
刚刚,谷歌DeepMind首席科学家Jeff Dean,首席执行官Demis Hassabis两大佬联手发布了2023人工智能领域超权威的谷歌年度研究总结。
Google DeepMind,交卷!
刚刚,Jeff Dean和Hassabis联手发文,一同回顾了Google Research和Google DeepMind在2023年的全部成果。
这一年开年,比起风靡全球的ChatGPT,谷歌看上去输惨了。当时,数不清的资本热钱向着OpenA流去,OpenAI的市值、知名度瞬间飙至前所未有的高度。
4月,陷入被动的谷歌放出终极大杀招:谷歌大脑和DeepMind正式合并!「王不见王」的两大部门惊人合体,Jeff Dean和Hassabis终于联手。
5月,谷歌在I/O大会上一雪前耻。全新的PaLM 2反超GPT-4,办公全家桶炸裂升级,Bard直接史诗级进化。
12月,谷歌深夜放出了复仇杀器Gemini,最强原生多模态直接碾压了GPT-4。虽然在产品demo上有加工制作的成分,但不可否认,谷歌已经把全世界的多模态研究推至前所未有的高度。
让我们看一看,谷歌的诸位神人们是怎样团结在一起,打响23年的复仇之战的。
产品和技术的进步
这一年,生成式AI正式进入了大爆发。
2月,谷歌紧急推出了Bard,慢于OpenAI两个月推出了自己的AI聊天机器人。
5月,谷歌在I/O大会上宣布了积累数月和数年的研究和成果,包括语言模型PaLM 2。它整合了计算优化扩展、改进的数据集组合和模型架构,即使在很高级的推理任务中,表现也很出色。
针对不同目的对PaLM 2进行微调和指令调整后,谷歌将其集成到了众多Google产品和功能中,包括:
1. Bard
现在,Bard能支持40多种语言和230多个国家和地区,在日常使用的Google工具(如Gmail、Google地图、YouTube)中,都可以使用Bard查找信息。
2. 搜索生成体验(SGE)
它用LLM重新构想如何组织信息以及如何帮用户浏览信息,为谷歌的核心搜索产品创建了更流畅的对话式交互模型。
3. MusicLM
这个由AudioLM和MuLAN提供支持的文本到音乐模型,可以从文本、哼唱、图像或视频、音乐伴奏、歌曲中制作音乐。
4. Duet AI
Google Workspace中的Duet AI可以帮助用户创作文字、创建图像、分析电子表格、起草和总结电子邮件和聊天消息,总结会议等。Google Cloud中的Duet AI可以帮助用户编写、部署、扩展和监控应用,以及识别和解决网络安全威胁。
文章地址:https://blog.google/technology/developers/google-io-2023-100-announcements/
继去年发布文本到图像生成模型Imagen之后,今年6月,谷歌又发布了Imagen Editor,它提供了使用区域掩码和自然语言提示编辑生成图像的功能,从而对模型输出进行更精确的控制。
随后,谷歌又发布了Imagen 2,它通过专门的图像美学模型改进了输出,这个图像美学模型参考了人类对良好照明、取景、曝光和清晰度的偏好。
10月,谷歌推出了Google搜索的一项新功能,帮助用户练习口语、提高语言技能。
实现这一功能的关键技术,就是和谷歌翻译团队合作开发的一种全新深度学习模型,名为Deep Aligner。
与基于隐马尔可夫模型(HMM)的对齐方法相比,这个单一的新模型极大提高了所有测试语言对的对齐质量,将平均对齐错误率从25%降低到5%。