谷歌DeepMind联手复仇！Jeff Dean、Hassabis万字长文总结2023绝地反击

2023.12.24

来源：新智元

图片来源：由无界 AI生成

刚刚，谷歌DeepMind首席科学家Jeff Dean，首席执行官Demis Hassabis两大佬联手发布了2023人工智能领域超权威的谷歌年度研究总结。

Google DeepMind，交卷！

刚刚，Jeff Dean和Hassabis联手发文，一同回顾了Google Research和Google DeepMind在2023年的全部成果。

这一年开年，比起风靡全球的ChatGPT，谷歌看上去输惨了。当时，数不清的资本热钱向着OpenA流去，OpenAI的市值、知名度瞬间飙至前所未有的高度。

4月，陷入被动的谷歌放出终极大杀招：谷歌大脑和DeepMind正式合并！「王不见王」的两大部门惊人合体，Jeff Dean和Hassabis终于联手。

5月，谷歌在I/O大会上一雪前耻。全新的PaLM 2反超GPT-4，办公全家桶炸裂升级，Bard直接史诗级进化。

12月，谷歌深夜放出了复仇杀器Gemini，最强原生多模态直接碾压了GPT-4。虽然在产品demo上有加工制作的成分，但不可否认，谷歌已经把全世界的多模态研究推至前所未有的高度。

让我们看一看，谷歌的诸位神人们是怎样团结在一起，打响23年的复仇之战的。

产品和技术的进步

这一年，生成式AI正式进入了大爆发。

2月，谷歌紧急推出了Bard，慢于OpenAI两个月推出了自己的AI聊天机器人。

5月，谷歌在I/O大会上宣布了积累数月和数年的研究和成果，包括语言模型PaLM 2。它整合了计算优化扩展、改进的数据集组合和模型架构，即使在很高级的推理任务中，表现也很出色。

针对不同目的对PaLM 2进行微调和指令调整后，谷歌将其集成到了众多Google产品和功能中，包括：

1. Bard

现在，Bard能支持40多种语言和230多个国家和地区，在日常使用的Google工具（如Gmail、Google地图、YouTube）中，都可以使用Bard查找信息。

2. 搜索生成体验（SGE）

它用LLM重新构想如何组织信息以及如何帮用户浏览信息，为谷歌的核心搜索产品创建了更流畅的对话式交互模型。

3. MusicLM

这个由AudioLM和MuLAN提供支持的文本到音乐模型，可以从文本、哼唱、图像或视频、音乐伴奏、歌曲中制作音乐。

4. Duet AI

Google Workspace中的Duet AI可以帮助用户创作文字、创建图像、分析电子表格、起草和总结电子邮件和聊天消息，总结会议等。Google Cloud中的Duet AI可以帮助用户编写、部署、扩展和监控应用，以及识别和解决网络安全威胁。

文章地址：https://blog.google/technology/developers/google-io-2023-100-announcements/

继去年发布文本到图像生成模型Imagen之后，今年6月，谷歌又发布了Imagen Editor，它提供了使用区域掩码和自然语言提示编辑生成图像的功能，从而对模型输出进行更精确的控制。

随后，谷歌又发布了Imagen 2，它通过专门的图像美学模型改进了输出，这个图像美学模型参考了人类对良好照明、取景、曝光和清晰度的偏好。

10月，谷歌推出了Google搜索的一项新功能，帮助用户练习口语、提高语言技能。

实现这一功能的关键技术，就是和谷歌翻译团队合作开发的一种全新深度学习模型，名为Deep Aligner。

与基于隐马尔可夫模型（HMM）的对齐方法相比，这个单一的新模型极大提高了所有测试语言对的对齐质量，将平均对齐错误率从25%降低到5%。

免责声明:数字资产交易涉及重大风险，本资料不应作为投资决策依据，亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考，不构成任何投资建议，用户一切投资行为与本站无关。

和全球数字资产投资者交流讨论

扫码加入OKEx社群