![Delphi Labs Demo Day 9大项目速 Delphi Labs Demo Day 9大项目速](/uploads/allimg/c240122/1F591U055FP-10A00.png)
Delphi Labs Demo Day 9大项目速
原文来源:量子位
图片来源:由无界 AI生成
领跑中英文两大权威榜单,李开复零一万物交出多模态大模型答卷!
距离其首款开源大模型Yi-34B和Yi-6B的发布,仅间隔不到三个月的时间。
模型名为Yi Vision Language(Yi-VL),现已正式面向全球开源。
同属Yi系列,同样具有两个版本:
Yi-VL-34B和Yi-VL-6B。
先来看两个例子,感受一波Yi-VL在图文对话等多元场景中的表现:
Yi-VL对整幅图做了详细分析,不仅说明了指示牌上的内容,甚至连“天花板”都有照顾到。
中文方面,Yi-VL也能清晰有条理地准确表达:
此外,官方也给出了测试结果。
Yi-VL-34B在英文数据集MMMU上准确率41.6%,仅次于准确率55.7%的GPT-4V,超越一系列多模态大模型。
而在中文数据集CMMMU上,Yi-VL-34B准确率36.5%,领先于当前最前沿的开源多模态模型。
Yi-VL基于Yi语言模型研发,可以看到基于Yi语言模型的强大文本理解能力,只需对图片进行对齐,就可以得到不错的多模态视觉语言模型——这也是Yi-VL模型的核心亮点之一。
在架构设计上,Yi-VL模型基于开源LLaVA架构,包含三个主要模块:
在训练方法上,Yi-VL模型的训练过程分为三个阶段,旨在全面提升模型的视觉和语言处理能力。
第一阶段,使用1亿张的“图像-文本”配对数据集训练ViT和Projection模块。
在这一阶段,图像分辨率被设定为224x224,以增强ViT在特定架构中的知识获取能力,同时实现与大型语言模型的高效对齐。
第二阶段,将ViT的图像分辨率提升至448x448,让模型更加擅长识别复杂的视觉细节。此阶段使用了约2500万“图像-文本”对。
第三阶段,开放整个模型的参数进行训练,目标是提高模型在多模态聊天互动中的表现。训练数据涵盖了多样化的数据源,共约100万“图像-文本”对,确保了数据的广泛性和平衡性。
零一万物技术团队同时也验证了可以基于Yi语言模型强大的语言理解和生成能力,用其他多模态训练方法比如BLIP、Flamingo、EVA等快速训练出能够进行高效图像理解和流畅图文对话的多模态图文模型。
Yi系列模型可以作为多模态模型的基座语言模型,给开源社区提供一个新的选项。同时,零一万物多模态团队正在探索从头开始进行多模态预训练,更快接近、超过GPT-4V,达到世界第一梯队水平。
目前,Yi-VL模型已在Hugging Face、ModelScope等平台上向公众开放,用户可亲身体验这款模型在图文对话等多元场景中的表现。
在全新多模态基准测试MMMU中,Yi-VL-34B、Yi-VL-6B两个版本均有不俗表现。
免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。
和全球数字资产投资者交流讨论
扫码加入OKEx社群
industry-frontier