百川发布超千亿大模型 Baichuan 3：多项中文任务评测超 GPT-4、中文医疗任务最佳大模型

2024.01.30

文章来源：Founder Park

图片来源：由无界AI生成

1 月 29 日，百川智能发布超千亿参数的大模型 Baichuan 3，除了在多个通用能力测试中表现出色，尤其是中文任务超越 GPT-4 以外，这次 Baichuan 3 在专业性要求极高的 MCMLE、MedExam、CMExam 等权威医疗评测上的中文效果也超过了 GPT-4，是中文医疗任务表现最佳的大模型。

Baichuan 3 还突破「迭代式强化学习」技术，进一步提升了语义理解和生成能力，在诗词创作的格式、韵律、表意等方面表现优异，领先于其他大模型。

以下是关于本次发布的详细内容，内容来自于百川智能官方稿件。

01、基础能力全面提升，多项权威评测中文任务成绩超越 GPT-4

Baichuan 3 在多个英文评测中表现出色，达到接近 GPT-4 的水平。而在 CMMLU、GAOKAO 等多个中文评测榜单上，更是超越 GPT-4 展现了其在中文任务上的优势。

百川发布超千亿大模型 Baichuan 3：多项中文任务评测超 GPT-4、中文医疗任务最佳大模型

此外，在 MT-Bench、IFEval 等对齐榜单的评测中，Baichuan 3 超越了 GPT-3.5、Claude 等大模型，处于行业领先水平。

与百亿、几百亿级别参数模型训练不同，超千亿参数模型在训练过程中对高质量数据，训练稳定性、训练效率的要求都高出几个量级。为更好解决相关问题，百川智能在训练过程中针对性地提出了「动态数据选择」、「重要度保持」以及「异步 CheckPoint 存储」等多种创新技术手段及方案，有效提升了 Baicuan 3 的各项能力。

高质量数据方面，传统的数据筛选依靠人工定义，通过滤重筛选、质量打分、Textbook 筛选等方法过滤数据。而百川智能认为，数据的优化和采样是一个动态过程，应该随着模型本身的训练过程优化，而非单纯依靠人工先验进行数据的采样和筛选。为全面提升数据质量，百川智能设计了一套基于因果采样的动态训练数据选择方案，该方案能够在模型训练过程中动态地选择训练数据，极大提升数据质量。

训练稳定性方面，超千亿参数的模型由于参数量巨大，训练过程中经常会出现梯度爆炸、loss 跑飞、模型不收敛等问题。对此，百川智能提出了「重要度保持」(Salience-Consistency) 的渐进式初始化方法，用以保证模型训练初期的稳定性。并且优化了模型训练过程的监控方案，在梯度、Loss 等指标上引入了参数「有效秩」的方法来提早发现训练过程中的问题，极大加速对训练问题的定位，确保了最后模型的收敛效果。此外，为了确保在数千张 GPU 上高效且稳定地训练超千亿参数模型，百川智能同步优化了模型的训练稳定性和训练框架，并采用「异步 CheckPoint 存储」机制，可以无性能损失地加大存储的频率，减少机器故障对训练任务的影响，使 Baichuan 3 的稳定训练时间达到一个月以上，故障恢复时间不超过 10 分钟。

训练效率方面，百川智能针对超千亿参数模型的并行训练问题进行了一系列优化，如高度优化的 RoPE, SwiGLU 计算算子；在数据并行中实现参数通信与计算的重叠，以及在序列并行中实现激活值通信与计算的重叠，从而有效降低了通信时间的比重；在流水并行中引入了将激活值卸载至 CPU 的技术，解决了流水并行中显存占用不均的问题，减少了流水并行的分段数量并显著降低了空泡率。通过这些技术创新，Baichuan 3 的训练框架在性能方面相比业界主流框架提升超过 30%。

02、医疗数据集 Token 数超千亿，医疗能力逼近 GPT-4

大模型医疗背后蕴含着巨大的社会价值和产业价值，从疾病的诊断、治疗到患者护理与药物研发，大模型不仅能够帮助医生提高诊疗效率和质量，帮助患者获得更好的服务和体验，还能帮助社会降低医疗成本和风险，助力医疗资源实现普惠和平权。

并且医疗问题专业性强、知识更新速度快、准确性要求高、个体差异大，能充体现大模型的各项能力，被百川智能称为「大模型皇冠上的明珠」。

因此，诸如 OpenAI、谷歌等头部大模型企业都将医疗作为模型的重点训练方向和性能评价的重要体系。ChatGPT 早在 2023 年 2 月便已通过了美国医学执照考试（USMLE），显示出其在医学领域的强大能力。而谷歌对医疗领域的重视更甚，基于 PaLM 模型打造了医疗大模型 Med-PaLM，迭代后的 Med-PaLM 2 在医学考试 MedQA 中的成绩超过 80 分，达到专家水平。

在医疗领域，大模型的全能特性发挥着至关重要的作用。

首先，其多模态学习能力能够整合文本、影像、声音等多种类型的医疗数据，提供更全面、准确的分析和诊断。

其次，大模型的深层推理能力有助于复杂医疗决策的制定。

此外，稳定的性能和知识更新能力确保了医疗建议的可靠性和时效性。同时，大模型的语言理解和生成能力使其能够处理专业术语和复杂句式。

百川发布超千亿大模型 Baichuan 3：多项中文任务评测超 GPT-4、中文医疗任务最佳大模型

加⼊OKEx全球社群

相关推荐