微软仅凭「提示工程」让GPT-4成医学专家！超过一众高度微调模型，专业测试准确率首次超90%

2023.12.05

原文来源：量子位

微软仅凭「提示工程」让GPT-4成医学专家！超过一众高度微调模型，专业测试准确率首次超90%

图片来源：由无界 AI生成

微软最新研究再次证明了提示工程的威力——无需额外微调，无需专家策划，仅凭提示，GPT-4就能化身“专家”。

使用他们提出的最新提示策略Medprompt，在医疗专业领域，GPT-4在MultiMed QA九个测试集中取得最优结果。

在MedQA数据集(美国医师执照考试题)上，Medprompt让GPT-4的准确率首次超过90%，超越BioGPT和Med-PaLM等一众微调方法。

研究人员还表示Medprompt方法是通用的，不仅适用于医学，还可以推广到电气工程、机器学习、法律等专业中。

这项研究在X（原Twitter）一经分享，就引发众多网友关注。

沃顿商学院教授Ethan Mollick、Artificial Intuition作者Carlos E. Perez等都有转发分享。

Carlos E. Perez直呼“出色的提示策略可以甩微调一大截”：

有网友表示早就有这种预感，现在能看到结果出来，真的是“so cool”：

还有网友表示这真的很“激进”：

GPT-4是一项能改变行业的技术，而我们还远没有触及提示的极限，也未达到微调极限。

组合提示策略，“变身”专家

Medprompt是多种提示策略的组合体，包含三大法宝：

动态少样本选择（Dynamic few-shot selection）自生成思维链（Self-generated chain of thought）选项洗牌集成（Choice shuffling ensemble）微软仅凭「提示工程」让GPT-4成医学专家！超过一众高度微调模型，专业测试准确率首次超90%