复制成功

分享至

主页 > 比特币 >

复旦教授黄萱菁:善用AI和不用AI的人在工作效率上有巨大差距

2023.03.20

来源:澎湃新闻

记者 邵文

“当模型的参数规模还不太大的时候,你看不到它的强大,当达到某一个临界值时,这个模型就会非常强大,目前我们认为这个参数规模的临界值可能是650亿。”

“什么数据是最好的数据,我认为纸质的媒体、书、报纸是最好的。大家发现ChatGPT说的话是很漂亮很流畅的语言文字,而如果我们用论坛、微博等平台上的文字训练它,它说的内容可能就不是那么优美了。”

复旦教授黄萱菁:善用AI和不用AI的人在工作效率上有巨大差距

图片来源:由无界版图AI工具生成

“当模型的参数规模还不太大的时候,你看不到它的强大,当达到某一个临界值时,这个模型就会非常强大,目前我们认为这个参数规模的临界值可能是650亿。”近日,复旦大学计算机学院教授、博士生导师黄萱菁在由复旦大学管理学院主办的“复旦科创先锋论坛”上说道。 她认为,在肉眼可见的未来,善用AI的人将和不用AI的人在工作效率上产生巨大差距。

黄萱菁曾入选“人工智能全球女性”、“AI 2000人工智能全球最具影响力提名学者”及“福布斯中国2020科技女性榜”,主要从事人工智能、自然语言处理和信息检索等方向研究,是复旦大学研发MOSS大模型的团队成员。

3月14日,OpenAI发布其具有里程碑意义的多模态大模型GPT-4,同时透露GPT-4已在新必应(New Bing)中应用。GPT-4的强大表现令人惊艳,支撑它的技术逻辑是什么?在复旦科创先锋论坛现场,黄萱菁做了详细的科普。澎湃科技(www.thepaper.cn)根据其现场讲话整理了以下要点。


1.什么是语言模型?


无论学习汉语还是英语等语言,都是从语法开始学起。但是光有语法,我们依然很难捕捉客观世界纷繁复杂的语言现象,因为语言并不会严格按照语法去表达。这个时候,就需要使用到数学“武器”——概率,在各种语言现象中去寻找规律。

举个例子,“The cat sat on the mat”和“The cat sad on the mat”两句话。假设语音识别任务需要根据读音判断是“sat”还是“sad”,那么通过对句子进行概率分析,就能知道什么是正确的识别结果,这个概率模型就被称为语言模型。

概率模型是有窗口的,当窗口越来越大,所需要的计算量开销就越大。由于句子在诸多情景下可能包含巨大的词汇量,导致传统概率语言模型所需的计算资源爆炸式增长。所谓大规模语言模型就是含有巨量参数,能够接受很长一段时间窗口的语言文字。


2.预训练模型有哪两种思路?


2017年开始,出现了一个叫做Transformer的模型,这个模型就是现在预训练模型的基石,也是大规模语言模型的基石。传统的预训练模型有两种思路,第一种思路是以BERT(Bidirectional Encoder Representation from Transformers)为例的理解模型,另一种思路是以ChatGPT所基于的GPT(Generative Pre-trained Transformer)为代表的产生式模型。当然也有一些工作尝试把理解模型和产生式模型结合起来。

曾经在很长一段时间里,理解式的模型被使用得比较多,而产生式模型则需要更高的算力和更长的窗口。一直到有了GPT-3之后,大家才知道它如此强悍,等有了ChatGPT,其还拥有很强的理解人类上下文的能力。


3. ChatGPT的出现带来什么样的范式革新?


我们生活在一个飞速变化的时代,每个星期都有新的模型发布。

预训练+微调的方式是前ChatGPT时代的范式,诸如Google、OpenAI这样的大厂将自身开发的大模型开源,供下游应用者在这些模型上进行参数微调,以取得优异的表现。比如,电影影评有正面和负面的,我们要进行分类,仅仅用GPT和BERT效果不够,需要人工标注一批任务相关的数据,对模型进行微调。过去大概三年的时间,这种预训练+微调的范式就是自然语言处理的主要范式。

预训练+微调范式带来了自然语言处理的新时代,对上游和下游都带来深远影响。上游是厂商制造出越来越强大的模型,模型的参数规模以指数增长;下游则是将预训练的大模型合理应用到各种任务上。

过去两年有一个非常时髦的概念叫小样本学习或少样本学习。刚才我们说,如果要完成某一个任务,可能需要人工标注大量的数据,但在少样本场景之下,只需要一两条数据,大规模语言模型就能够表现出相当不错的性能。

不过,当语言模型变得更大时,一方面厂商出于商业原因逐渐舍弃开源,OpenAI没有开放过GPT-3模型,只开放API(应用程序编程接口),也就是说可以调用,但拿不到内部细节。ChatGPT连论文都没放出,只能靠大家猜测。另一方面用户也缺乏足够的计算资源使用大模型,所以我们非常期待国产芯片,能够让我们拥有更多算力去运行大规模语言模型。

这样的情况之下,我们有了一个新的范式,就是要利用大规模语言模型的涌现能力。


4.涌现能力是什么?


免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier