一周代币解锁预告:OP、
AI的进展不是太快,而是太慢
原文来源:琢磨事
图片来源:由无界 AI生成
从 Altman 辞职引发了出了 Q * 算法,然后好像引申出了一个结论:强人工智能要来了,但现实可能正相反,人工智能确实是有进展,也有巨大的潜力和颠覆性力量,但整体上的进展不是太快,而是太慢。
图灵测试 2.0:抛弃它但又要回到它
1950 年的图灵测试说的是当一个人同不能看见的人与机器进行问答,又不能区分那个是人那个是机器的时候,那么机器就算通过了图灵测试。
现在在某些场景里,大模型确实可以通过图灵测试,所以这版的图灵测试是一个过期的测试方式,意义不大了。
但图灵测试的基础内核是有价值的。它圈定一个场景,让人工智能完成它,通过外部对此能否感知来判断智能是不是足够这点并未过时,实际上是变的更加关键。
对图灵测试进行扩展的话,我们可以在经济活动中圈定一个职位或者场景,然后考察人工智能是否可以完成它,同时体验服务的一方并不知道这是人提供的服务还是机器提供的服务。如果人工智能可以做到了,那就是通过图灵测试 2.0,否则就不是。
为什么这是有意义的呢?
因为初代图灵测试更像是测验一个活在虚拟空间的智能体,它不需要区分真实还是虚假,只要确保逻辑自洽,那就可以达成通过测试的目标,在这个过程中胡说八道是没关系的。这是一个技术视角。
有个没场面但其实很经典的科幻电影叫《这个男人来自地球》,电影里面一个男人声称他是一个活了一万四千年的穴居人,他见证了人类的历史和文明的变迁,甚至与佛陀和耶稣有过交流。和他在一个屋子里的各位科学家尝试用逻辑去验证他是不是扯淡,但结果发现纯粹的坐在屋子里,这事是整不出真假的。在屋子里凌空来说,只要人知识足够丰富,并且能保证逻辑自洽,你根本没法分辨。而走出屋子立刻就不一样了,其它的事实、反馈可以迅速的判断真假。
类似的,人工智能是否真的智能是学术、技术问题,也是个商业问题,所以它必然要走出来禁受更大场景的考验,不能是一个只能唠嗑的语言模型。这时候就很有必要按同样的思路,回到图灵测试智能对比的内核,对它进行一下升级。
琢磨事:《AI 能赚到钱了么?》中展开过这个问题,管它叫全场景覆盖法,随着人工智能关注度的提高,似乎越来越需要强调这个视角。因为我们整个文明就是基于智能构建的,所以看人工智能总是可以有无数多个视角,比如:一种是无锚点的幻想,这就什么都能干,类似一个想象中的超人,写小说用的上;一种是纯粹技术的视角,这种就大喜大悲,要么就是觉得这东西怎么可能有用(别看现在很火,其实过去十年 AI 的研究者大多是悲观态度),要么就是每天看到各种进展,觉得世界要被威胁了。
无锚点和尺度就很容易这么忽左忽右,但恰恰尺度本身才是本质。
为什么说人工智能进展其实是慢的
如果在技术圈子里面自己和自己比,其实进步还是很大的,不管是过去的识别率还是这次的内容生成,大模型都有了相当的进步,但如果换到上面说的图灵测试 2.0 的视角,你就会发现即使到今天,还是通过不了。很像一条无限接近的曲线,但就是没有突破。
可以拿企业内的分工进一步举列子,企业的典型岗位是:
每个岗位会横纵进一步细分,纵是指层级也就是我们常说的汇报路线,横是指前端、后端、App 这类职责切分。
一个 100~200 人的产品公司里面差不多要有各种类似的岗位,这时候我们回到图灵测试 2.0 的视角,哪部分现在的人工智能可以通过呢?
恐怕都通过不了,即使是进展最大的编程。
编程的时候现在的人工智能完成不了需求模型向开发模型的映射,(现在确实可以让 1 个人干 2 人的活),也就是说还是需要有人抽象出需求模型,把它变成 prompt;其次是一旦出问题,修正就挑战更大,因为这时候必须有整个程序的整体性认识,对此的认识则大概率是不准的,这就导致改老的程序反倒是更吃力,需要一个有整体性认识的人进行协助,否则就改不对。
所以说基于大模型的人工智能通过不了图灵测试 2.0,通过不了商业价值的实现就有问题(通过了不一定没问题)