复制成功

分享至

主页 > 数字货币 >

腾讯云把向量数据库“卷”到哪一步了?

2024.01.14

“不是我不明白,这世界变化快”,崔健在20世纪写下的这句歌词,放在刚刚过去的2023年,也同样适用。技术风向的变化之快,让不少人感到惊讶,向量数据库这一年的潮起潮落,就是一个典型的例子。

2023年初大模型、生成式 AI的起飞,也带来了向量数据库的火爆,投融资项目爆发式增长,传统数据库厂商和公有云厂商都推出了相关产品。然而一年狂飙之后,市场又开始退潮,前不久全球最著名的 AI 项目之一AutoGPT 宣布,不再使用向量数据库。

腾讯云把向量数据库“卷”到哪一步了?

向量数据库真的是AI革命中的组成部分吗?这一市场有哪些参与者?腾讯云为代表的公有云厂商,又在这场技术创新中发挥了什么作用?

向量数据库,刚刚开始

新技术的火爆,必然会伴随炒作和泡沫,但向量作为大模型理解世界的数据形式,向量数据库作为AI革命重要基建的位置,长期来看,是不会动摇的。

为什么这么说?

向量数据库并不是一种特别新的数据库技术,在AI领域已经应用了七八年,谷歌在2015年就宣布使用RankBrain语义检索来处理搜索任务。如果说数据库是数据的“硬盘”,那么,向量数据库就是更适合AI体质的“硬盘”。

其“AI原生”的体质,具体表现在几个方面:

1.更高的效率。AI算法,要从图像、音频和文本等海量的非结构化数据中学习,提取出以向量为表示形式的“特征”,以便模型能够理解和处理。因此,向量数据库比传统基于索引的数据库有明显优势。

2.更低的成本。大模型要从一种新技术转化为产业价值,必须达到合理的投入产出比,而向量数据库可以有效减少存储和计算成本。一个公开数据是,通过腾讯云向量数据库,QQ音乐人均听歌时长提升3.2%、腾讯视频有效曝光人均时长提升1.74%、QQ浏览器成本降低37.9%,就在于检索效率、运行稳定性、运营效率、推荐算法等,有了较大的提升。

腾讯云把向量数据库“卷”到哪一步了?

(腾讯云数据库产品架构)

3.更强的数据安全。有个企业直言:我沉淀了几十年的内部数据,是我的的核心竞争力,让我无偿去公开给大模型做训练,我肯定不愿意。想做大模型,还要确保数据的隐私安全,就必须与数据库产品做好配合,这给向量数据库的本地部署带来了广阔的需求。

4.更大的扩展性。随着大模型走向行业应用,垂直领域的AI用例不断增多,汹涌的数据洪潮和存算任务,会带来大量向量搜索的需求。而向量数据库嵌入向量的长度不受限制,具有良好的扩展性,可以根据AI用例和模型而变化,更好地处理大规模数据集。

所以说,除非大模型技术,在短期内发生颠覆性改变,否则落地应用还是需要向量检索和向量数据库。而作为大模型技术标杆的OpenAI最近也透露:我们可能已经非常接近实现通用人工智能(AGI),应该以通用人工智能的实现为前提进行创业和技术开发。

由此可以肯定,向量数据库市场必然还会迎来一轮增长。年底趋于冷静,只是2023年热情过度高涨的适当回调。

两股新势力,云是方向

从引爆到饱和,向量数据库市场的发展速度迅猛,也吸引了“群雄逐鹿”。

传统数据库厂商不必多说,既有相应的能力建设,也有一定的客户基础,推出相关产品是必然。一些在AI领域积淀已久的科技大厂,如谷歌、微软、Meta、百度等大厂,都有向量数据库的技术积累,也都可以向外输出相关能力和产品。这些我们都比较熟悉了。

而上一年狂飙突进的两股新势力,成为市场上的黑马,分别是创业公司和公有云。

以上半年爆火的AI创业新秀Pinecone为代表。Pinecone是闭源的领跑者,凭借良好的开箱即用的产品体验,获得了非常大的增长,B轮估值达到7.5亿美元。其他竞争者大多建立在开源项目的基础上。

总体来说,这些创业“独角兽”的向量数据库公司,固然新锐,但长期盈利能力还有待验证。原因是,其客户大多是尝鲜、实验性质。

一般来说,企业需要先将非结构化的私密数据,进行一个小的模型,进行向量化,产生一个向量的矩阵,再存储到向量数据库里,来供大模型学习和检索。这个过程涉及大量的工程化,会耗费企业许多开发人员、时间成本,一开始可能会因为AI大模型很火而对向量数据库产生兴趣,但能否真正在业务中落地还是个未知数,因此,长期付费意愿还有较大的不确定性。

另一股“新势力”:公有云厂商,也是向量数据库的积极参与者。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier