读取、索引到分析 简述
读取、索引到分析 简述Web3数据索引赛道
1 引言
从 2017 年的第一波 dApp Etheroll、ETHLend 与 CryptoKitties 开始,到如今各式各样基于不同区块链的金融、游戏与社交 dApp 百花齐放,当我们谈论去中心化的链上应用时,是否曾思考过这些 dApp 在交互中所采纳的各类数据的源头?
2024 年,热点聚焦于 AI 与 Web3,在人工智能的世界里,数据就像是其成长与进化的生命源泉。正如植物依赖阳光和水分才能茁壮成长,AI 系统同样依赖海量的数据来不断「学习」和「思考」。没有数据,AI 的算法再精妙也不过是空中楼阁,无法发挥其应有的智能与效能。
本文从区块链数据可访问性(Data Accessibility)的角度,深入分析了行业发展过程中区块链数据索引的演变,并对比了老牌数据索引协议 The Graph 与新兴的区块链数据服务协议 Chainbase 和 Space and Time,特别探讨了这两个结合 AI 技术的新晋协议在数据服务与产品架构特色的异同。
2 数据索引的繁与简:从区块链节点到全链数据库
2.1 数据源头:区块链节点
从一开始了解「区块链是什么」时,我们就常看到这样一句话:区块链是去中心化的记账本。区块链节点是整个区块链网络的基础,承担着记录、存储和传播链上所有交易数据的责任。每个节点都拥有一份完整的区块链数据副本,确保网络的去中心化特性得以维持。然而,对于普通用户来说,自建和维护一个区块链节点并非易事。这不仅需要专业的技术能力,还伴随着高昂的硬件和带宽成本。同时,普通的节点查询能力也有限,无法以开发人员需要的格式查询数据。因此,尽管理论上每个人都可以运行自己的节点,但实际操作中,用户通常更倾向于依赖第三方服务。
为了解决这一问题,RPC(远程过程调用)节点提供商应运而生。这些提供商负责节点的成本和管理,并通过 RPC 端点提供数据。使得用户可以无需自建节点,便可轻松访问区块链数据。公共 RPC 端点是免费的,但有速率限制,可能会对 dApp 的用户体验产生负面影响。私有 RPC 端点通过减少拥塞提供更好的性能,但即使是简单的数据检索也需要大量的来回通信。这使得它们请求繁重,对于复杂的数据查询效率低下。此外,私有 RPC 端点通常难以扩展,并且缺乏跨不同网络的兼容性。但节点提供商标准化的 API 接口给予了用户访问链上的数据更低的门槛,为后续的数据解析和应用打下了基础。
2.2 数据解析:从原型数据到可用数据
从区块链节点获取的数据往往是经过加密和编码处理的原始数据。这些数据虽然保留了区块链的完整性和安全性,但其复杂性也增加了数据解析的难度。对于普通用户或者开发者来说,直接处理这些原型数据需要大量的技术知识和计算资源。
数据解析的过程在这一背景下显得尤为重要。通过将复杂的原型数据进行解析,转换为更易理解和操作的格式,用户可以更直观地理解和利用这些数据。数据解析的成功与否直接决定了区块链数据应用的效率和效果,是整个数据索引流程中的关键一步。
2.3 数据索引器的演进
随着区块链数据量的增加,数据索引器的需求也日益增加。索引器在组织链上数据并将其发送到数据库以便于查询方面起着至关重要的作用。索引器的工作原理是索引区块链数据并通过类似于 SQL 的查询语言(GraphQL 等 API)使其随时可用。通过提供查询数据的统一界面,索引器允许开发人员使用标准化查询语言快速准确地检索所需的信息,从而大大简化了流程。
不同类型的索引器通过各种方式优化数据检索:
完整节点索引器:这些索引器运行完整的区块链节点并直接从中提取数据,确保数据完整准确,但需要大量的存储和处理能力。
轻量级索引器:这些索引器依靠完整节点根据需要获取特定数据,从而减少存储要求但可能会增加查询时间。
专用索引器:这些索引器专门针对某些类型的数据或特定的区块链,可优化特定用例的检索,例如 NFT 数据或 DeFi 交易。
聚合索引器:这些索引器从多个区块链和来源提取数据,包括链下信息,提供统一的查询界面,这对于多链 dApp 特别有用。
目前,以太坊档案节点(Archive Node)在 Geth 客户端中的存档模式占用了约 13.5 TB 的存储空间,而在 Erigon 客户端下,存档需求约为 3 TB。随着区块链的不断增长,档案节点的数据存储量也会随之增加。面对如此庞大的数据量,主流索引器协议不仅支持多链索引,还针对不同应用的数据需求,定制了数据解析框架。例如,The Graph 的「子图」(Subgraph)框架就是一个典型案例。