开发者必看!你应该要知
人工智能数据集 C4 从美 SEC 和多个加密站点提取数据
2023.04.22
据 CryptoSlate 报道,《华盛顿邮报》和艾伦人工智能研究所对 Colossal Clean Crawled Corpus(C4)分析发现,这个全球知名人工智能数据集正在从美国证券交易委员会(SEC)和多个加密站点提取数据,其中包括美国证券交易委员会有关加密货币的监管内容、以及区块链讨论站点 Bitcointalk、Cointelgraph、Coinmarketcap、区块链公司 Protocol Labs 分布式网络 IPFS、Steemit 等。
据《华盛顿邮报》报道,C4 数据集用于来自主要科技公司的 AI 语言模型,包括谷歌的 T5 和 Facebook 的 LLaMA。
原文链接