探索在人工智能中的Web3案例

2024.03.25

探索在人工智能中的Web3案例

动机与挑战

当前的人工智能领域由中心化、封闭源和寡头垄断的科技巨头所主导。少数几家公司控制着最高性能的模型，这在很大程度上是由于极端集中化的力量促进了模型的开发和推断。

创建一个机器学习模型通常包括三个主要阶段：预训练、微调和推断。这些阶段对于开发出一个强大且准确的模型，能够很好地泛化到新的、未见过的数据，至关重要。

预训练阶段

在预训练阶段，模型训练于一个大型的、通用的数据集。该数据集与最终模型要执行的任务无关，而是旨在帮助模型学习各种特征和模式。例如，在语言模型的情况下，这可能涉及从大量的文本语料库中学习语言结构、语法和广泛的词汇。这里的目标是开发一个对将要处理的数据的基本结构有很好理解的模型，无论是文本、图像还是其他形式的数据。

在预训练阶段存在一些集中力量：

数据收集和排序 - 预训练阶段的关键是从各种来源（包括文献、数字文章和专业数据库）汇总大量数据集。行业巨头，如谷歌，历来利用用户生成的内容来打造无与伦比的高效模型，这种做法如今仍在继续，微软和 OpenAI 等实体通过独家联盟和专有平台获取顶级数据。这些能力的集中在少数几家公司内，导致了人工智能行业的明显集中化。
此外，依赖专有数据集进行模型训练引入了重要的伦理考虑和延续偏见的风险。AI 算法本质上是从基础数据中得出操作范式的，并由此产生内在的偏见，从而很容易被嵌入和复制。这种情况强调了在开发过程中进行细致审查和道德监督的必要性，确保模型反映公平和有意的模式和关联。
资源需求 - 已经确定，模型的效果与训练数据的数量呈对数增强关系，这表明受益于最广泛的 GPU 计算周期的模型通常表现最好。这种动态在预训练阶段引入了一个重要的集中化影响，由主要的科技和数据公司所拥有的规模经济和生产力优势推动。这一趋势在行业巨头 OpenAI、谷歌、亚马逊、微软和 Meta 的主导地位中显而易见。这些公司拥有并运营着全球大多数的数据中心，并且可以获得 NVIDIA 最新、最先进的硬件设备。

微调阶段

模型经过预训练后，进行微调。在这个阶段，模型会在一个较小的、特定任务的数据集上进行进一步训练。目的是调整模型在预训练过程中学习到的权重和特征，使其更适合当前的具体任务。这可能涉及教授语言模型理解医学术语，或训练图像识别模型区分不同种类的鸟类。

微调阶段使模型能够专注并提高在对终端用户感兴趣的任务上的性能。再次，在微调阶段中存在一些集中力量，其中最重要的是封闭源模型和可验证性。

在微调阶段，模型的参数被细化和设置，塑造其功能和性能。主流趋势是朝着专有的人工智能模型发展，比如 OpenAI 的 GPT 系列和 Google 的 Gemini，这意味着这些模型的内部运作和参数并未公开。因此，当用户请求推理时，他们无法验证回复是否真的来自他们认为正在互动的模型。

这种缺乏透明度可能会对用户造成不利影响，特别是在信任和可验证性至关重要的情况下。例如，在医疗领域，人工智能模型可能会帮助诊断疾病或推荐治疗方法，但医生无法确认模型推断的来源和准确性，可能会导致不信任甚至误诊。如果医疗专业人员无法确定 AI 的建议是基于最可靠和最新的模型，后果可能直接影响患者的护理和结果，强调了 AI 部署中透明度和问责制的重要性。

推理阶段

推理阶段是模型实际应用的阶段。此时，模型已经经过训练和微调，准备好对新数据进行预测。在 AI 模型的情况下，这可能意味着回答问题、翻译语言或提供推荐。这个阶段是将训练好的模型应用于实际问题的阶段，通常也是模型价值实现的阶段。

在推理阶段，导致集中化的因素有：

访问：中心化的前端用于 AI 模型访问可能会带来风险，可能会使用户无法访问 API 或推理。当少数实体控制这些门户时，他们可以自行决定出于各种原因拒绝访问重要的人工智能服务，包括政策变化或争议。这种集中化突出了需要采取分散化的方法，以确保更广泛、更具弹性的对人工智能技术的访问，减轻审查和访问不平等的风险。

探索在人工智能中的Web3案例

动机与挑战

预训练阶段

微调阶段

推理阶段

加⼊OKEx全球社群

相关推荐