字节模型来了！把字节当作token，统一一切，预测一切？

2024.03.12

文章来源：硅星人Pro

图片来源：由无界AI生成

相信你或多或少对GPT有一定的了解，但我赌你没听说过bGPT。bGPT的意思是byte GPT，即字节GPT。这是一种专门设计用于处理二进制数据和模拟数字世界的深度学习模型。简单概括，bGPT突破了传统语言模型的局限，能够直接理解和操作二进制数据，拓展了深度学习在原生二进制数据领域的应用边界。

bGPT的成果来自于微软亚洲研究院、清华大学以及中央音乐学院的共同开发，等会你就知道这里为什么会有中央音乐学院了，希望你还没有忘记五线谱。

从运行逻辑来看，bGPT反而很像是在解数学题

在硅星人Pro的文章《揭秘Sora：用大语言模型的方法理解视频，实现了对物理世界的“涌现”》中提到，大语言模型有一个核心功能是通过代码将多种文本形式进行了统一。正是这种数据结构上的相同，才让大语言模型实现“思考”，进而生成各种各样的内容。但是文字的数据结构和音频、图像、符号、CPU状态数据等等完全不相同，所以想要只使用一个大模型就完成对所有类型数据结构的学习，并不容易。

不过我们每一个使用电子产品的人都清楚，无论是何种类型的数据，它是由“字节”组成的。因此，研究团队提出了一个想法，是否能用字节来代替传统的token，使得大模型可以把所有类型的数据放在一起进行训练推理。bGPT的技术原理是基于深度学习中的序列建模思想，通过训练模型对连续的字节序列进行预测，以理解并生成符合特定上下文的二进制数据。

bGPT可以处理不同类型的声音文件

如果说transformer模型的核心机制是自注意力，那么bGPT的核心机制就是“猜”。通过深度学习训练，学会根据当前字节序列预测接下来可能出现的字节，从而对数字世界的内在规律进行建模。即采用“下一个字节预测”的方式来模拟数字世界的各种活动。

就像大语言模型的预处理环节一样，bGPT也有预处理，而且逻辑上和大语言模型是一致的，也是将不同类型的数据（音频和图像）标准化为适合模型输入的格式。比如音频就会被转换为统一的WAV格式，设定采样率为8kHz，单声道，8位深度，并裁剪至一秒长度；而图像数据则被设置为32×32像素、RGB颜色模式、24位深度的BMP格式。

接下来模型使用最终解码层的补丁级特征，通过平均池化操作提取全局特征以供分类任务使用。这一步的作用是提取特征，为下一步的生成式建模做准备。为了凸显bGPT和市面上流传的文字、图像、视频大模型不同，研究团队特地选择了音乐作为模型生成的内容。

论文所选取的乐谱

论文使用了两种文件类型来做演示，第一种是ABC记谱法，第二种是MIDI。ABC记谱法是一种简洁的人工编写的文本格式，用来描述音乐曲目，而MIDI是一种二进制格式，记录的是音乐演奏的具体表现细节。更直白一点，ABC记谱法就是我们人类看的操作手册，MIDI则是机器用模拟环境来还原这份操作手册。

bGPT首先将成对的ABC记谱法文件和对应的MIDI文件合并成连续的字节序列，并用特殊的分割符标识两个文件之间的界限。接着，模型运用生成式建模的方法来学习这些字节序列的规律，从而实现了双向转换。也就是说，bGPT可以将基于文本的ABC记谱法乐谱转换为MIDI二进制表演信号，以及将MIDI文件还原回ABC记谱法文本格式。

在实际效果上，bGPT在完成这项任务时展现了非常高的精确度。研究团队在论文中写到，在将ABC记谱法转换为MIDI格式时，错误率低至每字节仅0.0011比特。尽管转换过程中可能会遇到一些挑战，比如MIDI转回ABC时，由于MIDI不支持重复符号，导致ABC乐谱在视觉上显得比原始版本更为冗长，装饰音符也可能因MIDI的表现方式而在转换回ABC时无法完全精确对应，但总体上bGPT成功地模拟了这个数据转换的过程，证明了它在模拟和处理数字世界中不同数据格式间转换的能力。

字节模型来了！把字节当作token，统一一切，预测一切？

加⼊OKEx全球社群

相关推荐