AI 大语言模型 LLM,为啥老
影子图书馆“安娜的档案”获 359 TB 电子图书,可为大语言模型公司提供独家早期访问权限
2023.11.05
据 IT 之家消息,影子图书馆“安娜的档案”官方博客当地时间 10 月 4 日宣布,该网站现已经收购一批“独特的”750 余万份、共计 359 TB 的电子图书,并表示愿意为一系列大语言模型公司提供独家早期访问权限,以获得高质量的图书 OCR(光学字符识别)和文本提取。
“安娜的档案”在博客中介绍,读秀是由超星数字图书馆创建的大量扫描图书的数据库,大多数是学术图书,通过扫描可以使它们以数字化的形式提供给大学和图书馆。“安娜的档案”表示曾希望批量获取它,并为此分配了多个月的全职工作。
原文链接