体验完杨植麟公司的新模型，发现这Kimi Chat连家谱都敢读了

2023.12.28

原文来源：GenAI新世界

图片来源：由无界 AI‌生成

完了，又多了一个大模型能看懂我身份证了？

最近，杨植麟的创业公司月之暗面（Moonshot AI）发布了新版本模型moonshot-v1-20231225。

长长长长长的 Kimi Chat 第一次上新了。

图源：Kimi Chat

点开Kimi Chat发现，它回复速度好像比以前快了，网页端多了个浅色模式（月之亮面？），但最重要的是，它能读PDF扫描件了！

啥意思呢，就是我把我身份证的照片发给他，它直接给我把家庭住址择出来了，你要让它按姓名、出生日期...列成张表，它还能给你整的挺规矩。

月之暗面自己的描述是这样：

我们实现了从扫描件（文档、合同、白板等等）提取文字的功能。目前已支持 PDF 格式的扫描文件上传解析。

比如可以提取白板上的手写内容。

在一段演示视频里，使用者给Kimi Chat发了一张关于它这次新功能介绍的草图，然后Kimi chat看着这个手写草稿，直接转换成了一个信息表格。

在这之前，Kimi Chat的人设是“长”，能一口气读20万汉字。现在它能读扫描件了，论文、手稿、盗版书（不是），想象空间又变大了。

这么说吧，做扫描全能王起家的那家公司，去年营收10个亿，今年要在上交所上市了。

但这能力到底有没有说的这么好，得试试。我先扔了一份浙江省高院发布的《关于规范律师调查令制度的办法》的扫描件给它，看Kimi Chat能不能帮我理一下这份20页文件的大致内容，效果还不错：

图源：Kimi Chat

接着我继续问，这份文件里“浙江省高级人民法院关于规范律师调查令制度的办法”目录下，第五条写的是什么。先说谜底：

图源：《关于规范律师调查令制度的办法》

Kimi Chat找到了精确位置，第一遍没答完整，第二遍就全对了：

图源：Kimi Chat

严肃的测试到此为止，然后我扔给了它一张即刻用户@我有猫之狸宝儿de麻麻贴出的手稿，让它帮我整理成一份更清晰的表格：

图源：即刻用户@我有猫之狸宝儿de麻麻

这手稿讲的什么，肯定有人一眼就能看出来。如果没看出来的话，跟着Kimi Chat的思路试试：

图源：Kimi Chat

它一眼就看出这是一份家族谱系了，然后我顺着继续问它如何理解这份族谱。让我惊讶的是，它已经隐约判断出这是一个文学作品中的虚构家族，并且在其中看到了世代传承的复杂性，甚至一些悲剧元素。

合理猜测，Kimi Chat可能已经在背后对这些名字完成了一些搜索的动作，但这族谱到底出自何处，它没有给出判断：

图源：Kimi Chat

不过，当我告诉它这份族谱出自一个“文学名著”，有个这个关键的限定词，它完全推理出了准确答案（我很怀疑它早就知道了）——《百年孤独》：

图源：Kimi Chat

到这儿我、或许有一些人会有疑问，对于大模型来说，读图片（JPEG）和读PDF的区别到底是啥，谁更难？

我拿这个问题问GPT-4，对于GPT-4或者所有基于文本预训练的大模型来说，处理PDF文件比JPEG文件更加直接和简单，下面是GPT-4的回答：

对于GPT-4这样的大型语言模型来说，处理JPEG文件和PDF文件在技术上存在显著差异，而且难度也不同。

相关推荐