AI看图猜位置，准确率超90%！斯坦福最新PIGEON模型：40%预测误差不到25公里

2024.01.14

原文来源：新智元

AI看图猜位置，准确率超90%！斯坦福最新PIGEON模型：40%预测误差不到25公里

图片来源：由无界 AI生成

在社交媒体上发照片要谨慎了，AI工具一眼就能识破你的位置！

随手在网络上发布的一张照片，能暴露多少信息？

外国的一位博主@rainbolt就长年接受这种「照片游戏」的挑战，网友提供照片，他来猜测照片的具体拍摄地，有些照片甚至还能猜到具体的航班细节。

是不是细思极恐？

但「照片挑战」也同样抚慰了很多人心中的遗憾，比如拿着一张父亲年轻时候拍的照片，却不知道在哪里，借助rainbolt和广大网友的力量，最终完成了心愿。

我花费了6个月和300多个小时试图找到一位粉丝父亲生前照片的位置，但没有结果，我放弃了；在发布到youtube上的一小时后，我们找到了。

光是想想，就能知道「从照片猜位置」这个过程的艰辛和难度，其中涉及到大量的地理、历史专业知识，从路标、交通方向、树木种类、基础设施等蛛丝马迹中不断找到真相。

在计算机领域，这一任务也被称为图像地理定位（image geolocalization），目前大多数方法仍然是基于手工特征和检索的方法，没有使用Transformer等深度学习架构。

最近斯坦福大学的研究团队合作开发了一款AI工具PIGEON，将语义地理单元创建（semantic geocell creation）与标签平滑（label smoothing）相结合，对街景图像进行CLIP视觉转换器的预训练，并使用ProtoNets在候选地理单元集上细化位置预测。

论文链接：https://arxiv.org/abs/2307.05845

PIGEON在「照片猜国家」的子任务上实现了91.96%的正确率，40.36%的猜测在距离目标25公里以内，这也是过去五年来第一篇没有军事背景资助的、最先进的图像地理定位相关的论文。

GeoGuessr是一个从街景图像中猜测地理位置的游戏，全球拥有5000万玩家，前面提到的rainbolt就是该游戏的忠实粉丝，也是公认的最强玩家之一。

而PIGEON模型在GeoGuessr中对人类玩家呈碾压优势，在六场比赛中连续击败rainbolt，全球排名前0.01%.

PIGEON的进步还启发了开发人员创建另一个模型PIGEOTTO，使用Flickr和维基百科的400万张图像进行训练，输入任意图像而非街景全景图，就能定位出图像的位置，功能更加强大。

在此类任务的测试中，PIGEOTTO的性能最佳，将中位偏差降低了20%-50%，在城市粒度上的预测超过了之前的SOTA高达7.7个百分点，在国家粒度上超过了38.8个百分点。

2016 MediaEval数据集的样本图像用于训练PIGEOTTO

从技术上来说，该工作的最重要的结果之一就是证明了预训练的CLIP模型StreetCLIP域泛化及其对分布变化的鲁棒性，能够以零样本的方式将StreetCLIP应用于分布外基准数据集IM2GPS和IM2GPS3k，并取得了最先进的结果，击败了在400多万张分布内（in-distributions）图像上微调的模型。

并且，实验结果也证明了对比预训练是一种有效的图像地理定位元学习技术，在StreetCLIP预训练中没见过的国家预测上，准确率比CLIP提高了10个百分点以上。

由于图像地理定位数据集在地理分布方面差异很大，结果也证明了将StreetCLIP应用于任何地理定位和相关问题的有效性。

由于这项技术目前仍然可以用于不良目的，所以开发人员决定暂时不公布模型权重。

实验数据集

虽然大多数图像地理定位方法都依赖于公开的数据集，但目前还没有公开的、全地球范围下的街景（Street View）数据集。

所以研究人员决定在原始数据集上创建，主动联系了Geoguessr的首席技术官Erland Ranvinge，获得了该游戏中竞争对决模式下使用的100万个地点的数据集，再随机采样10%数据点，对每个数据点下载4张图片，最终获得40万张图片。

方法架构

1. Geocell Creation（地理单元生成）

AI看图猜位置，准确率超90%！斯坦福最新PIGEON模型：40%预测误差不到25公里

实验数据集

方法架构

加⼊OKEx全球社群

相关推荐