Bing抢先ChatGPT支持识图功能,

还记得今年3月OpenAI在发布GPT-4时提到的多模态功能吗？

▲GPT-4回答Demo，由机器翻译

GPT-4支持图片输入，可以看懂梗图、看懂物理题，还能看懂论文，一经发布便震惊了所有人，这也是GPT-4相较GPT-3.5最大的升级点。

只可惜，OpenAI表示图像输入功能仍然是研究预览阶段，还不能向公众公开。

▲新增了一个识图图标图片来自：Reddit

然而，近日Reddit有网友发现，自己的BingChat账号悄悄新增了一个上传图片的入口，把图片上传上去后，BingChat竟然会识图回答！

此前微软曾透露BingChat使用的正是GPT-4模型，并在上个月的大更新日志中有提到会为Bing加入多模态支持，综合来看，BingChat很可能正在逐步开发向用户开放识图功能测试。

该网友对BingChat做了大量测试，让我们一起看看「长了眼睛」的BingChat有多厉害吧。

首先是GPT-4最让人拍案叫绝的看梗图功能。GPT-4不仅可以理解图片里的内容，还能像人类一样分析出梗图的笑点在哪里。

例如这张梗图中，GPT-4可以看出图片想要表达用过时的VGA形状的接口给iPhone充电是一件很荒谬的事，引入发笑。

▲由机器翻译

网友给BingChat上传了同样的梗图做测试，奇怪的事情发生了：BingChat并没有认出这是VGA接口，因此它也「get」不到其中的笑点，不过BingChat还是一五一十地把照片解读了出来，甚至还能说出线缆的品牌，并给出更详细的资料。

这也许是BingChat偶然的误差，也可能是微软在实际应用GPT-4做了更多的限制调整导致回答偏差。

网友再上传了另一幅关于机器学习的梗图漫画，这次BingChat就能比较准确地答出图中的内容和笑点。

BingChat对另一张在汽车上烫衣服的梗图分析也同样到位。

▲此处翻译有误，原文为：DiddyKong,Pyra,Pikachu,ZeroSuitSamus,DonkeyKong,SonictheHedgehog,Ness,CloudStrife,andIncineroar

BingChat识图的精度有多高呢？他上传了一张《任天堂大乱斗》游戏的角色图，同一张图上有排列着非常多的角色，要求BingChat一一认出所有的角色。

结果是，BingChat在12个角色中认出了7个，看来二次元问题对它来说还是有点难度。

OpenAI在发布时还展示了一个拍手绘图就能编程网页的案例，该网友也手画了一张图考考Bing。

让我们跳过冗长的代码环节，直接看看这个网页跑起来的效果。可以看出，基础的网页雏形还是搭出来了。

识图功能的加入给BingChat增添非常多的用途，毕竟现实中很多内容（例如公式、图表）很难用文字表达清楚，这时候直接一张图甩给AI就能得到回答。

例如让它解释一下染色体在减数分裂时交叉互换的过程。

让它扮演生物老师，分析一下肾元过滤的工作原理。

甚至可以让它充当网络医生，简单诊断一下皮肤症。

此前，ChatGPT由于出色的文字理解和表达能力，已经被人们开发出了学外语、练口语的功能。

再加入视觉识别后，BingChat甚至可以担任一个初高中乃至大学老师的角色，帮助学生解答复杂的数理化问题，如果未来能把识图功能推广开来的话，这也许在一定程度上可以解决教育资源不均衡的问题。

用户还可以用它做基础的医疗诊断，节约就医所需要的金钱和时间，体现出AI普惠大众的价值。

当然，BingChat虽然能基本看懂现实世界的内容，但它的回答终究只能作为参考，不可以当做专业意见。

所以要完全向公众开放识图功能的话，微软还需要做大量的限制和调试，才能确保公众不会因为误信AI的回答而出现安全问题。

在短期内，BingChat识图应该还只是少部分用户才可以使用的测试性功能，如果你感兴趣的话，可以立刻登录一下你的微软账号，看看在BingChat的聊天栏上是否多了一个图片的图标。

目前BingChat面向所有微软账户开放，快来开盲盒看看你有没有收到测试资格吧??