开云(中国)Kaiyun·官方网站 - 登录入口-欧洲杯体育只可说图片研讨这块确乎没漏洞嗷-开云(中国)Kaiyun·官方网站 - 登录入口

欧洲杯体育只可说图片研讨这块确乎没漏洞嗷-开云(中国)Kaiyun·官方网站 - 登录入口

发布日期:2026-05-05 06:51  点击次数:73

欧洲杯体育只可说图片研讨这块确乎没漏洞嗷-开云(中国)Kaiyun·官方网站 - 登录入口

在DeepSeek一记V4重拳透澈引爆科技圈的五天后,DeepSeek里面负责多模态的讨论员陈小康在X上发布了这样一条帖子,而且附上了笔墨:

Now, we see you.

(图源:雷科技)

没错,即是字面意象。

当所有东说念主还在为V4的价钱和编码才气而瞻仰时,DeepSeek倏得开测识图时势,全网热议了一整年的多模态才气总算是落地了。

这更新速率,诚心让东说念主合计梁文锋是不是为了不被网友作念成不务正业的梗图,连夜把竖立团队锁在了机房里。

需要认确切是,此次测试并非全量测试,而是小规模的灰度测试,只消部分用户能在DeepSeek官方App或网页版里看到,此时输入栏上方除了原有的快速时势、民众时势外,还会新增识图时势按钮,并标注“图片研讨功能内测中”。

(图源:雷科技)

不巧的是,笔者的共事们全部齐没能被灰度测试到,被DeepSeek官方抽到的东说念主数果然高达0东说念主!

红运的是,笔者果然还真就成了那万中无一的天选之东说念主。

既然这样适值,小雷不给公共测试一番,若干有点羞愧不安。此次我全心弃取了12张图片,让公共好面子看DeepSeek到底能看到什么?

研讨才气强,学问库待更新

话未几说,咱们径直从画面描绘运转测试。

之是以将这个放在第一位,是因为这是视觉研讨在施行场景中哄骗最多的一项功能。

以咱们平方糊口为例,在路边看到一株叫不出名字的仙葩植物,简略想找找某款穿搭的同款相连,以至是在别国异域对着满屏外文菜单发愁时,公共当今的第一反映开阔是拍张照丢给AI问一句:“这是啥?”

这种“所见即所问”的交互,本体上即是在覆按模子的视觉研讨功底。

而此次我准备了三张图用作测试,分裂是一张Coser图像、我在博物馆里的见闻以及一张信息量叨唠的步履现场图片。

(图源:雷科技)

指示词:请详备描绘一下这张图,字数法例在250字以内。

关于第一张图片,DeepSeek的回复是这样的:

(图源:雷科技)

没错,DeepSeek不但无缺描绘了整个画面细节,而且还认出了图片里的扮装,以至还把拍摄这种图片中的配景、打光等元素等如实复原出来,用这套笔墨去文生图模子里径直就能复原一张高度肖似的图片。

要知说念,这个效用然则没开想考时势的。

关于第二张图片,DeepSeek的回复是这样的:

(图源:雷科技)

不洞开想考时势的情况下,此次回复即是很单纯的画面描绘,莫得关于物品的贯通,但是描绘本人如故挺到位的,而且终末如故能看出来这款物品裕如浓郁的中东或中亚艺术风情,很可能是一件颠倒的宫廷或宗教礼节器具。

那么,若是我洞开想考时势呢?

这下运转贯通了,最初是对物品进行拆解,界说它是什么、有什么特征、所处的环境奈何样。

(图源:雷科技)

然后就运转下界说了,它认为是清代痕齐斯坦立场。

(图源:雷科技)

那么清代痕齐斯坦立场是啥呢?把柄Wiki解释,这是18世纪清朝乾隆时代引入的中亚伊斯兰立场玉器,主要源自北印度莫卧儿王国。

刚好,我去看的即是莫卧儿王国展,还真给它找出来了。

(图源:雷科技)

关于第三张图片,DeepSeek的回复是这样的:

(图源:雷科技)

除了画面描绘、笔墨信息读取,此次它还讲理判断这是属于中国建博会·广州的步履现场图片,只可说图片研讨这块确乎没漏洞嗷。

诚然了,上头这些内容齐是看图语言,那么更新少许的信息识别怎样呢?

此次我准备了近些年的三张图片,指示词:图片里的东西是什么?并说出你的依据,字数法例在200个字以内。

(图源:雷科技)

关于第一张图片,DeepSeek的回复是这样的:

(图源:雷科技)

嗯...至少能从图片里看出宝可梦的信息,但是《Pokopia》这款游戏如故太新了,较着不在DeepSeek的学问库里。

关于第二张图片,DeepSeek的回复是这样的:

(图源:雷科技)

此次倒是判断得很准确,这确乎是一张从3dm扒下来的FM24计策图。

关于第三张图片,DeepSeek的回复是这样的:

(图源:雷科技)

不丢丑出,它确乎闭塞了最新的居品信息,但果然能通过副屏来判断成小米11 Ultra,只可说DeepSeek识图在逻辑这块确切拿合手了。

逻辑问题,相同搞不定

接下来,咱们来试试元素识别。

这部分,说东说念主话即是覆按AI的目力见了,里面有些题目,哪怕是真东说念主来了也不一定能作念出来。

诶,趁机望望DeepSeek会不会亦然个色盲。

这类图片在网上那叫一个多啊,我干脆径直上谷歌搜罗了这些图来测试用,公共也别客气。

(图源:雷科技)

先测第一个,指示词:请径直告诉我这张图中有几只老虎。

让东说念主想不到的是,这个问题果然能让DeepSeek运转自我博弈起来,不停地否定我方上一次数出来的终局,终末更是在两次数出6只老虎的情况下,坚决地回复了7只出来。

(图源:雷科技)

问题在于,这图里有10只老虎,这就让东说念主很无语了。

再测第二个,指示词:这张图中隐敝着一组数字,请你径直告诉我其中有几个数字,它们分裂是什么。

(图源:雷科技)

咋说呢,这个图之前就难倒过所有AI, DeepSeek相同莫得能识别出来。

第三张图亦然如斯,不错说,这一类基于反色、碎块化的图片,依然是视觉研讨的一世之敌。

(图源:雷科技)

终末是三说念图形逻辑题,之前DeepSeek-V4在作念逻辑题的技艺阐发就一般,不知说念玩忽图形逻辑题的效用怎样。

传说这三说念齐是行测例题,咱们让DeepSeek来解答一下。

(图源:雷科技)

第通盘,想考了整整三分钟。

(图源:雷科技)

谜底是错的,正确谜底是D。这图的逻辑其实还挺好懂的,即是前边两格单白/单黑的场地,第三格是白的,前边两格双白/双黑的场地,第三格即是黑的。

第二说念题当然亦然不负众望,错!

没猜测,在我也曾失去但愿的情况下,过程六分钟深度想考后,这第三说念题,果然是让DeepSeek给答对了!

(图源:雷科技)

我反复试了两遍,只可说这说念题它确乎能推理出来,虽说是遴荐算数的神志,但确乎结束了零的冲破。

只可说,行测备考你用这个,这辈子亦然有了。

回顾:识图仅仅前菜,多模态大招还在路上

无缺测试下来,小雷我对DeepSeek此次的识图才气算摸透了。

只可说DeepSeek基础识图的准确率其实如故比拟高的,然后它的推遐想路本人也算丝丝入扣,但是目下学问库里保存的信息还不够多,而且濒临难度较高的极限测试,基本上就莫得能作念对的技艺。

但是,此次起码不会出现想考半天吧啦吧啦玩具丧志的情况。

(图源:DeepSeek)

在我看来,此次识图更像是过渡期的开胃菜,这个识图时势,更接近一个挂载在DeepSeek-V4骨干上的视觉研讨模块,而并非DeepSeek-V4本人的多模态才气。

但至少,它评释DeepSeek团队在视觉研讨上也曾跑通了,这较着是在为接下来的原生多模态大招铺路。不错料想的是,补上这块短板后,整个国产模子的格步地必会再次发生改造。

至于没拿到阅历的也别急,就DeepSeek目下这个效用欧洲杯体育,豆包和千问其实够用了。



相关资讯
热点资讯
  • 友情链接:

Powered by 开云(中国)Kaiyun·官方网站 - 登录入口 @2013-2022 RSS地图 HTML地图