CV圈又炸了?扎克伯格高调官宣Meta视觉大模型,分割检索无所不能
2023-04-19 00:48:59 来源:新智元
新智元报道
编辑:桃子 拉燕
【新智元导读】Meta在CV领域又放了个大的!自监督+无需微调,计算机视觉又要不存在了?
【资料图】
继「分割一切」后,Meta再发DINOv2。
这还是小扎亲自官宣,Meta在CV领域又一重量级开源项目。
小扎也是高调表示,Meta一直致力于开源各种AI工具,而今天发布的DINOv2更是SOTA级别的模型。能在深度估计、语义分割、图像相似性比较等方面实现自监督训练。
小扎表示,用这个模型可以借助卫星图像生成不同大洲的森林高度。而在未来,还可以帮助医学成像、粮食产量等方面。
当然,最后小扎还不忘了自己的主打——元宇宙。他认为,DINOv2可以极大地加持元宇宙的建设,让用户在元宇宙中的沉浸体验更出色。
网友高声大呼,「计算机视觉再一次不存在了!」
效果演示
Meta在官网上放出了深度估计、语义分割和实例检索的案例。
深度估计:
对于不熟悉计算机视觉的朋友来讲,深度估计(Depth Estimation)可能是一个比较陌生的词汇。但其实,只要理解了其应用场景就能明白是什么意思了。
简单来说,对于2D照片,因为图像是一个平面,所以在3D重建时,照片中每一个点距离拍摄源的距离就至关重要。
这就是深度估计的意义。
右侧的图片中,相同的颜色代表距离拍摄点距离相同,颜色越浅距离越近。这样子整个图片的纵深就出来了。
再来看几组例子:
语义分割:
语义分割的含义比较简单。从字面上看,语义这个词在不同的语境下含义也不同。比如说,在语音识别领域,语义指的就是语音内容。而在图像领域,指的就是图片内容。
分割就是把一张图片中不同的部分用颜色标明,这样就清楚各部分之间的划分了。
有点像小时候玩过的涂鸦画本,在空白的轮廓图上给不同的部分上色。
当然还是有区别的,画本中同一部分我们也可以用不同的颜色来装饰。
如上图中,桥是一种颜色,河水是一种颜色,草地是一种颜色,远处的树又是一种颜色。
更多示例:
实例检索:
这个就更好理解了。上传图片到模型中,就可以从有茫茫多图片的库中找到类似的图片。
上图中的埃菲尔铁塔就是输入的图片,模型随后检索出了大量同题材的图片,风格各异。
DINOv2
论文地址:https://arxiv.org/pdf/2304.07193.pdf
看完了SOTA级别的演示,接下来我们来看一看藏在背后的技术突破。
要知道,自然语言处理中对大量数据进行模型预训练的突破,为计算机视觉中类似的基础模型开辟了道路。
这些模型可以通过产生多种用途的视觉特征,大大简化任何系统中的图像使用,无需微调就能在不同的图像分布和任务中发挥作用的特征。
这项工作表明,现有的预训练方法,特别是自监督方法,如果在来自不同来源的足够的数据上进行训练,就可以产生这样的效果。
Meta的研究人员重新审视了现有的方法,并结合不同的技术,在数据和模型的大小上扩展我们的预训练。
大多数技术贡献的是加速和稳定规模化的训练。在数据方面,Meta提出了一个自动管道,目的是建立一个专门的、多样化的、经过整理的图像数据集,而不是像自监督文献中通常所做的那样,建立未经整理的数据。
而在模型方面,研究人员用1B的参数训练了一个ViT模型,并将其提炼成一系列较小的模型,这些模型在大多数图像和像素级别上超过了现有的OpenCLIP在图像和像素层面上的基准。
与学习任务无关的预训练表征已经成为自然语言处理(NLP)的标准。人们可以照搬这些特征,不用进行微调,并在下游任务中取得了明显优于特定任务模型产生的性能。
这种成功被大量原始文本预训练所推动,如语言建模或单词向量,而不需要监督。
在NLP的这种范式转变之后,研究人员预计,计算机视觉中会出现类似的基础模型。这些模型能产生在任何任务中都能发挥作用的视觉特征。在图像层面,有图像分类,而在像素层面,则有分割(如上例)。
对这些基础模型的大多数努力都集中在文本指导的预训练上,即使用一种文本监督的形式来指导特征训练。这种形式的文本指导的预训练限制了可以保留的关于有关图像的信息,因为标题只包含图像中的表层信息,而复杂的像素级信息可能不会体现。
此外,这些图像编码器需要一一对应的文本&图像语料库。文本指导的预训练的一个替代方法,是自我监督学习,其特征是单独从图像中学习。这些方法在概念上更接近于语言建模等任务,并且可以在图像和像素层面上捕捉信息。
然而,自我监督学习的大部分进展都是在小型策划数据集ImageNet1k上进行预训练的。一些关于将这些方法扩展到ImageNet-1k之外的努力已经被尝试过了,但他们的特点是,专注于未经整理的数据集,导致特征的质量大幅下降。
这是因为缺乏对数据质量和多样性的控制。
Meta的研究人员关注的问题是,如果在大量的策划过的数据上进行预训练自我监督学习,是否有潜力学习所有的视觉特征。他们重新审视了现有的在图像和斑块层面学习特征的鉴别性自监督方法,如iBOT,Meta的研究人员在更大的数据集下重新考虑了iBOT的一些选择。
Meta的大部分技术贡献都集中在针对模型和数据规模扩大时的稳定和加速判别性自我监督学习等方面。这些改进使新方法比类似的鉴别性自我监督方法快2倍左右,所需的内存少3倍,这样就能利用更大的批次规模进行更长时间的训练。
关于预训练数据,研究人员建立了一个模型来过滤和重新平衡包含大量未处理的图像的数据集。灵感来自于NLP中使用的办法,使用了数据相似性而非外部元数据,且不需要手动注释。
在这项工作中,一个简单的聚类方法能出色地解决这个问题。
Meta的研究人员收集了一个由1.42亿张图片组成的多样化的语料库来验证此办法。最终提供了各种预训练的视觉模型,称为DINOv2,也就是今天我们介绍的主角。
Meta也是发布了所有的模型和代码,以便在任何数据上都可以重新训练DINOv2。
研究人员在各类计算机视觉的基准上验证DINOv2的能力,并在图像和像素层面上,还对其进行了扩展,如下图。
网友:这才是「Open」AI
DINOv2发布后,网友们也是一致好评。
「计算机视觉基础模型正在取得令人难以置信的快速进展。类似于在大规模数据和模型上的自我监督学习所推动的LLMs。感谢Meta开源DINOv2和SAM--对于~~90%的普通领域任务来说,这些模型的能力越来越强,基本上不需要微调。」
「SAM+DINO,在农业方面上应用太强了。」
「Meta 才是真正的「Open」AI 公司 !」
参考资料:
https://www.maginative.com/article/meta-ai-unveils-dinov2-a-game-changer-in-self-supervised-vision-transformer-models
https://github.com/facebookresearch/dinov2
关键词:
为你推荐
-
CV圈又炸了?扎克伯格高调官宣Meta视觉大模型,分割检索无所不能
-
极目帮办|10年前发生重大火灾的地方,消防泵房成垃圾场,极目新闻介入后几方联动迅速整顿 天天播报
-
天天热资讯!全球连线 | 中企承建的伊拉克示范学校项目助力当地教育发展
-
阜阳市成效中学是公立还是私立_阜阳市成效中学|全球热文
-
4月以来上涨逾36% 天马股份拟涉足人工智能审核的研发和应用
-
虽深陷骚扰风波 但漫威并未开除征服者康演员_全球视点
-
腋毛能用刮胡刀刮吗(腋毛能不能拔) 世界快播报
-
五一福利放送中,这三位达人四月止盈不断,胜率有点高!
-
燕京啤酒去年营收超130亿元,净利润超3亿元 世界聚看点
-
江西南丰:开展全民国家安全教育日系列宣传活动-每日讯息
-
国产新车品鉴:2020款理想ONE正式上市 售32.80万元 热消息
-
洛克王国小糯米侠怎么获得(小糯米侠获取方法2022)
-
了解一个人的问题清单_了解一个人的问卷_全球热门
-
分歧加大,仍需成交配合|全球热门
-
世界观热点:蓝特光学: 2022年度审计报告
-
江西省2022年普通高校招生录取第二次新闻通气会_天天快报
-
资本圆桌快讯 | 国泰君安赵阳:监管机构逐步放松REITs扩募资产类别
-
柴强:房地产市场底部已过-世界微头条
-
华声能源网简介
-
七国集团外长会粗暴干涉中国内政 中方:强烈不满、坚决反对
推荐内容
- CV圈又炸了?扎克伯格高调官宣Meta视觉大模型,分
- 极目帮办|10年前发生重大火灾的地方,消防泵房成
- 天天热资讯!全球连线 | 中企承建的伊拉克示范
- 阜阳市成效中学是公立还是私立_阜阳市成效中学|全
- 4月以来上涨逾36% 天马股份拟涉足人工智能审核的
- 虽深陷骚扰风波 但漫威并未开除征服者康演员_全
- 腋毛能用刮胡刀刮吗(腋毛能不能拔) 世界快播报
- 五一福利放送中,这三位达人四月止盈不断,胜率有
- 燕京啤酒去年营收超130亿元,净利润超3亿元 世界
- 江西南丰:开展全民国家安全教育日系列宣传活动-
- 国产新车品鉴:2020款理想ONE正式上市 售32.80万
- 洛克王国小糯米侠怎么获得(小糯米侠获取方法2022)
- 了解一个人的问题清单_了解一个人的问卷_全球热门
- 分歧加大,仍需成交配合|全球热门
- 世界观热点:蓝特光学: 2022年度审计报告
- 江西省2022年普通高校招生录取第二次新闻通气会_
- 资本圆桌快讯 | 国泰君安赵阳:监管机构逐步放
- 柴强:房地产市场底部已过-世界微头条
- 华声能源网简介
- 七国集团外长会粗暴干涉中国内政 中方:强烈不满
- 全球热点!16家北交所公司接受机构调研
- 厦门过去 12 小时普降暴雨到大暴雨 未来 24
- 聚焦重点地区重点行业重点项目 云南推动经济稳进
- 带有 LTE 调制解调器和前置摄像头的新 Fitbit
- 终极教师 柳下挥 笔趣阁_终极教师 柳下挥著都
- 常青科技(603125)4月18日主力资金净买入287.06万元
- 生意社:稀土市场短期跌势难改 行业长期需求将进
- 天天最新:闪银贷款逾期7天会怎么样
- 而竖其左膝的而表什么(而竖其左膝的而表什么关系
- 热资讯!缝合有术,唯爱无痕 | 济南南郊医院产
- 环球即时:嚼嚼者集合!《是我的益达》4月28日登
- 制造业租赁业不良包袱快速出清,渝农商行去年资产
- 亚光黑色抽油烟机集成到工作台上+存放您的炊具
- 长征汽车登顶!一季度氢燃料重卡销量榜单出炉
- 今日热闻!丽臣实业2022年度分配预案:拟10派6元
- 成都大运会倒计时100天主题列车正式上线
- 四川师范大学经济学专业怎么样_四川师范大学经济
- 贝克汉姆一家为贝嫂庆生,长子夫妇惊喜现身,小七
- 世界快看:智通全球财经日志|4月18日
- 十爷的异能妻谁敢撩小说_十爷
油气
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
经济
-
中新网通辽10月18日电 (记者 张林虎)18日,记者从内蒙古自治区通辽市奈曼旗公安局获悉,国家一级保护动物--梅花鹿误入当地村民羊群,
-
中新网杭州10月18日电 (王题题 胡燕婕)云天收夏色,浅秋正渐浓。10月18日,浙江杭州市西湖游船有限公司推出的惠民多站点“西湖环湖游
-
中新网福州10月18日电 (记者 龙敏 王东明)福州市晋安区官方18日晚间通报,18日14时47分,晋安区岳峰镇化工路爱摩轮商业广场项目摩天
-
中新网兰州10月18日电 (闫姣 艾庆龙 吉翔)“红山白土头,黄河向西流。”不少人疑问,天下黄河向东流,为何甘肃永靖县这段黄河却向西
-
中新网北京10月18日电 《清华城市健康设施指数》18日在北京发布。报告成果显示,城市健康设施指数领先城市以中心城市和东部沿海城市