【第43篇】CLIP:从自然语言监督中学习可迁移的视觉模型

2023-06-24 05:16:46

摘要

在这里插入图片描述

最先进的计算机视觉系统被训练来预测一组固定的预定对象类别。这种受限制的监督形式限制了它们的通用性和可用性,因为需要额外的标记数据来指定任何其他视觉概念。直接从有关图像的原始文本中学习是一种很有前途的替代方案,它利用了更广泛的监督来源。我们证明了预测哪个标题与哪个图像搭配的简单预训练任务是一种有效且可扩展的方式,可以在从互联网收集的 4 亿(图像,文本)对的数据集上从头开始学习 SOTA 图像表示。在预训练之后,使用自然语言来参考学习的视觉概念(或描述新的概念),使模型能够零样本转移到下游任务。我们通过对 30 多个不同的现有计算机视觉数据集进行基准测试来研究这种方法的性能,这些数据集涵盖 OCR、视频中的动作识别、地理定位和许多类型的细粒度对象分类等任务。该模型非常重要地转移到大多数任务,并且通常与完全监督的基线相比具有竞争力,而无需任何数据集特定的训练。例如,我们在 ImageNet 零样本上匹配原始 ResNet-50 的准确性,而无需使用它所训练的 128 万个训练示例中的任何一个。我们在 https://github.com/OpenAI/CLIP 上发布我们的代码和预训练模型权重。

一、 简介和激励工作

在过去几年中,直接从原始文本中学习的预训练方法彻底改变了 NLP(Dai & Le,2015;Peters 等人,2018;Howard & Ruder,2018;Radford 等人,2018;Devlin 等人, 2018 年;Raff

更多推荐

回顾每一代 iPhone 的特性升级和创新

文章目录前言初代iPhone(2007)iPhone3G(2008)iPhone3GS(2009)iPhone4(2010)iPhone4S(2011)iPhone5(2012)iPhone5c和5s(2013)iPhone6和6Plus(2014)iPhone6s和6sPlus(2015)iPhone7和7Plus(

DDR模块电路的PCB设计建议

DDR电路简介RK3588DDR控制器接口支持JEDECSDRAM标准接口,原理电路16位数据信号如图8-1所示,地址、控制信号如图8-2所示,电源信号如图8-3所示。电路控制器有如下特点:1、兼容LPDDR4/LPDDR4X/LPDDR5标准;2、支持64bits数据总线宽度,由4个16bits的DDR通道组成,每个

【Vue】Vue中lauch.js的详细介绍,各个参数的内涵

"lauch.js"在Vue中是一个启动文件,通常用来创建Vue实例并配置一些默认设置。下面是常见的"lauch.js"参数及其意义:el:表示要挂载的元素,通常是一个字符串或者一个DOM对象。router:表示使用的路由,通常是一个VueRouter实例。store:表示使用的状态管理器,通常是一个VuexStore

【Linux成长史】Linux权限的详细讲解

🎬博客主页:博主链接🎥本文由Mmalloc原创,首发于CSDN🙉🎄学习专栏推荐:LeetCode刷题集数据库专栏初阶数据结构🏅欢迎点赞👍收藏⭐留言📝如有错误敬请指正!📆未来很长,值得我们全力奔赴更美好的生活✨文章目录😇本章详情😇Linux权限的概念⏳Linux下的两种用户:超级用户(root),普通

讲解socket 网络编程的 5 大隐患

1.忽略返回状态第一个隐患很明显,但它是开发新手最容易犯的一个错误。如果您忽略函数的返回状态,当它们失败或部分成功的时候,您也许会迷失。反过来,这可能传播错误,使定位问题的源头变得困难。捕获并检查每一个返回状态,而不是忽略它们。考虑清单1显示的例子,一个套接字send函数。清单1.忽略API函数返回状态intstatu

【C#】FileInfo类 对文件进行操作

提示:使用FileInfo类时,要引用System.IO命名空间。usingSystem.IO;FileInfo类生成文件删除文件移动文件复制文件获取文件名判断文件是否存在属性列表其它常用方法生成文件Create():在指定路径上创建文件。FileInfomyFile=newFileInfo(@"E:\vsspace\

VUE路由与nodeJS环境搭建

VUE路由Vue路由是Vue.js提供的路由管理工具,它允许我们在应用程序中实现页面之间的导航,从而使单页面应用程序的开发更加方便。通过Vue路由,我们可以轻松地创建和管理多个视图,并在这些视图之间导航。Vue路由使用HTML5的HistoryAPI来实现无刷新页面的切换效果,同时还提供了很多高级特性,例如路由嵌套、路

PWA建快应用,小程序建超级App?

小程序在特定的平台生态系统中崭露头角,为开发者提供了更深度的集成和用户接触点。通过应用商店的分发和推广机制,小程序能够迅速扩大用户基础,为企业和品牌提供了直接触达用户的机会。尤其是在社交媒体平台上,小程序的分享和使用已成为用户互动和交流的一种重要方式。PWA代表“渐进式网络应用”(ProgressiveWebAppli

MySQL常考知识点

MySQL常考知识点索引的基本原理索引设计的原则事务的基本特性和隔离级别什么是MVCC简述MyISAM和InnoDB的区别Explain语句结果中各个字段分表表示什么索引覆盖是什么最左前缀原则是什么B树和B+树的区别,为什么Mysql使⽤B+树Mysql锁有哪些,如何理解Mysql慢查询该如何优化?索引的基本原理索引⽤

blender怎么设置中文界面

你们知道Blender软件是什么吗?你知道blender怎么设置中文界面吗?Blender是个GNU的3D绘图软件,建模、算图、动画等功能都相当的完整,可以说已经具有了一般商业软件的规模。Blender大部分的功能都有热键,操作起来相当地轻快;而由于几乎所有的功能按钮鼠标移上去一段时间都会出现详细说明,也多少弥补了操作

Blender Morph Targets

推荐:用NSDT编辑器快速搭建可编程3D场景在Blender中,MorphTarget被称为ShapeKey,即形状键,是将网格从一种形状变形为另一种形状的工具。每个对象都被分配了一个基本形状,然后可以有许多可以变形的形状键。形状键通常用于面部动画和肌肉,但在动画中也有很多用途。本文包含了你需要了解的有关Blender

热文推荐