儿童穿足球鞋37跟年夜人版37一样吗儿童穿足球短裤

2022-08-23 00:00:00

机械心净陈述

机械之心编纂部

视频朋分结果优于现有的一切办法。进选CVPR2022的那篇论文是用Transformer处理CV使命的又这个例子。

基于注重力的深度神经收集正在天然说话处置和计较机视觉等差别范畴的各类使命中表示出了优良的机能。那些开展使得这类收集成为处理多模态题目的有力候选。特别是比来一两年，变形金刚模子已开端正在CV使命高低工夫，从目的辨认到探测，结果比普通的CNN视觉主干网要好。

参考视频工具朋分的使命触及给定视频帧中文本参考工具实例的朋分。比拟之下，正在更普遍研讨的参考图象朋分使命中，工具首要经由过程它们的表面来参考。正在RVOS中，工具能够被它们正正在履行或到场的行动援用。那使得RVOS比RIS庞大很多，由于援用行动的文本表达凡是不克不及从单个静态框架中推导出来。

别的，与基于图象的RIS差别，RVOS办法能够还需求跨多个帧成立参考工具的数据联系关系，以处置遮挡或活动恍惚等滋扰。

为理解决那些应战，现有的RVOS办法凡是依靠于庞大的流水线。正在CVPR2022收到的一篇论文《End-to-EndReferringVideoObjectSegmentationwithMultimodalTransformers》中，以色列理工学院的研讨职员提出了一种简朴的端到端RVOS办法，该办法基于变压器-多模态跟踪变压器。

地点：https://arxiv.org/pdf/2111.14821.pdf

项目地点：https://github.com/mttr2021/MTTR

拥抱脸空间梯度演示：https://huggingface.co/spaces/akhaliq/MTTR

详细来讲，他们利用MTTR将使命建模为序列展望题目。给定视频和文本查询，该模子正在肯定文本所援用的工具之前，为视频中的一切工具天生展望序列。并且他们的办法不需求与文底细关的回纳误差模块，利用简朴的穿插熵丧失来对齐视频和文本。以是那个办法比之前简朴多了。

研讨职员提出的管道图以下所示。起首，利用尺度的Transformer文本编码器从文本查询中提取说话特点，利用时空编码器从视频帧中提取视觉特点。然后，那些特点被通报到多模态转换器，以输出几个工具展望序列。然后，为了肯定哪一个展望序列最能对应参考工具，研讨职员计较了每一个序列的文本参考分数。为此，他们还提出了一种时序分区投票计划，使得模子正在决议计划时聚焦于最相干的部门。

按照尝试成果，MTTR正在A2D语句和JHMDB语句上别离得到了5.7和5.0的mAP增益，每秒可处置76帧。

研讨职员还展现了一系列差别物体之间的现实朋分结果，比方穿戴红色t恤和蓝色短裤的冲浪者。

再好比一只贪玩的猩猩。

网平易近们对那项研讨中展现的视频工具朋分结果拍案叫绝。有人道，即便正在堆叠的物体上，朋分结果也十分有用。

办法先容

使命界说。RVOS的输进是这个帧序列。

，此中

；文本查询是

an.lamuhao.com/pic/img.php?k=儿童穿足球鞋37跟年夜人版37一样吗,儿童穿足球短裤8.jpg">

，那里t_i是文本中的第i个单词；巨细为

的感乐趣帧的子集为

，目的是正在每帧

平分割工具

。

特点提取。该研讨起首利用深度时空编码器从序列 V 中的每帧中提取特点。同时利用基于 Transformer 的文本编码器从文本查询 T 中提取说话特点。然后，将空间-时候和说话特点线性投影到同享维度 D。

实例展望。以后，感乐趣的帧特点被平化并与文本嵌进分隔毗连，发生一组T_I多模态序列，那些序列被并止馈送到 Transformer。正在 Transformer 的编码器层中，文本嵌进和每帧的视觉特点交流疑息。然后，解码器层对每一个输进帧供给N_q工具查询，查询与实体相干的多模态序列，并将其存储正在工具查询中。该研讨将那些查询称为属于统一实例序列的查询。这类设想许可天然跟踪视频中的每一个工具实例。

输诞生成。Transformer 输出的每一个实例序列，将会天生这个对应的掩码序列。为了完成那一点，该研讨利用了相似 FPN 的空间解码器和静态天生的前提卷积核。最初，该研讨利用文本参考评分函数，该函数基于掩码和文本联系关系，以肯定哪一个工具查询序列与 T 中形貌的工具具有最强的联系关系，并将其朋分序列作为模子的展望返回。

时候编码器。合适 RVOS 使命的时候编码器应当可以或许为视频中的每一个实例提取视觉特点和行动语义。比拟之下，该研讨利用端到端办法，不需求任何分外的掩码细化步调，并利用单个骨干便可完成。比来，研讨者提出了 Video Swin Transformer <27> 作为 Swin Transformer 对视频范畴的泛化。最后的 Swin 正在设想时思索了麋集展望， Video Swin 正在行动辨认基准长进止了年夜量探测。

据理解，该研讨是第这个利用Video Swin 停止视频朋分的。与 I3D 差别，Video Swin 仅包罗这个时候下采样层，而且研讨者能够轻松点窜以输出每帧特点图。是以，Video Swin是处置完全的持续视频帧序列以停止朋分的更好挑选。

实例朋分历程

实例朋分历程如图 2 所示。

起首，给定 F_E，即最初这个 Transformer 编码器层输出的更新后的多模态序列，该研讨提取每一个序列的视频相干部门并重塑为汇合

。然后，该研讨接纳时候编码器的前 n1 个块的输出

，并利用相似 FPN 的 <21> 空间解码器 G_Seg 将它们与

分层融会。那个历程发生了视频帧的语义丰硕、高分辩率的特点图，暗示为 F_Seg。

接下来，关于 Transformer 解码器输出的每一个实例序列

，该研讨利用两层感知器 G_kernel 天生响应的前提朋分核序列。

最初，经由过程将每一个朋分核与其对应的帧特点停止卷积，为

天生一系列朋分掩码 M，然落后止双线性上采样操纵以将掩码巨细调解为实在分辩率

尝试

该研讨正在A2D-Sentences数据集大将MTTR与SOAT办法停止比力。成果如表 1所示，该办法正在一切目标上都光鲜明显优于一切现有办法。

比方，该模子比当前SOTA模子进步了 4.3 mAP ，那证实了MTTR可以或许天生高质量的掩码。该研讨还注重到，与当前SOTA手艺比拟，顶级设置装备摆设的MTTR完成了 5.7 的 mAP 进步和 6.7% 的均匀 IoU 和整体 IoU 的尽对改良。值得一提的是，这类设置装备摆设可以或许正在单个 RTX 3090 GPU 上每秒处置 76 帧的同时做到那一点。

根据之前的办法 <11, 24>，该研讨经由过程正在没有微调的 JHMDBSentences 上评价模子的泛化才能。该研讨从每一个视频中同一采样三帧，并正在那些帧上评价模子。如表2所示，MTTR办法具有很好的泛化性而且优于一切现有办法。

表3陈述了正在Refer-YouTube-VOS大众考证集上的成果。与现有办法<24,37>比拟，那些办法是正在完全数据集长进止练习和评价的，虽然该研讨模子正在较少的数据长进止练习，并特地正在这个更具应战性的子集长进止评价，但MTTR正在一切目标上都表示出了出色的机能。

如图 3 所示，MTTR 能够胜利地跟踪和朋分文本参考工具，即便正在具有应战性的环境下，它们被相似实例包抄、被遮挡或正在视频的普遍部门中完整超越相机的视野。

参考链接：https://www.reddit.com/r/MachineLearning/comments/t7qe6b/r_endtoend_referring_video_object_segmentation/

儿童穿足球鞋37跟年夜人版37一样吗儿童穿足球短裤

儿童穿足球鞋37跟年夜人版37一样吗 儿童穿足球短裤

儿童穿足球鞋37跟年夜人版37一样吗儿童穿足球短裤