Optical Flow Guided Feature(OFF)简单介绍

OFF模块基本的代码在代码中有所体现,其并未将OFF单独作为Class进行实现,论文中含有多个OFF,部分OFF在进行卷积时输入的通道数以及尺寸均有所不同,此处仅仅以motion_3a为例,至于如何加入到其他的网络结构,需要对里面的shape进行更进一步的计算和设计,否则会出现维度不一致等问题,此处将OFF作为一个Class进行实现,相关代码如下,如有错误敬请指正。由于一些原因,需要对这篇论文介绍的OFF部分代码进行拆解,因此先上论文中的相关部分,再做进一步解释,水平有限,表达不准确敬请谅解。_opticalflowguidedfeature
分类: 企业开发 发布时间: 09-12 04:30 阅读次数: 0

ECO: Efficient Convolutional Network for Online Video Understanding

考虑到不同用户需求,作者把之前的设计命名为了轻量版(Lite,代码中即为ECO,而Full在代码中为ECOfully),由此升级得到全尺寸版(Full)的设计。上图是ECO Lite的网络结构:视频被分成了N个同样时长的区段,在每个区段中随机抽取一帧,先把这些图片通过常规2D卷积网络进行处理得到特征图,再把特征图堆叠输入3D卷积网络。以上代码利用layer_factory.py中的部分函数,实现对ECO模型定义文件ECO.yaml的加载,并建立正向传播,返回正向传播最后得到的数据。输出是96个的特征图。
分类: 企业开发 发布时间: 09-12 04:30 阅读次数: 0

ReseNet简介

ResNet的应用比较广泛,为了方便以后的学习,对ResNet网络结构做了进一步了解,ResNet的种类有好几种,此处简要介绍ResNet-18的代码。_resnet种类
分类: 企业开发 发布时间: 09-12 04:30 阅读次数: 0

Transformer(Pytorch)部分讲解

之前在看transformer的时候写了一篇文章,文章整体几乎是对着论文翻译过来的,最近也算是有时间看了看transformer的代码,也看了看别人文章的介绍,此处记录下来,方便自己以后查看。前一篇介绍transformer的文章链接:(4条消息) Transformer_Mr___WQ的博客-CSDN博客接下来对transformer的代码做简单介绍。_python seq_k.data.eq(0).unsqueeze(1)
分类: 企业开发 发布时间: 09-12 04:30 阅读次数: 0

Reformulating HOI Detection as Adaptive Set Prediction

确定要集中的图像区域对于人-对象交互(HOI)检测至关重要。传统的HOI检测器专注于检测到的人和物对或预定义的交互位置,这限制了有效特征的学习。在本文中,作者将HOI检测重新表述为一个自适应集预测问题,利用这个新的公式,作者提出了一个基于自适应集的one-st0age框架(AS-Net),该框架具有并行实例和交互分支。_hoi检测
分类: 企业开发 发布时间: 09-12 04:30 阅读次数: 0

学术论文写作

摘要可以作为独立的文档,论文最后一个写。确定主题并指出其重要性。简要说明观点、方法、理论、发现。总结实验证明或理论证明。从论文中可以得出什么结论。解释问题问题陈述背景假设发现方法说明&贡献。
分类: 企业开发 发布时间: 09-12 04:30 阅读次数: 0

图神经网络(Graph Neural Networks)

图神经网络是以邻接点Embedding的浅层传播来训练Embedding。改变Aggregation和update的方式,可以构造不同的图神经网络;既可以用无监督的方式获得Embedding,也可以用有监督的方式直接训练分类任务。_序列图神经网络
分类: 企业开发 发布时间: 09-12 04:30 阅读次数: 0

论文Action Genome: Actions as Composition of Spatio-temporal Scene Graphs

Action Genome将动作分解成时空场景图。场景图解释了对象及其关系如何随着动作的发生而变化。通过收集大数据集的时空场景图来展示Action Genome的作用,并使用它来改进动作识别和少镜头动作识别的最新结果。最后,对新的场景图时空预测任务的结果进行了测试,实现了一定的性能提高。希望Action Genome能在可分解和一般化的视频理解上激发一个新的研究方向。
分类: 企业开发 发布时间: 09-12 04:30 阅读次数: 0

DIN:用于群体行为识别的动态时空推理网络

本篇工作中,作者及团队提出了一种用于视频群体行为识别的动态时空推理网络(,在时空图的推理过程中引入可变形卷积的思想,通过在局部的时空交互域上对中心人物的全局交互图进行预测并更新特征,解决了之前在群体行为识别中可能出现的过平滑问题和计算量大的缺点。在同等实验设定下,推理模块只需要使用以往模型10%不到的计算量和参数量,便可以在两个业界权威数据集上达到最优结果。
分类: 企业开发 发布时间: 09-12 04:30 阅读次数: 0

DIN网络结构部分代码讲解

作者首先构建一个初始化的时空图,该时空图的连接为人物特征的时空邻居(空间维度按照人的坐标排序)。在这个初始化的时空图上,作者在定义的交互域内进行动态关系和动态游走预测,得到中心特征各异的交互图(总共T×N个交互图),然后中心特征可以在各自的交互图上进行特征更新。与stage1相比多了inference部分, infer_model.py中定义了第二部分的网络结构,下面的代码是与stage1不同的地方,作者将网络的第二阶段封装在了一个class中,定义在dynamic_infer_module.py。_din 网络结构
分类: 企业开发 发布时间: 09-12 04:30 阅读次数: 0

论文Spatial-Temporal Transformer for Dynamic Scene Graph Generation

最近由于要做SGG方向,恰巧之前保存过这篇论文2107.12309.pdf (arxiv.org)https://arxiv.org/pdf/2107.12309.pdf代码地址: GitHub - yrcong/STTran: Spatial-Temporal Transformer for Dynamic Scene Graph Generation, ICCV2021https://github.com/yrcong/sttran想进一步了解SGG任务的可以看下这篇综述,后续我也会进一步研究。2104
分类: 企业开发 发布时间: 09-12 04:30 阅读次数: 0

Target Adaptive Context Aggregation for Video Scene Graph Generation

在本文中,提出了一个用于帧级VidSGG的模块化框架,称为目标自适应上下文聚合网络(TRACE)。为了自适应、高效地获取时空上下文信息,设计了一种新的层次关系树来指导时间注意融合和空间信息传播。该方法与简单的时间关联策略相结合,产生了模块化视频级VidSGG基线,在ImageNet-VidVRD的视频级指标下,无需使用复杂的跟踪功能,即可获得最佳性能。对于纯框架级别的VidSGG任务,TRACE仍然在Action Genome的基准上取得了SOTA。
分类: 企业开发 发布时间: 09-12 04:30 阅读次数: 0

STTran部分代码解读

上篇文章的代码没能成功debug运行起来,另外上一篇文章代码的算力要求是很高的,这无疑与我而言并不是很合适的,因此我找了之前读过的论文STTran的代码,先对其中的部分代码进行解读,如有误人子弟之处还请批评指正,仅用作学习记录,后面将注重分析实验结果,对错误识别部分进行可视化分析,绘图工具推荐使用Graphviz(论文作者推荐使用,还未尝试效果如何)。第一部分是目标检测,对应上图中的Detector,第二部分是成对关系识别,对应Detector后面的部分,接下来针对这两个部分进行简单介绍。
分类: 企业开发 发布时间: 09-12 04:30 阅读次数: 0

VidSitu数据集

本文提出一种新的框架,用于使用视觉语义角色标注来理解和表示视频中相关的显著事件。作者将视频表示为一组相关事件,其中每个事件由一个动词和多个实体组成,这些实体履行与该事件相关的各种角色。为了研究视频或VidSRL中语义角色标注的挑战性任务,本文提出了VidSitu基准,这是一个大规模视频理解数据源,其中有29K个10秒的电影片段,用动词和进行了丰富的注释,每2秒进行语义角色标注。实体在电影片段内的事件中被共同引用,事件通过事件关系相互连接。
分类: 企业开发 发布时间: 09-12 04:30 阅读次数: 0

Classification-Then-Grounding:Reformulating Video Scene Graphs as Temporal Bipartite Graphs

这是一篇来自CVPR 2022的文章,相较于传统的基于目标提议的两阶段方法,其将视频场景图重新表述为时间二部图(也称二分图),为视频场景图的生成及推理提供了新的研究思路。接下来对文章的主要内容做简要介绍。
分类: 企业开发 发布时间: 09-12 04:30 阅读次数: 0

Unbiased Scene Graph Generation in Videos论文讲解

由于场景的内在动态性、模型预测的时间波动以及视觉关系的长尾分布,加上基于图像的动态场景图生成(SGG)已经存在的挑战,从视频中生成动态场景图(SGG)的任务非常复杂和具有挑战性。现有的动态SGG方法主要侧重于使用复杂架构捕获时空上下文,而没有解决上述挑战,特别是关系的长尾分布。这通常会导致产生有偏差的场景图。为了解决这些挑战,我们引入了一个名为TEMPURA(TEMemoryPrototypeguidedUnceRtaintyA。
分类: 企业开发 发布时间: 09-12 04:30 阅读次数: 0

GLTF扩展使用及开发指南

glTF 扩展扩展了基本 glTF 模型格式。扩展可以引入新的属性(包括引用外部数据的属性,并且扩展可以定义这些数据的格式)、新的参数语义、保留的 ID 和新的容器格式。扩展是针对特定版本的 glTF 编写的,并且可能会在更高版本的 glTF 中提升为核心 glTF。glTF广泛应用于Web上的3D展现,如果你需要将模型转换为glTF格式,可以使用NSDT 3DConvert的。
分类: 企业开发 发布时间: 09-12 04:29 阅读次数: 0

PBR纹理:金属流程 vs. 高光流程

PBR(基于物理的渲染)是一种着色范式,最近在游戏行业中越来越受欢迎。它使用尖端的照明计算。它尝试通过使用照明物理和实际材质值正确建模光线与表面的交互方式来生成更逼真的照明环境。我们现在拥有创建逼真阴影的动态光源,以及基于图像的照明,可在周围环境中提供正确的漫反射和镜面反射。PBR 材质现在有两种流程选择:镜面反射(PBR-Specular)和金属性(PBR-Metalliccular)。这样做的目的是让我们的用户可以将这些纹理导入到各种可访问的 3D 应用程序中。
分类: 企业开发 发布时间: 09-12 04:29 阅读次数: 0

PyRender离屏渲染快速教程

推荐:用快速搭建可编程3D场景Pyrender 是一个纯 Python(2.7、3.4、3.5、3.6)库,用于基于物理的渲染和可视化。它旨在满足 Khronos 的 glTF 2.0 规范Pyrender轻量、易于安装且易于使用。它配备了直观的场景查看器的离屏渲染器,支持无头服务器上的 GPU 加速渲染,这使其非常适合机器学习应用程序。查看用户指南以获得完整的教程,或者在 Github 上分叉这个仓库。
分类: 企业开发 发布时间: 09-12 04:29 阅读次数: 0

12个最受欢迎的3D打印机械臂【开源|DIY|套件】

推荐:用快速搭建可编程3D场景机器人手臂的用途各不相同,但大多数都能够执行拾取和放置任务,而有些则配备用于 CNC 工作、激光雕刻,甚至 3D 打印。机械臂具有广泛的应用和各个领域,从执行精密手术和进行工业操作,到用于学习和互动的有趣玩具。拥有自己的机器人手臂有多种选择,你可以简单地购买一个,或者使用 3D 打印机,轻松地自己设计和建造一个。这些 DIY 手臂可以定制和修改,同时具有成本效益。
分类: 企业开发 发布时间: 09-12 04:29 阅读次数: 0