本篇文章2022字,读完约5分钟
近日,由浙江大学-同盾科技人工智能联合实验室联合发布的《反思自下而上的基于查询的视频本地化框架》被列入2020年人工智能高层会议aaai,并被选为现场口头报告。值得一提的是,整个会议中口头报告的接受率只有5.9%。
本文提出了自下而上视频定位算法的创新,它超越了自上而下的sota(最先进的)模型算法,在解决视频剪辑的检索任务和改善现有自下而上模型的设计缺陷方面取得了新的突破。创新成果对未来视频内容检索、内容审查和合规风险控制管理系统的建设具有重要的应用价值。
自“浙江大学-同盾科技人工智能联合实验室”成立以来,双方在学术研究方面取得了重要成果。该联合实验室于2018年正式成立,由浙江大学计算机科学学院教授庄月婷和同盾科技创始人兼首席执行官蒋韬共同担任主任。
联合实验室的研究课题面向人工智能的基础技术,包括金融领域的联邦学习算法研究、风控制环境领域的自然语言处理、复杂网络中的异常检测方法、可视化内容理解和推理算法等。旨在突破智能分析与决策领域的基础理论和核心技术,并与金融、互联网、交通、政府和公共事务等领域相结合,推动产业智能升级。
纳入aaai 2020的这篇论文是联合实验室一系列重要成果的缩影。通过分析当前视频剪辑检索框架(自顶向下模型和稀疏自底向上模型)的优缺点,提出了一种全新的密集自底向上框架,可以避免现有框架的所有缺点。同时,研究团队设计了一个基于图体积的特征金字塔层来增强骨干网的编码能力。
以下是论文摘录的要点:
在基于查询的视频定位任务中,重新评估了自底向上网络框架的潜力,该框架在过去没有令人满意地执行。本文通过重新设计框架的主干网和头网,提出了具有密集预测的图-fpn模型,该模型在两种基于查询的视频定位任务上优于自顶向下的sota模型。
视频定位算法框架的现状
现有的视频定位算法可以分为两类:自顶向下和自底向上。自顶向下的方法将整个视频预切割成一系列候选短视频,然后对每个候选视频进行分类并返回;自底向上方法以查询和整个视频为输入,输出每帧的概率分布作为“开始/结束”标志。
尽管当前的自顶向下方法在性能上优于自底向上方法,但自顶向下模型有一些非常糟糕的局限性。首先,模型性能对时间尺度或候选数等启发式规则敏感;其次,为了提高模型的召回率,我们通常需要非常密集地选择候选短片,这导致自顶向下方法中的大量计算,导致定位速度慢。
为解决这些问题,提出了自下而上的方法。标准的自下而上的方法(如下图所示)由两部分组成:主干网和头网。前者通常使用共同注意或交叉选通机制将查询的语义与视频的每一帧相关联;骨干网的查询参考帧序列在被lstm/rnn编码后将进入头网络,lstm/rnn预测每帧视频作为“开始/结束”标签的概率。
图1标准自下而上的体系结构
作者认为目前自下而上的方法不如自上而下的方法的原因在于两部分网络设计的缺陷。
关于主干:
-主干仅使用rnn/lstm来模拟视频帧之间的关系,而忽略场景(一组帧)之间的关系;
低维特征向量主要用于骨干网,而自底向上框架需要更高维的语义信息用于视频定位。
关于总部网络:
-用“开始/结束”标记对视频的每一帧进行分类,现有数据的基本事实是一个极不平衡的数据集;
-在已知方法中,开始帧和结束帧的标记是独立的,这显然导致模型忽略截取的视频内容的一致性。
新的自下而上的模型图——具有密集预测的计划生育网络(国内生产总值)
本文提出的gdp模型分两部分进行了改进。下图是国内生产总值的详细说明。
图2国内生产总值模型的细节
在主干网中,为了增强主干网的表达能力,gdp引入了图-fpn层。首先,该层为查询参考帧序列构建金字塔层次结构,以更好地捕捉高维语义信息;然后,这些多尺度帧被映射到场景空空间,其中一个节点表示场景;最后,该图在该场景空之间滚动,以便有效地模拟场景之间的关系。
在头网中,gdp用密集预测代替了原来的稀疏分布预测:它把所有“开始/结束”标记之间的视频帧作为背景,其余的作为背景。同时,每一帧都将它的置信度作为边界。这样,解决了前面提到的自下而上模型中样本分布不均匀的问题。
多个测试集优于sota
在本文中,我们研究了两类任务,即自然语言视频重定位和视频重定位,这两类任务在多个数据集(tacos、than sota、activitynet题注和activity- vrl)上进行了测试,它们的性能都优于sota模型。以下是具体的表演。
表1自然语言视频定位任务:gdp模型在3个数据集的9个指标中获得8个最佳指标
表2视频重定位任务:gdp模型是六个指标中最好的
让我们看看头网络是否稀疏(见表3)。在多个任务的多个数据集中,使用密集头网络的模型通常具有更好的性能。
表3稀疏头网络模型与表3的比较
最后,让我们看看使用gdp模型的效果。我们可以得出这样的结论,国内生产总值总是处于这一基本事实的中间,这是一个很好的表现。
图3实验结果显示
来源:索菲亚回声报中文网
标题:浙江大学同盾科技AI联合实验室发表论文被AAAI 2020收录
地址:http://www.sjx0.com/hsbjw/7435.html