汪 鹏,张大蔚,陆正军,李林昊
(1.河北工业大学 人工智能与数据科学学院,天津 300401;
2.河北省大数据计算重点实验室(河北工业大学),天津 300401;
3.河北省数据驱动工业智能工程研究中心(河北工业大学),天津 300401;
4.军事科学院 国防工程研究院,北京 100036)
运动目标检测是视频处理的基础任务之一,同时也是目标追踪、行为识别等上层计算机视觉任务的预处理步骤。视频中的对象可以分为背景和前景两大类:背景指相对稳定不变的事物,例如房屋;
前景指具有运动显著性的目标,例如行人。运动目标检测的目的是提取视频中的前景。
近年来,低秩和稀疏表示常应用于运动目标检测任务,低秩-稀疏分解(Low-Rank and Sparse Decomposition,LRSD)和低秩矩阵因子分解(Low-Rank Matrix Factorization,LRMF)是两种主流的算法框架。二者的主要区别是分解形式不同:LRSD将视频同时分解为低秩背景和稀疏前景,两种成分交替优化,直到分解完成,例如鲁棒性主成分分析(Robust Principal Component Analysis,RPCA)[1-2];
LRMF 重点关注背景恢复,用两个低秩矩阵的乘积表示背景,其余成分(前景和干扰成分)视为离群噪声,再通过其他约束从中提取前景,其中的权重项起到修正背景的作用,从而使模型恢复出更准确的背景。
对于前景建模,普遍的改进策略是对前景施加空间平滑约束和时间连续约束。文献[3-4]中提出采用3D 全变分(Total Variation,TV)范数,在时空维度上约束前景;
Zhu 等[5]采用2D TV 范数作为空间连续性的正则化项;
Liu 等[6]将传统的l1范数替换为组稀疏诱导范数;
在此基础上,Zhang等[7]加入了噪声建模的工作;
马尔可夫随机场(Markov Random Field,MRF)是一种常用的约束稀疏性和空间连续性的方法[8-9],在消除动态背景和增强前景完整性方面表现出了良好性能。
对于背景建模,主要有两种改进方案。针对核范数不能准确逼近秩函数的问题,研究人员提出多种核范数的变体[10-12]:在LRMF 中,文献[13]利用混合高斯分布建模复杂噪声(背景减除后的残差)形成能进一步修正背景的权重,从而降低离群噪声对背景估计的干扰;
Li 等[14]提出广义自适应阈值收缩算子来自适应且准确地稀疏奇异值,从而比常用的收缩算子在估计低秩背景方面具有更高的性能。但是,上述研究工作往往忽略了低秩矩阵的秩对移动目标检测任务的影响。秩数即矩阵秩的数值控制着视频背景的相关强度。随着秩数的增大,背景模型能捕捉更多的动态背景;
反之,背景模型会尽可能消除前景。所以,秩数很难平衡这两方面。这也制约了现有的模型检测精度的提升。
针对以上问题,部分研究者利用光流法提取的运动信息构造独立于秩的权重项[15-16],进一步促进前景和背景的分离。然而,光流法的计算复杂度高,其效果受限于严格的假设条件,也无法适应间歇性运动。本文提出一种新的解决思路。传统LRMF 中,噪声的形成涉及与秩数有关的背景迭代解,所以不合理的秩数才可能导致噪声建模失效,进而权重难以发挥修正背景的作用。本文设计了一种可靠性低秩矩阵因子分解模型(Reliability Low-Rank Matrix Factorization,RLRMF),其中的权重不受秩数的制约,携带了运动信息即持续性运动信息和间歇性运动信息,且可描述前景与背景之间的差异。构建权重的过程并不复杂且无严格的限制性假设。另外,部分研究工作对前景的时间和空间约束采用联合优化的方式,增加了算法的时间复杂度。所以,本文对前景依次施加时间和空间约束,降低了优化过程的时间开销。
本文主要的工作如下:
1)提出一种可靠性低秩矩阵因子分解模型用于综合背景的估计(含有动态背景)。权重的构建仅依靠中值静态背景和噪声建模的结果,使权重和秩数相互独立,形成的权重更为可靠且携带前景的运动信息。此外,综合背景的秩处于较高的数值范围。因此,该模型既能适应间歇性运动,也可准确刻画动态背景进而降低其对前景检测的干扰。
2)在时间约束方面,针对直接最小化相邻前景帧的距离会扩增前景边缘的问题,同时考虑到相邻视频帧的差异性,提出泛化差异性差分约束来更准确刻画前景的时间连续性。具体而言,将相邻原始帧的差分建模结果作为附加条件,即赋予前景边缘和其他差异较大位置一个较小的权重,减小执行时间连续约束时的误差。
3)在静态背景建模方面,针对中值背景模型无法适应间歇性运动的问题,提出一种基于偏态分布的中值背景模型,利用偏态分布的性质选取不含或含有少量前景像素的子序列,降低了离群值对中值的干扰,所以计算该子序列的中值可估计出干净的静态背景,有助于前景模型捕捉间歇性运动的目标。
4)在噪声建模方面,考虑到噪声呈偏态分布,对称的概率分布不适合对该类噪声建模;
同时,噪声中包含较多的离群值,高斯分布对离群值更为敏感,也无法逼近真实的噪声分布。鉴于此,提出基于非对称拉普拉斯分布的噪声模型。
给定连续n帧的视频序列,然后将所有帧向量化为列向量再重组为观测矩阵D∈Rm×n,其中m=height×width,height和width分别表示视频帧的高度和宽度。低秩背景B∈Rm×n可以通过如下LRMF 模型来获得:
其 中:U∈Rm×r和V∈Rr×n是低秩矩阵,r为秩数且r≪min{m,n}。W是与噪声D-UV有关的权重矩阵。权重值与噪声强度呈负相关。在获取U和V的最优解后,利用背景减除获得噪声,最后通过稀疏约束或结构化约束提取前景。
视频中的光照变化、动态背景和前景等非稳定因素都会使噪声变得十分复杂,而混合分布在理论上能拟合任意的复杂未知分布。所以,Meng 等[13]在低秩背景建模的同时,利用混合高斯分布建模复杂噪声。此后,在低秩因子分解过程中,Cao 等[17]提出基于混合幂指分布建模的LRMF[18]和受马尔可夫随机场约束的混合幂指分布。Yong 等[19]提出在线更新的混合高斯分布(采用TV 范数提取前景),通过混合噪声模型推导出LRMF,其中的权重由混合分布的参数构成且表示了图像中各位置受噪声影响的程度。
本文模型涉及三个部分:首先,基于偏态分布的中值背景模型可估计出干净的静态背景;
然后,利用非对称拉普拉斯分布建模静态背景减除后的偏态噪声,将经TV 范数平滑后的噪声建模结果作为可靠性低秩因子分解模型的权重,该因子分解模型用以估计综合背景(含动态背景);
最后,通过泛化差异性差分和组稀疏诱导范数提取前景。
2.1 基于偏态分布的中值背景模型
传统中值背景建模的步骤是:在固定时间内,分别计算每个位置的像素序列的中值,最后获取静态背景。在统计学上,虽然中值相较均值更能抵抗离群像素的干扰,但在前景发生间歇性运动或慢运动时,被前景遮挡的位置积累了大量的离群像素,导致部分或全部前景也会被错误估计成背景。本文的改进思路是:在有序排列的像素序列中,选取一个不含或少量含有前景像素的稳定序列;
然后,计算稳定序列的中值。依次选取和计算m个像素序列会增大时间开销。本文利用均值将m个有序序列融合为一个新的序列h∈R1×n,通过计算h的稳定序列间接找到m个原始序列的公共稳定序列,减少了时间消耗。
对于不同场景,h中的元素可形成单峰分布或多峰复杂分布,但本文将它简单视为偏态分布:前景像素作为离群值,位于整个分布的尾部;
背景像素相对更稠密且聚集在分布的最高峰附近。若整体为左偏分布,说明大量前景像素积累在整体分布的左侧,那么稳定序列会在最高峰位置的右侧;
若整体为右偏分布,也同理。
本文首先利用混合高斯模型给出h中元素分布的概率密度函数,并计算函数的峰值位置p,混合分布的参数采用常用的期望最大算法求解[13];
其次,利用偏态分布中均值和中值的相对位置关系判断分布的偏态性;
然后,以p为中心、q为搜索半径,定位到公共稳定序列所在的区间;
最后,计算稳定序列的中值。完整的流程如算法1 所示。
算法1 基于偏态分布的中值背景算法。
输入 观测矩阵D∈Rm×n,搜索半径q;
输出 静态背景b∈Rm×1。
综上,本文创造性地利用像素分布的偏态性,基本消除了大量前景离群像素对中值估计的干扰,最终生成干净的静态背景;
而且,在基于偏态分布的中值背景建模中,本文利用均值融合了m个有序序列,有利于加速静态背景的估计。
2.2 基于噪声分析的可靠性低秩因子分解模型
算法1 获取的静态背景是列向量,它还需要按列的方向扩展成为静态背景矩阵Bst∈Rm×n,再通过减除法获取复杂噪声矩阵,即
这种噪声分布也具有偏态性,而且大量的稠密噪声聚集在数值0 附近。简单的对称分布或主流的混合对称分布无法有效拟合偏态分布;
同时考虑到噪声中含有较多的离群值,所以本文采用均值为0 的非对称拉普拉斯分布建模这种噪声,它的概率密度函数如下:
其中η和βη分别是左右两侧的尺度参数。当β=1 时,该分布退化为拉普拉斯分布。该分布的对数似然函数如下:
本文采用极大似然估计法交替求解出η和β。对于η,通过对式(4)求一阶偏导并置为0,获取它的解
其中:如果Eij<0,θij=1;
否则θij=0。对于β的更新,首先对式(4)计算一阶偏导并置为0,即
其次,将求解β的问题转换为求解方程f(β)=0 的问题:
函数f对β的导数为,所以函数f必有零点。可用牛顿迭代法计算β的数值解β(t+1)。
在噪声建模完成后,需要构造可靠性低秩因子分解模型的权重W∈Rm×n。目前研究人员将光流法提取的运动信息整合为权重项[15-16],以促进前景和背景的分离。然而,一方面,光流法所要求的假设条件在现实中难以满足且计算复杂度高;
另一方面,光流法仅能提取持续性运动的前景信息,无法适应间歇性运动的情况,而噪声E自然携带了视频的运动信息即持续性运动和间歇性运动信息,并且可描述前景与背景之间的差异,其建模过程并不复杂,因此可用E的建模结果形成可靠性权重。具体而言,该权重矩阵由非对称拉普拉斯分布的概率密度值构成,具体表达如下:
其中:η*和β*是已估计出的分布参数。MinMax(·)是最大最小归一化方法,将概率密度值放缩到[0,1]区间。是2D 全变分(TV)范数的近端算子[5],增强了各密度值在空间上的连续性,可利用快速梯度投影法求解[20]。本文需要将W的每列重新展开到原始的二维空间上再执行该算子。是硬阈值算子,用来稀疏与前景对应的小权重,从而进一步降低前景对背景估计的干扰。以下是可靠性低秩因子分解的数学表达:
其中:B∈Rm×n表示综合背景(含有动态背景),本文通过等式B=UV约束了背景的低秩性;
W为可靠性权重矩阵。通过经空间平滑后的噪声E(干净静态背景减除结果)建模结果形成了不受秩影响的权重,同时综合背景矩阵的秩维持在较高数值范围,故可靠性低秩因子分解模型可估计干净的、含有背景细节特征(动态背景)的综合背景,有利于缓解动态背景对前景检测任务的干扰。需要强调的是,在可靠性权重的表达式中,E是静态中值背景的减除结果,而基于偏态分布的中值背景算法可估计出干净的静态背景且不需要严格的条件假设;
此外,本文假设噪声E服从特定分布,这仅是对噪声分布的描述同时也是将噪声转化为权重的步骤之一,而E本身已具有描述前景和背景差异的能力,因此这种分布假设并不限制综合背景的估计。相较于由光流信息所形成的权重,本文的权重具有不受严格假设条件限制的优势,能够适应地解决间歇性运动的问题。
式(9)定义了一个线性约束下的凸优化问题。本文采用交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)。利用增广拉格朗日乘子去掉式(9)中的等式约束,获取增广拉格朗日优化问题为:
其中:Z∈Rm×n为拉格朗日乘子,μ>0。
对于V、U和B,可通过在式(10)中分别对这3 个变量求一阶偏导并置为0,获取它们的闭式解:
另外,拉格朗日乘子Z和μ的更新如下:
ADMM 迭代求解的停止准则为达到最大迭代次数或者满足不等式。本文设置最大迭代次数为80,ε=1E-5。
2.3 基于泛化差异性差分的时间约束
前景的持续运动导致了相邻帧在前景边缘处的像素距离增大。所以,约束前景的时间连续性时,直接最小化这两帧的距离会使前景的边缘处发生较大估计误差,即检测到的前景边缘处出现扩增现象。换言之,直接最小化相邻两帧的一阶差分(例如TVRPCA)并非是合理的时间约束方法。
为避免出现以上问题并设计更合理的时间约束项,本文在距离度量中引入相邻视频帧的差异信息。该信息由相邻原始视频帧的差分建模结果表示并形成差异性矩阵,该矩阵包含了相邻原始视频帧上各位置的相似度。在约束前景的时间连续性时,可通过这种相似度调整约束力度,即提高前景内部的时间约束力度,同时降低前景边缘的估计误差。离群噪声基本位于前景边缘且占据较小的比例,因而选用高斯分布建模。为了简化计算,时间和空间约束可以依次执行。
在可靠性低秩因子分解模型获取综合背景B后,本文通过背景减除获得噪声成分H∈Rm×n,再对H中的前景成分施加基于泛化差异性差分的时间约束,即
其中:S∈Rm×n是经时间约束后的前景;
S:k-1和S:k分别是S的第k-1 列和第k列。M∈Rm×n是差异性矩阵,M:k是M的第k列。该矩阵的表达式为:
其中:S"∈Rm×n是经Ω(⋅)约束的前景。S"的第k列(S")k∈Rm×n包含m个元素,索引为{1,2,…,m}。将(S")k重新排列成一幅完整的图像,它的像素可通过步长为1 的滑动窗口划分成互相重叠的分组,本文选取3×3 大小的滑动窗口。表示S"的第k列中的第g个重叠组。‖⋅‖∞表示无穷范数即计算每组中最大绝对值。Ω(⋅)可看作是各组无穷范数的l1范数约束,它迫使同组内的像素具有相似的值并保持稀疏性,从而保证前景检测的完整性。式(21)需转换成二次最小代价流的问题来求解[7]。在实验中,式(21)可直接调用稀疏工具包Spams 中的ProximalGraph 函数求解。由于时间和空间约束被依次执行,故此时可启动该函数的并行计算功能,加速各帧前景的估计。
2.4 本文模型的总体流程
本文将背景与前景依次建模,总体的流程为三部分,如图1 所示。
图1 总体建模流程Fig.1 Overall modeling process
1)静态背景建模:以观测视频D为输入,基于偏态分布的中值背景模型估计出干净的静态背景b。
2)基于噪声分析的综合背景建模:由b获取偏态噪声E后,基于非对称拉普拉斯分布的模型对E进行建模,并利用TV 范数和硬阈值算子分别约束噪声建模结果的空间平滑性和稀疏性,以此获得可靠性低秩因子分解模型中结构化的权重,执行低秩因子分解以获取综合背景B。
3)结构化前景建模:分别执行基于泛化差异性差分的时间约束和基于组稀疏诱导范数的空间约束提取噪声(D-B)中的前景成分。
3.1 仿真实验
为验证本文算法的视频建模性能,在I2R数据集[21]的9段视频中进行测试,并与PCP(Principal Component Pursuit)[1]、DECOLOR(DEtecting Contiguous Outliers in the Low-Rank Representation)[8]、LSD(Low-rank and structured Sparse Decomposition)[6]、TVRPCA(Total Variation regularized RPCA)[3]、E-LSD(Extended LSD)[7]和GSTO(Generalized Shrinkage Thresholding Operator)[14]算法从客观评价指标和检测的视觉效果两方面进行比较。本文算法、LSD和E-LSD的实验环境是Linux 系统中的Python3.7,其余算法的实验环境是Matlab 2014b。设备配置为Intel Core i9-10900X CPU和128 GB RAM。
在仿真实验中批量处理连续的220 帧。鉴于所提算法的超参数数量较多且各超参数可能会存在依赖关系,因此本文采用贝叶斯调参工具来设置各超参数数值或最佳取值范围。本文算法的各项参数如下:q∈{10,50},r=10,λ1=0.2,λ2∈{0.05,0.15},λ3=1,λ4=0.3,λ5∈[0.02,0.09]。
不同算法的可视化检测效果对比如图2 所示。视频WaterSurface 和Fountain 的背景均含有水的非刚体运动;
Curtain 中含有摇摆的窗帘;
Campus的背景是大面积的晃动树叶;
Escalator 是自动扶梯的监控场景,这种动态背景非常容易误检为前景;
Lobby 视频中的目标会有较长时间的停留;
其余三个视频都是静态背景且或多或少存在间歇性运动的目标。
图2 不同算法针对不同视频序列的实验结果比较Fig.2 Experimental results comparison of different algorithms for different video sequences
由图2 分析比较可知,PCP 受动态背景的干扰最为严重,提取到的前景掺杂较多的噪声,因为它只是对前景施加了简单的稀疏约束。另外,WaterSurface 和Curtain 中前景在某段时间内的运动幅度较小或处于短暂停留,这增大了检测难度。而PCP 无法应对这种情况,提取的前景出现大面积缺失。其余对比算法在这两段视频中的性能有不同程度的改善,但前景也会存在较多缺失。而本文算法能较为完整地提取这类复杂运动的前景。DECOLOR 虽然可消除动态背景干扰,但会过度平滑前景边缘。LSD 和E-LSD 都使用了组稀疏诱导范数约束前景的空间连续性,前者提取到的前景较为完整,但消除动态背景方面表现欠佳;
而后者以及TVRPCA 的表现与其相反。GSTO 利用灵活的奇异值收缩算子恢复静态背景,再以字典学习方法更加细致刻画动态背景,最后在时空邻域上引用MRF,相较于其他对比算法,该算法提高对动态背景干扰的抑制能力,与E-LSD 相比,进一步捕捉间歇性运动的前景。然而,在Lobby 视频中,GSTO 捕捉间歇性运动前景的能力依然有限,而且前景边缘的提取较为粗糙。本文算法不必引入其他动态背景建模方法,仅通过调高秩数将动态成分纳入所估计的背景中,简化了建模过程,并借助可靠性权重细致修正背景,因而不仅能消除或降低动态背景的干扰,而且能提取更完整、边缘更精细的前景。在Lobby 视频中,本文算法与LSD 能基本提取到较长时间停留的前景,且提取效果接近。TVRPCA 和本文算法均引入了空间和时间连续约束,前者采用3DTV 范数约束了视频在水平、竖直和时间方向上的连续性,虽然能有效抑制动态背景,但前景检测结果中出现了较多的缺失;
后者结合组稀疏诱导范数和泛化差异性时间差分,既能强有力地约束空间连续性,而且有效刻画了前景的时间连续性,最终提取更完整的前景。
3.2 量化对比及分析
为了定量评估各算法的性能,本文使用查准率(Precision,P)、查全率(Recall,R)以及它们的调和平均数F-measure 来评价检测效果。查准率和查全率的定义如下:
其中:TP表示检测到的正确前景像素数量,FP表示错检为前景的背景像素数量,FN表示错检为背景的前景像素数量。查准率可衡量算法的抗干扰性,而查全率考量的是算法的前景提取能力。为综合考虑算法的检测效果,可采用二者的调和平均数,即
表1 是不同算法在5 个含有动态背景的视频中查全率、查准率和F-measure 的对比结果。在WaterSurface 视频中,动态背景是起伏的海浪。大多数算法的F-measure 值在0.90 左右,说明该视频的检测难度较小。相较于具有强竞争力的GSTO,本文算法在轻微损失查全率的情况下,有效提高查准率,从而增强了算法的抗干扰性。与次优算法GSTO 相比,本文算法的F-measure 提高了约1 个百分点。
表1 不同算法的指标对比Tab.1 Indicators comparison of different algorithms
在Fountain 视频中,动态背景是喷泉。本文算法、GSTO、DECOLOR 和E-LSD 的查准率均在0.85 以上,说明其中动态背景具有较弱的干扰性,大多数算法均可对其抑制。从查全率来看,GSTO 等5 个对比算法的结果在0.85 以下。本文算法在这两个指标上表现均衡且均在较高水平,因而获得最优的F-measure 值。与次优算法GSTO 相比,本文算法的F-measure 提高了约1 个百分点。
在Curtain 视频中,动态背景是飘动的窗帘,而且前景出现较长时间的驻足状态。从查准率来看,DECOLOR 获得最优结果,E-LSD 获得次优结果,GSTO 的结果略低但也达到了0.93,说明这些算法(包括本文算法)可适应抵抗飘动窗帘的干扰。从查全率来看,仅有本文算法和LSD 的结果在0.90以上,也说明了其中驻足的前景难以被准确提取。虽然GSTO 和本文算法的F-measure 均达到了最优0.91,与次优算法LSD 相比,提高了约6 个百分点,但是本文算法的查准率和查全率更为均衡。
在Campus 视频中,动态背景是大面积摇摆的树叶,其呈聚集分布。从查准率来看,这给前景提取造成非常强烈的干扰,TVRPCA 获得了最优的结果0.91,GSTO 的结果达到次优值0.90,而本文算法的结果位列第三。从查全率来看,DECOLOR 和E-LSD 均取得了最优值0.91,LSD 和本文算法的结果为次优值。但是,由于本文算法表现出的均衡性,故其获得了最优的F-measure 值0.85。与次优算法GSTO 相比,本文算法的F-measure 提高了约4 个百分点。
在Escalator 视频中,动态背景是运行的自动扶梯,相较于摇摆的树叶,更具干扰性。TVRPCA 获得了最优的查准率0.82,GSTO 获得次优值0.75,大多数算法的结果均在0.70以下。从查全率来看,DECOLOR 获得了极为突出的结果0.95,但也能看出其表现非常不均衡,本文算法获得了次优的结果0.87。此外,从GSTO 和本文算法的对比发现,在该视频中,二者侧重于不同方面,前者的抗干扰性较高,而后者的前景提取能力较强。但是,从F-measure 来看,本文算法的综合能力更占优。与次优算法TVRPCA 相比,本文算法的F-measure 提高了约1 个百分点。
通过对表1 的详细分析可知,大多数对比算法的查全率和查准率并不均衡。例如,LSD 和DECOLOR 的查全率普遍高于查准率,说明其更侧重提取前景;
TVRPCA 和E-LSD 的查准率普遍高于查全率,说明其更侧重抑制动态背景。然而对于前景检测任务而言,抗干扰性和前景提取能力同等重要。GSTO 在这两个指标上的表现较为均衡,且F-measure 基本处于次优值,所以具有更强的竞争性。本文算法不仅在5个含有不同动态背景的视频中获得最优的F-measure 值,而且相较于所列的对比算法,其查准率和查全率的数值更为接近且处于较高水平(除Escalator 视频外),即本文算法的抗干扰性和前景提取能力均较强,这也是本文算法的F-measure达到最优值的主要原因。
本文提出一种基于可靠性低秩因子分解和泛化差异性差分的运动目标检测模型。在背景建模方面,本文以低秩因子分解为基础,通过基于偏态分布的中值背景模型获得干净的静态背景;
以非对称拉普拉斯分布建模偏态噪声,可靠性低秩因子分解中的权重来自经空间平滑后的噪声建模结果,提高了矩阵因子分解模型的稳定性和背景估计的准确度。在前景检测方面,泛化差异性差分项更合理约束前景的时间连续性并消除了前景边缘扩增的潜在问题。实验结果表明,与基准算法以及近年来的算法相比,本文算法在综合评价指标和视觉效果上都具有较强的优势,可在降低动态背景干扰的同时也能更精确检测出间歇性运动的前景,提取到的运动前景更具完整性。