基于注意力机制U8国际 U8国际官方网站 体育APP下载的视频哈希检索方法
栏目:U8体育 发布时间:2025-07-05
  u8,u8国际,u8国际官方网站,u8国际网站,u8国际网址,u8国际链接,u8体育,u8体育官网,u8体育网址,u8注册,u8体育网址,u8官方网站,u8体育APP,u8体育登录,u8体育入口   1.一种基于注意力机制的视频哈希检索方法,其特征在于该方法包括以下步骤:   (1)视频预处理:对视频帧

  u8,u8国际,u8国际官方网站,u8国际网站,u8国际网址,u8国际链接,u8体育,u8体育官网,u8体育网址,u8注册,u8体育网址,u8官方网站,u8体育APP,u8体育登录,u8体育入口

基于注意力机制U8国际 U8国际官方网站 U8体育APP下载的视频哈希检索方法

  1.一种基于注意力机制的视频哈希检索方法,其特征在于该方法包括以下步骤:

  (1)视频预处理:对视频帧进行采样,并构建视频对,视频对包括同一类的视频对和不

  同类的视频对,同一类的视频对为正样本对且标签为1,不同类的视频对为负样本对且标签

  (2)视频帧特征提取:将视频采样后的每一帧输入卷积神经网络VGG19,取倒数第二层

  (3)利用孪生网络、长短期记忆神经网络LSTM和注意力机制对视频进行学习:将视频对

  中的两个视频分别输入孪生网络的两路神经网络,分别得到两个视频对应的视频特征表

  示,其中,孪生网络的两路神经网络是参数共享的,且每一路神经网络都是LSTM和注意力机

  制构成的网络,利用注意力机制,可以区别不同帧的重要性,不同帧被赋予不同的权重;

  (4)降维和训练:利用全连接层对视频特征进行降维,得到想要长度的哈希码,并使用

  (5)检索:当网络训练完成后进行检索时,只利用孪生网络中的一路网络,将一个视频

  输入到一路网络中,输出该视频对应的值为‑1到+1的近似哈希码,然后通过量化得到该视

  频的哈希码,并通过计算该视频的哈希码与其他视频哈希码之间的海明距离对候选视频进

  2.如权利要求1所述的一种基于注意力机制的视频哈希检索方法,其特征在于:所述步

  ③构建视频对,包括同类的样本对和不同类的样本对,同类视频对和不同类视频对的

  比例是1:1,构造视频对时,随机选择一个视频,然后从余下的视频中随机选取一个同类的

  视频,随机选取一个不同类的视频,这样可以构造一个正样本视频对和一个负样本视频对。

  3.如权利要求1所述的一种基于注意力机制的视频哈希检索方法,其特征在于:所述步

  4.如权利要求1所述的一种基于注意力机制的视频哈希检索方法,其特征在于:所述步

  ②将每个视频输入到长短期记忆神经网络LSTM中,得到每一个时间步的输出;

  ③利用注意力机制计算每一个时间步输出的向量的权重,并对每一个时间步得到的输

  出进行加权求和,得到视频的整体特征表示,具体实现方法为:LSTM每个时间步都会接收一

  个视频帧作为输入,并产生一个输出,将每个时间步产生的输出作为注意力机制的输入,通

  过计算得到每个时间步的权重,再对每个时间步的输出进行加权计算,得到最后的视频表

  其中,h为所有LSTM时间步输出的向量拼接成的向量,W为权重矩阵,tanh为双曲正切激

  活函数,α为r经过softmax函数得到的权重,H为所有LSTM时间步输出的向量组成的矩阵,s

  5.如权利要求1所述的一种基于注意力机制的视频哈希检索方法,其特征在于:所述步

  6.如权利要求1所述的一种基于注意力机制的视频哈希检索方法,其特征在于:所述步

  ①将一个视频输入到孪生网络的一路网络中,然后得到该视频对应的值为‑1到+1的近

  ②然后通过量化将小于0的值量化为‑1,其他值量化为+1,这样就得到该视频的哈希

  ③通过计算和其他视频哈希码之间的距离来对候选视频进行排序,得到最相近的视

  视频。著名的图片分享网站Flickr,每分钟有3000张图片被上传上传;视频分享网站

  YouTube,每分钟上传的视频时长高达100小时。因此,如何对海量的多媒体信息进行检索是

  一个热点话题。从前我们主要通过关键字对图片和视频进行检索,但这往往会检索出我们

  不想要的结果。基于这个原因,基于内容的检索被提了出来。哈希方法由于其优点,即检索

  迅速和节省空间,在近年来成为一个热门的研究方向。哈希方法通过将图片或者视频映射

  成紧凑且离散的二值码(通常是0和1或者‑1和1),即哈希码,在海明空间中通过异或运算来

  计算样本之间的海明距离,通过海明距离来决定检索的结果。由于哈希码是紧凑的,所以存

  储空间得以大大减小。而海明距离的计算极为迅速,所以检索的速度也得到了保证。

  提取,得到每张图片的特征。然后对特征进行哈希映射。最后将连续的值映射成离散的哈希

  码。哈希方法分为有数据独立的方法和数据依赖的方法。数据独立的方法是指哈希方法不

  而视频与图片有很大的不同。在图片哈希中,我们只考虑空间信息。所以只提取图

  片的空间信息就足以表示图片的特征。而视频每一帧是一张图片,并且同时有很多帧,这些

  帧就是一个时间序列。每一帧和图像一样,包含空间信息,而帧所组成的时间序列则具有时

  序信息。由于视频同时具有每一帧的空间特征及帧之间的时序信息,所以在对视频进行处

  理时,既要考虑空间信息,又要考虑时序信息。空间信息一般使用卷积神经网络来进行提

  视频帧同等考虑,而不去考虑不同视频帧对于视频在重要性上的差异。本发明针对现有视

  频哈希方法的不足,提出了一种基于注意力机制的视频哈希检索方法,通过利用注意力机

  制,可以区别不同帧的重要性,不同帧被赋予不同的权重,由此得到的视频特征表示更加准

  确。相邻视频帧往往有着极大地相似性,所以没有必要在对视频进行处理时,使用所有的视

  频帧,可以采用采样的方法,从视频中对视频帧进行采样,来降低视频帧的数量,从而减小

  计算复杂度。同时,本发明利用卷积神经网络和循环神经网络,同时获取空间特征和时序特

  征,大大提高了视频特征的表示能力。除了利用注意力机制来获得良好的视频表示,本发明

  位不相关损失,因此大大提高了哈希码的表示能力。通过设置最大间隔损失,使得不同类视

  频之间的距离大,相同类之间的距离小;同时,通过设置一个阈值,可以再一定程度上降低

  过拟合的风险。通过设置位平衡损失,使得生成的哈希码中的‑1和+1(或者是0和1)数量尽

  可能的相近,这可以提高哈希码的表示能力。通过设置位不相关损失,哈希码的每一维度都

  是高度不相关的,降低了哈希码中的冗余,使得哈希码中的每一位都是有用的,这对哈希码

  的表示能力提高很大,并且哈希码越短,位不相关损失越重要,应该越小越好。与现有技术

  (1)视频预处理:对视频帧进行采样,并构建视频对,视频对包括同一类的视频对

  即正样本对和不同类的视频对即负样本对,同一类的视频对的标签为1,不同类的视频对标

  (3)利用孪生网络、长短期记忆神经网络LSTM和注意力机制对视频进行学习:将视

  频对中的两个视频分别输入孪生网络的两路神经网络,分别得到两个视频对应的视频特征

  表示,其中,孪生网络的两路神经网络是参数共享的,且每一路神经网络都是LSTM和注意力

  机制构成的网络,利用注意力机制,可以区别不同帧的重要性,不同帧被赋予不同的权重;

  (4)降维和训练:利用全连接层对视频特征进行降维,得到想要长度的哈希码,并

  (5)检索:当网络训练完成后进行检索时,只利用孪生网络中的一路网络,将一个

  视频输入到一路网络中,输出该视频对应的值为‑1到+1的近似哈希码,然后通过量化得到

  该视频的哈希码,并通过计算该视频的哈希码与其他视频哈希码之间的海明距离对候选视

  对的比例是1:1,构造视频对时,随机选择一个视频,然后从余下的视频中随机选取一个同

  类的视频,随机选取一个不同类的视频,这样可以构造一个正样本视频对和一个负样本视

  ①对每一帧利用卷积神经网络VGG19进行特征提取,取倒数第二层全连接输出的

  ②将每个视频输入到长短期记忆神经网络LSTM中,得到每一个时间步的输出;

  的输出进行加权求和,得到视频的整体特征表示,具体实现方法为:LSTM每个时间步都会接

  收一个视频帧作为输入,并产生一个输出,将每个时间步产生的输出作为注意力机制的输

  入,通过计算得到每个时间步的权重,再对每个时间步的输出进行加权计算,得到最后的视

  [0026] 其中,为所有LSTM时间步输出的向量拼接成的向量, 为权重矩阵,tanh为双曲

  正切激活函数, 为r经过softmax函数得到的权重, 为所有LSTM时间步输出的向量组成

  的矩阵,s为LSTM所有时间步输出对 的加权和,也就是经过注意力机制后的视频表示。

  ①将一个视频输入到孪生网络的一路网络中,然后得到该视频对应的值为‑1到+1

  ②然后通过量化将小于0的值量化为‑1,其他值量化为+1,这样就得到该视频的哈

  上述方法首先对视频进行预处理,然后利用CNN提取视频中采样的帧的空间特征,

  再利用LSTM和注意力机制来获取视频的时序特征,最后通过全连接层来得到视频的哈希

  同帧不同的权重,大大提高了视频特征的表示能力。同时,采用抽样的方法降低了视频帧的

  图3是在HMDB51数据集上的PR图:(a)哈希码长度为32的PR图,(b)哈希码长度为48

  ⑤将每一帧都调整为相同大小的帧,例如将每一帧都调整为224*224大小;

  对的比例是1:1。构造视频对时,随机选择一个视频,然后从余下的视频中随机选取一个同

  类的视频,随机选取一个不同类的视频,这样可以构造一个正样本视频对和一个负样本视

  如图1,利用CNN网络(VGG19)对视频帧进行特征提取,取倒数第二层全连接输出的

  如图1和图2,利用LSTM网络和注意力机制学习视频帧之间的时序信息,得到视频

  的特征表示。LSTM每个时间步都会产生一个输出。在本发明中,每个时间步代表一个视频

  帧,每个视频帧对应于LSTM每个时间步的输出。将每个时间步的输出拼接成一个向量,经过

  计算后可以得到每个时间步的权重,然后计算每个时间步输出的加权和。具体计算过程如

  [0051] 其中,为所有LSTM时间步输出的向量拼接成的向量, 为权重矩阵,tanh为双曲

  正切激活函数, 为r经过softmax函数得到的权重, 为所有LSTM时间步输出的向量组成

  的矩阵,s为LSTM所有时间步输出对 的加权和,也就是经过注意力机制后的视频表示,如

  对上一步得到的输出进行降维,如图1所示。对前面得到的1024维特征进行降维,

  经过三层全连接层,前两层维度分别为512和256,最后一层全连接层的维度为哈希码的长

  度。经过三层全连接层降维后,得到哈希码的维度。然后将两个视频得到的哈希码输入到损

  [0055] 为间隔分类损失, 为位平衡损失, 为位不相关损失。其中, 为间隔,控制

  的大小;为训练样本经过神经网络得到的输出组成的矩阵;为训练样本总数;β和γ为超

  [0059] 和 为第i个视频和第j个视频经过网络得到的输出(第i个视频和第j个视频构

  成一个视频对), 为哈希码的长度, 为视频对的标签,若两个视频属于同一类,则

  此时网络已经训练完成。在进行检索时,只利用孪生网络中的一路网络,将一个视

  频输入到一路网络中,输出该视频对应的值为‑1到+1的近似哈希码。然后通过量化将小于0

  的值量化为‑1,其他值量化为+1,这样就得到该视频的哈希码。通过计算和其他视频哈希码