为了探索神经网络识别和预测运动的能力,由 Hehe Fan 领导的一组研究人员开发并测试了一种基于编码为一系列向量的位置相对变化的深度学习方法,发现他们的方法比现有方法效果更好运动建模框架。该小组的主要创新是将运动与位置分开编码。
该小组的研究发表在 2 月 15 日的科学合作期刊《智能计算》上。
在运动识别测试中,新方法 VecNet+LSTM 的得分高于视频研究领域的其他六种人工神经网络框架。其他一些框架只是较弱,而另一些则完全不适合建模运动。
(资料图片)
当与用于运动预测的常用 ConvLSTM 方法进行比较时,新方法更准确,需要更少的训练时间,并且在进行额外预测时不会很快失去准确性。
该论文得出结论:“对相对位置变化进行建模对于运动识别是必要的,并且可以使运动预测更容易。”
这项研究为视频分析的机器学习提出了未来的方向,因为运动识别和物体识别是识别动作的基础。换句话说,即使神经网络可以识别门,如果它不能学习“开”的动作,那么它就不能学习开门的动作。该方法也有望用于视频预测,尽管它处理的是单个点的运动而不是整个系统的运动。
对于试图通过整合不同形式的知识来构建世界整体图景的人工智能方法来说,一个好的运动模型是必不可少的。换句话说,如果神经网络无法学习运动,那么它就无法学习物体的特征动作,例如开门。
研究人员将运动视为一系列箭头或“矢量”,每个箭头或“矢量”都有一定的长度,指向某个方向。他们实验中的每个向量都可以被认为是一对图像帧,显示一个小白点在一个单位时间内在黑色表面上移动的“之前”和“之后”位置。矢量也可以被认为是一对两个数字,表示二维运动,水平运动和垂直运动。
研究人员的神经网络 VecNet 首先必须从一系列示例中学习提供给它的“之前”和“之后”帧如何改变白点的位置。有单独的 VecNet 组件可以学习点的起始位置、水平移动、垂直移动和最终位置。
由于一个向量不足以进行运动识别,因此引入了另一个组件来随着时间的推移将向量加在一起。这种“长短期记忆”组件可以记住多个单独的动作,从而猜测下一个或多个动作步骤是什么,因此可用于动作预测和动作识别。因此,用于识别和/或预测运动的组合系统称为 VecNet+LSTM。
使用向量的优势在于它们以最抽象的字典意义表示运动和速度:它们显示了一段时间内对象位置的变化量,与空间环境中的任何坐标集分开。因此,例如,如果白点在黑色表面的左上角绕圈移动,网络可以将这种情况识别为与白点在右下角绕圈移动的情况有些相同的黑色表面。
该论文的作者是新加坡国立大学的范赫赫、齐鲁工业大学的卓涛、清华大学的冯晓宇和北京邮电大学的南国顺。Hehe Fan 构思了这个想法并设计了实验。
关键词:
Copyright 2015-2022 青年食品网 版权所有 备案号:皖ICP备2022009963号-20 联系邮箱:39 60 291 42@qq.com