什么是姿态识别抓取？图文介绍-行业新闻-佳恒光电

欢迎来到佳恒光电网站官网！业务项目主要包含：机器视觉软件系统、遥控器外观缺陷检测光检机、视觉检测机器人、字符缺陷检测、尺寸测量检测、遥控器光检机、遥控器检测

什么是姿态识别抓取？图文介绍

作者：佳恒光电发表时间：2022-02-25 09:44:10浏览量：3078【小中大】

对于现实复杂环境中的三维物体，仅使用二维信息来表示三维目标将不可避免地导致信息损失，如图1-3所示，很难实现机器人在非结构化环境中对多目标物体的高精度捕获操作。

作为未来智能制造的关键技术，机器人具有可控性强、灵活性高、配置灵活等优点，广泛应用于零部件加工、协同处理、物体抓取和零部件组装等领域，如图1-1所示。然而，大多数传统的机器人系统都是在结构环境中，通过离线编程进行单一的重复操作，无法满足人们在生产和生活中日益增长的智能需求。随着计算机技术和传感器技术的不断发展，我们希望建立一个智能机器人系统，具有更敏感的感知系统和更智能的决策能力。

姿态识别抓取.png

　　图1-2 机器人抓取的操作流程与步骤

　　机器人抓取与放置是智能化机器人系统的集中体现，也是生产与生活中十分重要的环节，近几年来在工业界与学术界得到了深入而广泛的研究。具体的机器人抓取可以分为视觉感知部分与机器人抓取操作部分。视觉感知部分又包含：模型与场景表征、目标识别与定位这两个步骤;而机器人抓取操作部分则包含：系统标定、运动控制与抓取规划等步骤，如图1-2所示。这其中，机器人通过视觉传感器感知环境并实现对目标物体的识别与定位，也就是视觉感知部分，是十分重要的环节，其直接决定了后续机器人的抓取精度。

姿态识别抓取图像.png

　　图1-3 二维图像的部分缺陷

由于计算机计算能力的不断提高和传感器成像水平的快速发展，基于二维图像的机器人平面单目标物体的捕获技术已经成熟，并取得了丰富的研究成果[1][2][3]。然而，对于现实复杂环境中的三维物体，仅使用二维信息来表示三维目标将不可避免地导致信息损失，如图1-3所示，很难实现机器人在非结构化环境中对多目标物体的高精度捕获操作。因此，如何提高机器人的视觉感知能力，并在此基础上独立完成目标物体的识别、定位和捕获是一个非常有价值的研究问题。

近年来，随着低成本深度传感器（如intelrealSense、Xtion、MicroftKinect等）和激光雷达的快速发展，如图1-4所示，三维点云的获取越来越方便。这里的点云实际上是在相机坐标系下对物体或场景表面进行点采样。物体对应的点云数据在数学上可以简单地理解为三维坐标的无序集合。与平面二维图像相比，三维点云数据具有以下优点：（1）能够更真实、更准确地表达物体的几何形状信息和空间位置姿态；（2）受光强度变化、成像距离和视点变化的影响较小；（3）二维图像中没有投影变等问题。三维点云数据的上述优点有望克服机器人目标识别和抓取平面二维图像的诸多不足，具有重要的研究意义和广阔的应用前景。因此，近年来，点云的视觉研究和基于点云的机器人捕获已成为机器人领域的一个新的研究热点。

点云获取设备示意图.png

　　图1-4 点云获取设备示意图

对应上述情况，基于点云的机器人捕获可分为点云特征描述（模型和场景表征）、三维目标识别（目标识别和定位）和机器人捕获操作[39][40]。此外，点云特征描述是指通过特定算法将模型和场景对应的无序点集编码为低维特征向量，用于表征对象的局部或全球信息，应具有足够的描述力和稳定性。三维目标识别主要是指利用模型和场景的表征结果在场景中识别目标对象，并估计其相应的位置和姿势。对于特征描述和目标识别，虽然现有文献提出了许多算法，并在特定环境中取得了良好的效果，但如何在复杂的非结构化环境中提取有效、稳定的特征，包括噪声、干扰、屏蔽和密度变化，实现多目标对象的准确识别和高精度识别仍然是一个非常具有挑战性的问题[4]。

综上所述，基于点云的机器人捕获作为智能机器人系统的集中体现，近年来得到了工业和学术界的广泛关注，并对点云特征描述、三维目标识别和机器人捕获操作进行了深入研究。具体来说，在点云特征描述部分，主要关注描述子的识别力、鲁棒性、计算效率和紧凑性；在三维目标识别部分，主要关注目标识别精度和定位精度；在机器人捕获操作部分，捕获系统的参数校准和多目标对象的数据分析是一个非常重要的环节。

什么是姿态识别抓取？

基于点云的机器人捕获主要包括视觉感知部分和机器人捕获操作部分。机器人捕获操作部分还包括系统校准、捕获规划和运动控制。

系统校准主要是指相机和机器人的校准。由于视觉感知部分要求捕获的目标对象的位置和姿势都在相机坐标系下，为了准确捕获机器人，需要将其坐标和姿势转换为机器人坐标系。在这里，相机和机器人需要用手和眼睛校准。手眼校准主要要求相机坐标系与机器人坐标系之间的变换关系[67]，主要分为手上相机的校准和手外相机的校准。此外，对于相机，使用时需要校准内参、畸变系数等[68][69]；如果是双目立体视觉，还包括双目相机参数校准[70]；如果是结构光或Tof(Timeoffflight)成像的点云相机，则需要进行深度校准，以及彩色图与深度图的匹配对齐[71][72]。如果是结构光或Tof(Timeofffflight)成像的点云相机，则需要进行深度校准和多基坐标系[73]。

对于捕获计划部分，其主要功能是实现场景中目标对象的捕获点[75]的提取。如论文[76]所述，捕获策略应保证稳定性、任务兼容性和对新对象的适应性；此外，捕获质量可以通过接触点的位置和端爪的配置来评价[77]。对于物体的捕获，主要有基于经验和端到端的方法。

基于经验的方法是根据特定任务和捕获对象的几何形状使用相应的算法捕获。更具体的方法可分为捕获已知物体和捕获类似物体[78]。如果捕获对象是已知物体，则可以学习现有的成功捕获实例，然后结合具体环境捕获机器人。事实上，如果目标对象已知，则意味着对象的三维模型和捕获点位置也是数据库中的先验已知。在这种情况下，只需从局部视图估计目标对象的6D位置，并通过ICP等算法细化和准确微调姿势，就可以进一步获得目标对象的捕获位置。这是已知捕获系统中最流行的方法，也是亚马逊捕获挑战赛[79]中常用的算法。Zeng和其他人[79]提出了一种使用全卷积神经网络来匹配结果的多个场景的扫描和标记位置。他们的方法在2016年APC抓取挑战任务中获得第三名和第四名。Billings和Johnson-Roberson[80]提出了一种利用卷积神经网络的管道算法，可以同时完成目标姿态估计和抓取点选择。该管道算法作用于感兴趣的区域（ROI），预测中间轮廓以估计目标位置；然后从先验数据库中生成抓取点。对于这种方法，当有准确的三维模型时，可以在估计6D姿态后准确抓取。由于抓取精度高，是目前流行的抓取方法。但是，当三维模型不准确时，如果物体不可测量或易变形，会导致较大的抓取偏差。

局部抓取规划方法.png

局部抓取规划方法。

事实上，在许多情况下，捕获的目标对象与现有数据库的模型并不完全相同，但模型库中相似的物体涉及捕获相似的物体。目标对象定位后，基于关键点的相应算法可以将捕获点从模型库中存在的相似三维模型转移到当前的局部对象。由于目前的目标对象与数据库中的对象不完全相同，因此无需对这种类型的捕获算法进行六维姿态估计。Andrew等人[81]提出了一种基于分类方法的方法，将对象分为不同的类别，每个类别都有相应的捕获规范。Vahrenkamp等人[82]提出了一种基于局部捕获规划的方法，用于生成适合多个已知目标对象的捕获，根据物体的形状和体积信息对物体模型进行划分，并标记目标部件的语义信息和捕获信息。它还提出了一种抓取可转移性的测量方法，用于评估同一对象类别中新对象的抓取成功率，如图1-12所示。Tian等人[83]提出了一种将抓取构型从以前的示例对象转移到新目标的方法，假设新对象和示例对象具有相同的拓扑结构和相似的形状。他们考虑了几何形状和语义形状特征对象的三维分割，利用主动学习算法计算了示例对象的每个部分的抓取空间，并在模型部分和相应的抓取之间建立了新对象的双射接触映射。这种方法取决于目标分割的准确性。然而，训练一个能够识别广泛对象的网络并不容易。同时，这些方法要求要抓取的三维对象与标记模型相似，以便找到相应的抓取模型。在经常被屏蔽的混乱环境中，计算高质量对象的抓取点也是一个挑战。

不同的抓取方案示意图。

端到端抓取检测直接跳过抓取目标的定位，直接从输入图像中提取抓取点的位置。在这种方法中，滑动窗口策略是一种常用的方法。Lenz等人[84]提出了两步级联系统，该系统有两个深度网络，第一步的顶部检测结果由第二步重新评估。第一个网络具有较少的特性，运行速度更快，可以有效地消除不可能的候选人。第二个特性更多，速度更慢，但只能在少数检测到的信号上运行。虽然它们达到了很高的精度，但迭代扫描使过程非常缓慢。TenPas和其他人[85]提出了一种在任何可见表面生成抓取假设的方法，而无需准确分割目标对象。他们还提出了一个新的抓取描述符，包括表面法线和多个视图。然而，由于没有实例级分段，该算法将多个对象视为类似对象。由于均匀网络的性能优于双级联系统[84]，提出了越来越多的单级方法。Guo和其他人[86]提出了一个共享的卷积神经网络来发现和捕获对象。Pinto和Gupta[87]提出了一种通过试错预测捕获位置的方法，它们训练了一个基于CNN的分类器来估计输入图像块不同捕获方向的捕获可能性。Chu和其他人[88]提出了一个由捕获区域建议组件和机器人捕获检测组件组成的网络。对于端到端捕获检测方法，计算出的捕获点可能不是全球最佳捕获点，因为图像中只有部分对象可见。

对于机器人抓取中的运动控制部分，主要设计从机械手目标物体抓取点的路径，关键问题是运动表征。虽然从机械手到目标抓取点的轨迹是无限的，但由于机械臂的限制，许多地方无法实现。因此，轨迹需要计划。

姿态识别抓取轨迹规划主要有三种方法，即基于DMP、模仿学习和强化学习的传统方法，如图1-14所示。传统方法考虑运动的动态性，生成运动原语。动态运动原语(DynamicmovementPrimitives，DMPs)[89]是最流行的运动表示形式之一，可以作为反馈控制器。DMPs对应的原语是行为单位或鲁棒的吸引子系统，实际上是非线性的。在算法中，将运动学对应的控制策略按规则编码为非线性微分方程组，方程组的目标是吸引子[90]。DMP用于强化学习、模仿学习和动作识别。Colome等人[91]的论文是通过降维(线性)学习具有DMP特征的机器人运动，同时学习潜在的关节耦合过程，这实际上是一项非常有价值的研究，因为它直接提供了这项运动最直观的数学描述。Pervez和Lee[92]的论文提出了一个数学模型，建模了DMP中强迫项对应的任务参数。Li等[93]对应的论文提出了基于高斯混合模型(GMM)和DMP的机器人强化版教学界面模型。收集的这些动作是通过使用深度摄像头Kinectv2传感器从相应的人体演示者那里收集的，使用高斯混合模型(GMM)算法计算DMPS，然后对运动进行建模和泛化。Amor等[94]的论文描述了一种基于人体动作演示的模仿学习算法，主要用于机器人学习和运用人体抓取技能。他们将人类抓取动作分为三个部分：从人类教学演示中提取有效的物体抓取策略方法，将抓取策略对应的抓取点迁移到新的待抓取物体中，优化抓取动作。使用他们的方法很容易在机器人中添加新的抓取类型，因为使用该算法的用户只需要给出一组抓取实例。

在抓取过程中，由于空间有限和障碍物，姿态识别抓取会阻碍机器人接近目标对象。这就需要机器人与环境互动。在这种需要避障的抓取任务中，最常见的轨迹规划方法是以抓取对象为中心建模的算法[95]，将目标与环境分开。这种方法在结构化或半结构化的环境中工作得很好，因为对象被很好地分离了。还有一种以障碍物为中心的方法[96]，它利用动作原语与多个对象同步连接。通过这种方法，机器人可以在接触和移动目标的同时抓住目标，从而消除所需的路径。此外，Zeng等人[97]提出了更优越的方法，采用无模型深度强化学习策略，提取抓推关系。它们的方法包括两个卷积神经网络、行为动作和视觉感知。这两个网络是在Q-learning框架下联合训练的，成功掌握后会通过尝试和错误的自我监督获得奖励。通过模拟和真实场景中的抓取实验，他们的系统可以快速学习复杂的行为，在障碍物存在的情况下获得更高的抓取成功率和效率。

2022-02-25 3078人浏览

上一篇:磁芯开裂如何筛选?

下一篇:机器人上下料视觉定位流程讲解

行业新闻

什么是姿态识别抓取？图文介绍

相关新闻

产品中心

新闻资讯

关于我们

联系我们

在线咨询