(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210938616.8
(22)申请日 2022.08.05
(71)申请人 北京空间飞行器总体设计 部
地址 100094 北京市海淀区友谊路104 号
(72)发明人 李剑飞 李群智 马超 田健
危清清
(74)专利代理 机构 工业和信息化部电子专利中
心 11010
专利代理师 田卫平
(51)Int.Cl.
G06V 20/40(2022.01)
G06F 30/27(2020.01)
G06N 3/08(2006.01)
G06V 10/25(2022.01)
G06V 10/26(2022.01)G06V 10/44(2022.01)
G06V 10/50(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
(54)发明名称
单机任务场景信息获取及单智能体运动控
制方法
(57)摘要
本发明提供了一种单机任务场景信息获取
及单智能体运动控制方法, 单机任务场景信息获
取方法能够实现针对复杂动态环 境, 获取信息作
为智能策略的输入和训练基础; 单智能体运动控
制方法采用针对动态少样本任务条件的机器人
操作高效率强化学习策略, 有效解决机器人操作
学习任务的对象模拟、 策略生成、 任务泛化以及
经验迁移的全流程问题。 本发明研究适用于单机
任务场景下的智能感知数据的图像拍摄和数据
采集技术, 并将获取的信息作为可供深度学习训
练使用的训练数据库, 有效的服务于机器人感知
系统。 本发明的单智能体运动控制方法, 采用单
智能体运动控制策略, 基于深度强化学习方法研
究机械臂抓取不同目标技术, 可直接支撑未来的
智能空间机 器人。
权利要求书2页 说明书7页 附图2页
CN 115457424 A
2022.12.09
CN 115457424 A
1.一种单机任务场景信息获取 方法, 其特 征在于, 包括如下步骤:
步骤1, 通过运动目标检测, 在视频或图像序列中将感兴趣的运动目标与背景分离, 获
得运动目标的位置信息, 提取 出的目标对象;
步骤2, 对目标的特征进行分析, 并确定该目标在视频图像序列中的位置, 记录目标质
心的位置并计算出运动目标的轨 迹;
步骤3, 基于HOG特征和 SVM分类, 通过学习阶段与检测阶段, 实现对目标的识别, 完成单
机任务场景信息获取; 学习阶段包括如下步骤: 一是采集正、 负样本数据; 二是提取样本的
特征信息到特征向量空间中, 用向量模 型表示图像的特征信息, 得到特征向量; 三是将特征
向量输入到 分类器中训练学习, 生 成目标分类器; 检测阶段包括如下步骤: 一是在目标检测
的基础上, 对检测窗口图像进行特征提取; 二是得到目标特征向量后输入到训练好的目标
分类器上, 通过检测窗口扫描对目标进 行分类, 并用矩形框标识; 三是对输出结果进 行矩形
框合并, 将重 叠在一起的小矩形合并成一个大矩形框, 实现对目标的识别;
其中, HOG特征是检测到的局部对象轮廓能够被光强梯度或边 缘方向的分布所表征。
2.如权利要求1所述的方法, 其特征在于, HOG特征具体的实现为: 先对物体像素点进行
梯度计算, 然后将样本图像分割成一个个细胞单元cell, 每个cell是由n*n个像素组成, 不
同的样本图像选取n的大小不同, 每2*2个细胞单元cell组成一个block, 其中cell的大小为
检测窗口的滑动步长, 每个cell生成一个方向梯度直方图, 所述直方图的组合表示出描述
子, 将所有bl ock的HOG特征组合在一 起形成HO G特征向量。
3.如权利 要求2所述的方法, 其特征在于, 对细胞单元格进行归一化, 归一化该block中
的所有细胞 单元cell。
4.如权利要求1 ‑3任意一项所述的方法, 其特征在于, 所述步骤2中, 采用卡尔曼滤波、
扩展卡尔曼滤波、 粒子滤波或Mean Shift跟踪算法进行 目标跟踪, 在跟踪过程中引入滤波
器, 根据目标的运动特性预测出目标 可能出现的位置 。
5.一种单智能体运动控制方法, 其特征在于, 采用如权利要求1 ‑4任意一项所述的方法
进行信息获取, 将获取到的信息作为运动控制的输入, 采用单智能体运动控制策略, 基于深
度强化学习方法控制机 械臂抓取不同目标。
6.如权利要求5所述的控制方法, 其特 征在于, 包括如下步骤:
步骤31, 构建包括六自由度机械臂物理模型、 运动的待抓捕 目标和周围环境物理属性
的仿真环境; 机械臂的传感器信息通过插件形式加入仿真环境, 并通过可视化的方式进行
显示;
步骤32, 拟合关节模型; 其中, 在物理机械臂装配前, 采集每个关节的输入端控制力矩
和关节端力矩传感器的数据, 训练一个全连接网络进行逼近; 神经网络模型拟合了关节的
电机、 模型、 减速器模型以及 摩擦模型;
步骤33, 将待抓捕目标的位置、 接触摩擦、 接触 刚度以及接触阻尼参数进行高斯随机化
处理, 随机化的各参数期 望值为真实世界的标称值, 并去掉不符合物理意义的负值; 待抓捕
目标初始在机械臂的工作 空间外, 以直线或自由落体的方式穿过机械臂的工作空间, 其射
入的方向、 位置以及速度进行 给定区间内的随机化处 理;
步骤34, 使用深度强化学习算法中的P PO算法训练控制器动作空间选为各关节的力矩:
a=[ τ1, τ2, τ3, τ4, τ5, τ6]T权 利 要 求 书 1/2 页
2
CN 115457424 A
2状态空间选为目标的坐标、 机 械臂末端的坐标、 关节角度和角速度:
设计奖励函数为:
其中, λi(i=1,2,3)表示奖励函数各部分所占的权重, 通过调节 λi的相对大小来控制各
个指标的相对重要程度, 同时对 所消耗的能量进 行限制; x1, y1, z1表示笛卡尔坐标系下待抓
捕目标的三维坐标值, x, y, z表 示机械臂末端的坐标值; E表 示机械臂当前时刻消耗的能量,
使用6个电机的转速和输出转矩乘积的和来表示; Ts为采样时间, Tf为最大仿真时间, 第3项
表示抓捕时间越长, 负奖赏越大;
步骤35, 在仿真环境中开展训练, 直到累计奖赏函数达到要求值或者达到最大训练周
期数量;
步骤36, 将训练好的整个算法部分迁移到实际的机械臂控制板上, 采用仿真环境下机
械臂的初始状态作为控制器的输入, 运动 目标检测算法和跟踪算法部署在另一块控制板
上, 配置好相机系统, 转换到与仿 真环境中一致的坐标系, 将目标位置计算结果传送给机械
臂控制器, 通过机 械臂控制器实现对单智能体的运动控制。
7.如权利要求6所述的方法, 其特征在于, 以仿真中同区间的参数抛射目标物体, 测试
机械臂在实际环境下的动目标抓捕能力。权 利 要 求 书 2/2 页
3
CN 115457424 A
3
专利 单机任务场景信息获取及单智能体运动控制方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 04:40:27上传分享