基于深度图像数据的人体姿态检测优化

摘要在计算机视觉与计算机图形学的研究中，人体姿态检测一直是一个热点问题。它涉及人机交互，智能识别等多个领域。在深度相机技术诞生之前，一直没有性价比较高的解决方案，微软在 2010 年发布的 XBOX360 外设 Kinect 为深度信息的获取提供了新的选择，带来了高性价比的解决方案。本文研究了 Marcin Eichner与Vittorio Ferrari 的基于RGB图像的人体姿态检测，该研究通过 Grabcut技术分割前景，通过位置先验与外观转换得到初始模型，采用了 Pictorial Structure架构对得到的后验知识进行优化，得到最终的分析结果。本文在次基础上加入深度图像的基础上对图像解析部分进行了优化，提高了识别的正确率。 60404
毕业论文关键词 Grabcut，位置先验，Pictorial Structure 架构，深度图像，Kinect
Title Optimization of human gesture detection with depth data
Abstract In the study of computer vision and computer graphics, human gesture detection has been a hot issue. It involves human-computer interaction, identification, and many other fields. Before the birth of the depth camera technology, there isn’t a better solution. Microsoft XBOX360’s peripheral Kinect provides a new cost-effective choice to get depth information. Marcin Eichner and Vittorio Ferrari’s RGB image-based human gesture detection, using Grabcut to provide segmentation of foreground, calculate the initiate model with location prior and appearance transferring, and optimize the model’s MAP in the Pictorial Structure. My work in this paper is to optimize the parsing progress with depth data to improve the recognition accuracy.
Keywords Grabcut,location prior,Pictorial structure,depth data,Kinect

1 引言（或绪论） 1

2 基本介绍 1

3 图像解析 4

3.1 边缘图像 4

3.2 边缘模型 5

3.3 区域模型 5

3.4 优化 5

4 外观模型的优化 6

4.1 位置先验6

4.2 外观转换机制7

4.3 分析新图片的外观模型和前景分割8

5 本次研究9

5.1 前期处理9

5.2 应用位置先验 LP 进行图片解析10

5.3 错误原因分析10

5.4 改进思路11

5.5 改进实现12

5.6 结果比较与修改13

结论 14

致谢 14

参考文献14
1 引言在计算机视觉和计算机图形学的研究中，从真实环境获得 3D 几何信息一直是一个热点问题。在文化传承，显示增强和人机交互，实时图像信息获取的应用都非常广泛，在深度相机技术诞生之前，一直没有一个性价比较高的解决方法，比如激光扫描技术的耗时和无动态性，以及立体视觉系统在实践中的不稳定性。深度相机技术的问世为3D 几何信息的获取提供了新的选择。与其他 3D系统不同的是，深度相机非常简单而且能满足绝大多数的功能要求，例如全领域和高速摄像，以便实时测距。现在，在深度相机技术中有两个主要的研究方向。第一个是基于 Tof 原则（time-of-flight），测量两个光波传输的时间差。一些解决方案做了一些调整，采用不连贯的光伴随无线电频率(RF)载体，然后测量该载体在接收端的相位移（例如 Photonic Mixer Devices (PMD) 和Swiss Ranger 4000)）。结合相位展开算法，可以提升最大唯一性范围。Swiss Ranger 400 可以达到 5 至 10米的范围，像素为 176*144。PMD可以提供最大至 60米的范围。另外一个方向是基于光编码，投射一个已知的红外图像到屏幕上，基于被红外CMOS 成像器波获得图像的变形程度来判断深度。最近流行的 Microsoft Kinect 感应器就是利用光编码来测量深度，以得到深度图像信息。本项目的研究是采用深度图像技术将现有的研究[7]进行改进。 2 基本介绍在本次试验中引入了深度图像数据作为新元素，用以优化解析结果。而同时采集RGB图像及其对应的深度图像数据的设备，为微软公司于 2010年发行的 XBOX360游戏机的体感外设Kinect。同时结合了原研究涉及的 PS架构理论作为基础。基于深度图像数据的人体姿态检测优化:http://www.751com.cn/jisuanji/lunwen_65874.html