matlab基于视觉的多媒体描述系统设计与实现(2)

   3.2 最大极值稳定区域    14
   3.3 MSER区域提取文字并识别算法    14
   3.4 本章小结    16
第4章运动目标检测与跟踪    11
   4.1 运动目标检测与背景建模    17
   4.2 混合高斯模型    17
   4.3 中值滤波提取背景    18
   4.4 本章小结    19
第5章总结与展望    21
   5.1 本文主要工作    21
   5.2 工作展望    21
致谢    23
参考文献24
1    绪论
1.1    引言
伴随着互联网技术和计算机应用的迅速发展，数据信息已经发展为具有海量的数据规模和各种各样的表现形式。数字视频就是其中之一。它由于含有着丰富的时空信息，已然成为了一类非常重要的信息资源。为了从数据量庞大的数字视频中分析、管理以及检索数据，方便人们对视频数据进行合理应用，基于内容的视频语义分析技术由此提出。
一般来说，图像或者视频的语义分析与检索会比较依赖于图像帧或者视频片段中的文字标注。视频数据中蕴含了场景、人物、事件和对象等丰富的语义，同时也存在着图像（例如视频帧）、音频（例如人物对话、背景声音等语音信息）和文字（如视频字幕等）三种媒质数据。每一种媒质数据都包含有各自的低层信息，例如图像包含了视觉信息（如图像颜色、纹理等）、音频包含了听觉信息（如音量等）、文字包含了文本信息等等。这些媒质特征组合在一起，构成了视频数据的多模态特性。运动比赛视频，作为视频数据中的一类，其中有大量的语义信息和媒质数据可以加以使用。在面对海量的运动视频时，我们希望能自动的获取我们所想要的信息，如比赛名称，运动员信息，精彩的比赛镜头集锦等。如果这部分任务交由人工来完成，将会是一项庞大的工作量。由此，本文开发了一个基于视觉的多媒体描述系统。
1.2    国内外的发展及现状
1.3    本文的工作
本课题主要针对网球比赛视频进行分析，对其进行网球视频语义分析,并结合视频字幕检测与识别以及运动目标跟踪与检测，最终完成了一个多媒体描述系统。涉及的几种主要技术如下所示：
(1) 镜头边缘检测
镜头作为视频数据结构的一种基本单位，由连续的多幅帧图像组成。镜头分割的目的是要找出两个镜头间的边界图像，将一段视频切分为一个个的镜头，方便下一步进行语义分析。
(2) 关键帧提取
关键帧是指代表一个镜头中的主要内容的一幅或多幅帧图像。由于一个镜头里的图像帧的场景基本相同，所以同一个镜头里的图像间会存在信息冗余。当我们把一段视频切分为多个镜头以后，可以对切分出的镜头进行提取关键帧操作，以达到简洁描述每个镜头内容的效果。
(3) 视频文字线索提取
文本作为视频中一种比较高级的语义信息，是视频检索时的有效索引。视频中的文字一般可以分为场景文字和字幕文字两类。对视频中存在的文字信息进行检测和提取以后，方便下一步的视频信息和标签的提取。
(4) 镜头分类
通过对镜头边缘检测和关键帧的提取，可以通过研究分析球场镜头的不同特点实行镜头分类，将视频的镜头分为球场全局镜头、观众镜头和运动员特写镜头三类。 matlab基于视觉的多媒体描述系统设计与实现(2):http://www.751com.cn/jisuanji/lunwen_19846.html