基于时空特征的字幕检测算法研究

摘要本文研究了一种基于视频字幕时空分布特征的字幕检测算法，并利用 C++语言和OpenCV 实现了该算法。本文的字幕检测算法分为字幕切换帧检测与字幕区域定位两部分。字幕切换帧检测部分首先对视频流进行预处理，求出视频差异帧；然后根据量化空间差分密度（QSDD）原理从差异帧中得到字幕切换帧。选取了 20 段不同类型的视频对字幕切换帧检测算法进行测试，结果显示该算法获得了 90%以上的查全率与 70%以上的查准率。字幕区域定位部分首先根据文字的边缘特征设计了边缘检测模板，利用该模板对字幕切换帧进行滤波获得字幕区域的特征点；然后利用形态学方法得到特征点的连通区域，作为字幕候选区域；最后根据视频字幕的空间特征对候选区域进行筛选。经过对获得的字幕切换帧进行字幕区域定位测试，该算法在字幕定位方面取得了 99%以上的查全率和 95%以上的查准率。论文的最后利用多帧平均的方法对字幕区域进行了增强。32325
毕业论文关键词字幕检测 QSDD 字幕切换帧检测字幕区域定位
Title On Detection of Video Captions bySpatial-temporal Approach
Abstract This thesis studies an approach for video caption detection based on spatial-temporal characteristics , and uses C + + programming language to realize the programdesign based on OpenCV . Two cascaded steps are used in caption detection, namelycaption transition frame detection and caption region location . In the former step ,difference images are obtained for the caption transition frame detection based onquantized spatial difference density ( QSDD ) . 20 segments of videos with variantcontents are subject to performance evaluation, and a good result is achieved (aprecision rate over 70% and a recall rate over 90%). In later step , edge detectiontemplates are designed according to the features of the caption to get feature pointsof caption regions. Then the candidate regions of video captions are formed aftermathematical morphological operations . According to the spatial characteristicsof video captions, the candidate regions are screened to locate caption regions inthe difference images. The performance test for the approach gets a recall rate of99% above and a precision rate of 95% above . At last, a frame-average method isproposed to enhance caption regions in the thesis .
Keywords Caption Detection QSDD Caption Transition Frame DetectionEdge Detection Caption Region Location
目次
1绪论1
1.1课题研究背景与常用方法1
1.3本文算法框架和章节安排2
2字幕切换帧检测算法4
2.1检测原理4
2.2算法流程7
2.3程序实现9
2.4测试结果11
2.5本章小结15
3字幕区域定位算法16
3.1定位原理16
3.2算法流程19
3.3程序实现20
3.4测试结果22
3.5本章小结23
4字幕区域增强算法25
4.1帧平均法原理25
4.2算法流程26
4.3字幕增强结果26
4.4本章小结27
结论28
致谢29
参考文献30
1 绪论
1.1 课题研究背景与常用方法随着数字媒体技术的高速发展与应用，每天都在产生海量的视频数据。庞大的视频数据量使得对视频的分类与检索成为很大的工作量。传统的视频分类和检索方式是由人工对视频添加标签，根据人工标签对视频资料进行分类和检索。这种方法一方面会耗费大量的时间和精力，另一方面由于人工标签所涵盖的信息往往不全面，已经不能满足人们对视频检索的需求。与之相比，视频字幕中含有大量具体客观的语义信息，诸如台词、歌词、解说等等，这些信息往往可以作为视频的描述。将视频中的字幕文本检测出来，对于视频的检索非常有价值。自上世纪九十年代开始，关于视频文本检测技术的研究逐渐发展起来。 1994年， Effelsberg和Lienhart等人就提出了利用视频中文本的颜色、区域大小、纹理等特征进行视频文本的检测[1]。随着基于内容的视频检索技术研究的发展，视频中文本的检测引起了人们的广泛关注，对于视频中字幕的检测也相继有很多方法被提出。常用的视频字幕检测的方法有基于连通区域的方法、基于纹理分析的方法、基于边缘角点特征的方法和基于学习的方法[2]。基于连通分量的方法是利用视频字幕中文字颜色通常都是相同的这一特征来实现对字幕检测,一般分为以下几步：利用除噪和颜色聚类进行预处理；产生连通区域；过滤非字符连通区域；将连通区域聚集成字幕区域；验证字幕区域[3]。基于时空特征的字幕检测算法研究:http://www.751com.cn/zidonghua/lunwen_28842.html