安防監(jiān)控,僅僅將畫面記錄下來只是第一步。當(dāng)事件發(fā)生后,準(zhǔn)確而快速地找到所需監(jiān)控工來完成,浪費(fèi)了檢索人的大量精力。治安管理者迫切需要一種能夠快速查找視頻信息的方式,加快辦案速度。在基于內(nèi)容的視頻檢索技術(shù)、存儲技術(shù)以及智能分析技術(shù)共同提升的環(huán)境下,海量視頻檢索離安防漸行漸近。 基于內(nèi)容視頻檢索技術(shù)原理 視頻數(shù)據(jù)按照由粗到細(xì)的順序可以劃分為四個層次結(jié)構(gòu):視頻(Video)、場景(Scene)、鏡頭(Shot)和圖像幀(Frame)。由于一個鏡頭內(nèi)的相鄰幀間的變化不是很大,它們之間的特征差值會限定在某個閾值范圍內(nèi)。而在鏡頭突變時,突變點(diǎn)前后兩個相鄰幀在內(nèi)容上顯示會有很大的變化,如果特征差值超過了給定的閾值,則意味著出現(xiàn)一個分割邊界。鏡頭的關(guān)鍵幀就是反映該鏡頭中主要信息內(nèi)容的幀圖像。將各鏡頭檢測出來后,對每個鏡頭可提取關(guān)鍵幀,并用關(guān)鍵幀簡潔地表達(dá)鏡頭。關(guān)鍵幀數(shù)目的確定是關(guān)鍵幀提取中的一個重要問題,其確定方法可以根據(jù)鏡頭內(nèi)幀的差異進(jìn)行統(tǒng)計,求出其方差,用方差來衡量鏡頭視覺內(nèi)容的復(fù)雜程度。方差越大,該鏡頭提取的關(guān)鍵幀數(shù)就越多。 從內(nèi)容上對視頻進(jìn)行搜索,其特點(diǎn)包括:第一,直接從媒體內(nèi)容中提取信息線索;第二,基于內(nèi)容的檢索是一種近似匹配,這一點(diǎn)與常規(guī)數(shù)據(jù)庫檢索的精確匹配方法有明顯的不同;第三,動態(tài)特征提取和索引建立可由計算機(jī)自動實現(xiàn),這避免了人工描述的主觀性,也大大減少了工作量;趦(nèi)容檢索時,根據(jù)媒體特征進(jìn)行相似性匹配檢索的媒體特征有:顏色、紋理、輪廓、形狀、空間約束、動態(tài)、概念、結(jié)構(gòu)描述及其他的圖像信息。 視頻檢索技術(shù)當(dāng)前的發(fā)展 檢索技術(shù)源于互聯(lián)網(wǎng)發(fā)展需求;谖谋舅饕姆椒ㄟM(jìn)行檢索是當(dāng)今最成熟的信息檢索技術(shù)。各類搜索引擎,如Baidu、Google、Bing以及Yahoo等都是以此技術(shù)為基礎(chǔ)的。隨著網(wǎng)絡(luò)帶寬不斷的提高,人們可以更加快捷地將自己采集到的各種多媒體信息進(jìn)行共享,或者進(jìn)行多媒體信息的交互,越來越多的信息通過視頻等多媒體的形式展現(xiàn)在互聯(lián)網(wǎng)中,這對以圖像、視頻為代表的多媒體信息檢索技術(shù)提出了越來越高的要求。20世紀(jì)90年代初,國際上開始了對視頻方面的檢索研究。區(qū)別于文字信息檢索,圖像視頻的檢索是建立在圖像視頻內(nèi)容分析的基礎(chǔ)上,所以常稱之為基于內(nèi)容的圖像視頻檢索。1992年,“基于內(nèi)容的視頻檢索”一詞開始使用。十多年來,視頻數(shù)據(jù)在獲取、存儲、操作及傳輸技術(shù)方面取得了重大的理論突破和技術(shù)進(jìn)步。 基于內(nèi)容的視頻檢索技術(shù)是針對音視頻這類非結(jié)構(gòu)化數(shù)據(jù),使用了視頻分割、自動數(shù)字化、語音識別、鏡頭檢測、關(guān)鍵幀抽取、內(nèi)容自動關(guān)聯(lián)、視頻結(jié)構(gòu)化等技術(shù),以圖像處理、模式識別、計算機(jī)視覺、圖像理解等領(lǐng)域的知識為基礎(chǔ),從認(rèn)知科學(xué)、人工智能、數(shù)據(jù)庫管理系統(tǒng)及人機(jī)交互、信息檢索等領(lǐng)域引入新的媒體數(shù)據(jù)表示和數(shù)據(jù)模型,從而設(shè)計出可靠、有效的檢索算法、系統(tǒng)結(jié)構(gòu)以及友好的人機(jī)界面。
|