新聞BANNER

如何解鎖安防行業人臉識別這(zhè)個小目標

2017-04-04 00:04:00.0

    2016年北京安博會上,各(gè)家公司人臉識別產品百花齊放,但就(jiù)是在這個人臉識別的鼎盛時代, 實際上需求(qiú)最(zuì)痛的安防行業還是無法大規模應用。根據最高人民檢察院和最高人民法院關於刑事案件數量(liàng)的統計,2015年全國人民法院(yuàn)新收刑事一審案件1126748件,同比上升8.29%。(數據來源:2001-2016年《中國法律年鑒》)。滿大街的攝像頭,各種智能檢測分析,依舊(jiù)有很多人肆無忌憚地進行著違法犯罪活動。   

    針對此,本文首先回顧了目前人臉識別技術的發展狀況,然後(hòu)重點探討了目前安防行(háng)業大規模應用人臉識別還需要解決的(de)問題。   

    人臉識別技術的發(fā)展狀況   

    在深度(dù)學習技術出現之前(qián),幾乎所有人臉檢測都是采用滑動窗口式的方法。在識別輸入圖像(xiàng)前,我們會先用一個固定(dìng)大小的窗口(kǒu)在輸入圖(tú)像上進行滑動,窗口框定的區域會被送入(rù)到(dào)分類器,去(qù)判斷是人臉窗口還是(shì)非人臉窗(chuāng)口。滑動(dòng)的窗口其大小是固定的,但是人臉的大小則多(duō)種多樣,為(wéi)了檢測不同大小的人臉,還需要把輸入圖像縮放到不同大小,使得不同大小的人臉能夠在某個尺度上和窗口(kǒu)大小相匹配(pèi)。這種滑動窗口式的做法有一個(gè)很明顯的問(wèn)題,就是有太多的位置要去檢查,去判斷是人臉還(hái)是非人臉。   

    2000年前後出現(xiàn)的Viola-Jones人臉檢測器,使得這種人臉檢測技術開始成熟起來,並出現了(le)相(xiàng)關(guān)的實際應(yīng)用,例如數碼相機中的人(rén)臉對焦的功能,照相的時候,相機會自動檢測人臉,然後根據(jù)人臉的位置把(bǎ)焦距調整得更好。   

    就人臉檢測而言,人臉可以大致看(kàn)成是一種剛體,通常情況下(xià)不會有非常大的形變,比方(fāng)說嘴巴變(biàn)到鼻子的位置上去。但是對於公安實際應用中既關注人臉(liǎn)也(yě)關注全身來說,人可(kě)以把胳膊抬起來,也可以把腿(tuǐ)翹上去,這使得人體有非常多的非剛性變化,從而使得檢測的準確率大大降低(dī)。

    2013年底,深度學習給人臉檢測任務點起了(le)一把火,這個(gè)火種(zhǒng)就是R-CNN,其中R對應於(yú)“Region(區域)”,意指CNN以圖像區域(yù)作為輸入,這個工作最終發展成了一個係列,R-CNN的變革首當其衝的是拋棄了滑動(dòng)窗口範(fàn)式(shì),取而代之的是(shì)一個新(xīn)的生成候選窗口的環節;其次不再采用人工設計的特征,而是用CNN來自動學習特征。傳統滑(huá)動窗口範式做目標檢測時,需要(yào)對每一個物體去設計(jì)和和學(xué)習單獨的檢測器,例如做人臉(liǎn)檢測和車輛檢測,兩個檢測器特征會不一樣,分類器也不一樣,對於每一類物體,需要去嚐試不(bú)同的特征和分類器的組(zǔ)合。但是現在,采用(yòng)深度學習的R-CNN在物體類別上沒(méi)有任何限製。換句話說,它既可以(yǐ)檢測人臉,也可以同時檢測其(qí)他類別(bié)的物體,比(bǐ)如說人體形態,這在公安實戰(zhàn)應(yīng)用中是一(yī)個非(fēi)常重要的優勢。   

    R-CNN帶來了目標檢測(cè)精度的一次巨(jù)大提升(shēng),然(rán)而由於所采用的候選窗口生(shēng)成方法(fǎ)和(hé)深度網(wǎng)絡都具有比較高的計算複雜度,因而檢測速度非常慢。為了解決R-CNN的速度問題,緊接著出現了Fast R-CNN和Faster R-CNN,速度一個比一(yī)個快。與此同時,一部分研究人員把研究視(shì)角(jiǎo)切(qiē)換到(dào)將傳統的人臉檢測技術和深度網絡(如CNN)的結合,保證(zhèng)檢(jiǎn)測速度(dù)的情況下進一步提(tí)升精度,專做人(rén)臉檢測的Cascade CNN可以認為是傳統技術和深度網絡(luò)相結(jié)合的一個代表,吸取傳統人臉檢測技術中的精華(huá),借鑒深度學習(xí)研究的(de)最新成果,提升某一類(lèi)目(mù)標(biāo)檢測精度和速度,這是一條值(zhí)得繼續探索的道(dào)路。   

    目前,人(rén)臉檢測方法正日趨成熟,在現實場景中(zhōng)也已經得到了比較廣泛的應(yīng)用,在特定配合場(chǎng)景下如照(zhào)片的檢索、門禁考勤等應用,目前已基本成(chéng)熟(shú)。但是(shì)人臉檢測問題還並沒有被完全解(jiě)決,複雜多(duō)樣的姿態變化、千奇百怪的遮擋情況、捉摸不(bú)定的光照條件、不(bú)同的分辨率、迥(jiǒng)異的清晰度、微妙的膚色差,各種內外因素的共同作用讓人臉的變化模式變得極(jí)其豐富,在非配合場景下的萬級及以上的(de)目標檢測如安防監控庫的應用,依舊任重道遠。   

    安防行業應用(yòng)人臉識別   

    具體到(dào)安防行業,特定配合(hé)場景下如公安係統的大庫比對、身份查(chá)重等,人臉識別(bié)等應用已經有很多成功的案例。與簡單的靜(jìng)態場景相比,安防市場(chǎng)中(zhōng)應用前景更廣闊的一個(gè)方向是動態(tài)場景下的人臉識別(bié):基於視頻中的人臉照片進行遠距離(lí)、快速、無接觸式的重點人員布控預警。讓應用於車(chē)站、機場、地鐵等(děng)重點場所和大型商場超市等人群密集的公共(gòng)場所視頻監控係統能夠對視頻圖像進行采(cǎi)集、自動分析、抓取人(rén)臉實時比對,主動在監控場景中識別重點關(guān)注人員,實現重點人員的布控和識別。這是一個熱(rè)鬧的研究方向,同時也是一個(gè)巨大的研究挑戰。   

    算法(fǎ)前移:計算(suàn)資源與算法精度的平衡問題   

    采(cǎi)用(yòng)深度學習的(de)方法來做人臉識別,需要(yào)消耗(hào)非常多的計算資源,針對服務器資源昂貴的(de)市場情況,想要實現智能監控係統的大規模(mó)部(bù)署,必須要考慮到承擔的經濟成本。目(mù)前不少公司采用了將(jiāng)算法內嵌至(zhì)前端攝像機的經濟做法,比如科達公司推出(chū)的感知型攝像機(jī)等(děng),讓前端攝像機具備人臉檢(jiǎn)測的功能,後端服務器再做二次分析,以此減少後端服務器的計算壓力。   

    顯而易見,如果想在前端攝像機上集成精度高速度快的人臉識別(bié)模塊,勢必需(xū)要前(qián)端硬件性能的匹配。而目前已有的硬件還(hái)達不到這(zhè)樣的要求(qiú),隻能在算法上做一些犧牲,如降低算法的(de)複(fù)雜性,但這樣應用到實(shí)際場(chǎng)景中,則會造成檢測效果的降低,如(rú)漏檢、誤檢。   

    大數據訓練:數據從何而來以及如何(hé)訓練   

    深度學習最核心的優勢在於(yú)深度化,用(yòng)足夠多的數(shù)據來訓練,訓練的越多,算法的魯棒性、泛化能力越強。目前深度學習算法的訓練數據(jù)普遍都是幾十萬、上百萬(wàn)級,像一些互聯網行業的IT巨頭們,他們(men)的訓練數(shù)據都是上千萬、甚至上億級別(bié)。   

    Fei-Fei LI在2015年TED TALK中向公眾介紹人工(gōng)智能(néng)中計算(suàn)機視覺技術的最新進展時說道,ImageNet中下載了接近十(shí)億張照片,在(zài)巔峰時(shí)期,總共有接近五萬工作(zuò)者,來自167個國家,幫(bāng)助他們清理(lǐ)、分類、標(biāo)記,接近十(shí)億張候(hòu)選圖片。“十億張”、“五(wǔ)萬工作者”這些關鍵(jiàn)詞無不暗示著獲取有(yǒu)標(biāo)注數據(jù)的時間和金錢成本。   

    首先,安防行業的“十億張”從何而來(lái)?據了解,盡管視(shì)頻監控帶來了圖(tú)片與視頻資源的(de)激增,一方麵出於安全及隱私的考慮,不少公司做大數據訓練時,樣(yàng)本采用的是本公司自(zì)有(yǒu)建設的監控資源庫,小範圍的區域監控遠遠夠不成海(hǎi)量;另一方麵,目(mù)前安防產(chǎn)品的形態並沒有給深(shēn)度學習留下一個很好的空間(jiān),比如說安防係統的數據大多都存儲在一個錄像機、存儲設備裏,他們可以是DVR、NVR、IPSAN或者雲存儲(chǔ)裏,這樣的構成體係不太方便讓(ràng)一個計算設備把它的數據挖掘出(chū)來,然後去處理。如果在未來可以有一個更友(yǒu)好的基礎設施出現:所有的監(jiān)控攝像機(jī)都連(lián)到一個雲上,在雲上把深度學習的算法加載在上麵,讓其接(jiē)觸並分(fèn)析所有的數據,真正實現大數據訓練。   

    其次,“五萬工作者”的研發體量可望不可及(jí)。每天,安防企業的研發者都需要花大量的精力(lì)和(hé)人力投入到給圖像打(dǎ)標(biāo)簽的工作上,但是大量無監督數據的獲取成本卻是微乎其微的。   

    回顧深度學(xué)習的(de)發展史,有趣的是,2006年Hinton教授等人倡導的(de)卻恰恰是利用無監督(dū)學習(xí)來對深層神經網絡進(jìn)行預訓(xùn)練。對無監督數據的學習能力嚴重不足,以(yǐ)致大量無監(jiān)督(dū)數(shù)據就(jiù)像(xiàng)富含黃金(jīn)的(de)沙海,我們(men)卻沒有高效淘金(jīn)的利器。直接從大量無監督數據中學習模型確實是非常困難的,“無師自通”並非朝夕(xī)之功,但“少量有監督數據+大量(liàng)無(wú)監督數據”的模式也許值得大力研究。   

    監控攝像機:智能(néng)是左手,高清是右手   

    從模擬到720p到1080p到4K,更高清甚至超清的監控攝(shè)像機(jī)始(shǐ)終是安防人的首要關注點,畢竟(jìng)沒有(yǒu)有效的圖像采集信息,後麵一切圍繞圖片或視頻展開的智能應用都是紙上(shàng)談兵。   

    一個很典型的例子便是2013年波士頓馬(mǎ)拉鬆暴恐案的偵破過程,警方(fāng)在監控(kòng)畫麵中(zhōng)定位到涉案的兩(liǎng)個嫌疑人,盡管嫌疑人距離監控攝像機不遠,但他們的麵部完全(quán)沒有到達一個清晰可辨的程度,後(hòu)來警方借(jiè)助現場媒體、民眾提供的視頻、照片,才鎖定了犯罪嫌疑人(rén)。因此,如果數據在采集過程中就沒(méi)有捕(bǔ)捉(zhuō)到,後期是沒有辦法把它捏造出(chū)來的,要根(gēn)本解決這個問題,需要發明更好的監(jiān)控攝像機,能夠在(zài)大廣角的情(qíng)況下,仍然可以看清很遠的距離。時至今日,除(chú)了特定場景下的高空(kōng)瞭望攝像機外,我們依然沒有很好的(de)監控攝像機可以遠距離采集有效的(de)人臉信(xìn)息。   

    總結人臉識別的最終訴求莫過於確認身份,回答“他是誰?”、“他在幹什麽?”、“何地?”、“何時(shí)?”這四個問題,從而通過決(jué)策推理解決“應該采取什麽措施”的問題。在科研上,人臉識別技術日新月異,但落地到實際應用時,大規模(mó)部署時係(xì)統的經濟(jì)性、複雜環境下(xià)係統的魯棒性以及對應的硬件支撐都是需要考慮的現實問題,解決了這些,小目標的達成也(yě)將觸手可及。

上一條:智慧消(xiāo)防監測預警係統(tǒng)

下一(yī)條:客戶至上,誠信服務

官方微信

手(shǒu)機版

Copyright © 廣州抖阴成人版電(diàn)子科技有限公司 All rights reserved |ICP備18040959號

  • 點擊這裏給我(wǒ)發(fā)消息 人工(gōng)智能(néng)產品銷售
  • 點擊這裏給我發消息(xī) 智能交通產品銷售
  • 點(diǎn)擊這裏給我發消息 產品技術(shù)服務
抖阴成人版_抖阴短视频ios版_成版人抖阴app下载_91抖阴免费版