目前多家人工智能公司已開始布局鑒黃業(yè)務,鑒于近期在線直播火爆,有些公司已經開始切入直播鑒黃這個細分領域。為此,有媒體就以下問題請教了AI鑒黃領域的專家。
網絡女主播
Q:直播、在線視頻、圖片鑒黃的區(qū)別在哪兒?直播的鑒黃難度是否最大?要解決哪些技術問題?
A:
其實這三項(直播,在線視頻,圖片鑒黃)差異不大,三者都可歸類為實時視頻處理和海量圖片處理。
視頻/直播是動態(tài)的,圖片是靜態(tài)的。鑒別視頻和直播時,可以把動態(tài)內容解碼變成圖片幀來判斷,這樣就與靜態(tài)圖片鑒別沒差了。
至于技術問題,其實鑒黃在算法層面難度并不高,利用深度學習算法訓練后,就能達到不錯的鑒黃效果。
目前主要是通過間隔截圖、關鍵幀截圖之類的對直播和在線視頻進行識別處理,所以最終也是對單張圖片的處理。
但是,由于直播的實時性,所以直播相對于另外在線視頻和圖片,對于機器的圖片識別的處理速度要求較高,這主要是對于計算能力和算法的要求加大。
至于是屏蔽、刪除或者禁播等方面的處理,主要是看業(yè)務方,可以選擇由機器自動處理或者人工介入。
Q:既然算法門檻不是很高,為什么一些 CV 公司不增一項視頻/直播鑒黃業(yè)務撈點油水?
A:
一方面是他們不太愿意做。
另一方面雖然 CV 公司可能有現(xiàn)成的鑒黃算法訓練系統(tǒng)平臺,但是他們缺數據。鑒黃需要大量的數據來進行訓練。黃色圖片和視頻幀最好達到十萬的量級深度學習才能跑起來。至于如何收集這些數據,一般情況下很多視頻直播都已經有現(xiàn)成的,包括鑒黃中心等都有非常大量的此類圖片。
剛提到大批量數據用深度學習來訓練,而訓練小批量數據一般采用傳統(tǒng)的特征分析加分類器算法來做,但效果和精度沒有目前的深度學習高。
Q:直播鑒黃是不是要識別里面的每一幀圖像,這樣計算量豈不是很大?
A:
這與算法能力關系不大,在算法和工程能力都已經達到最優(yōu)的情況下,這個是屬于企業(yè)的成本預算問題。
直播是視頻流,企業(yè)如果對直播的每一幀的圖片都進行識別,這是非常巨大的數據量,企業(yè)的運營成本自然較高。所以我們一般建議企業(yè)按自己的需求,對于視頻先進行抽幀處理,例如一分鐘視頻的視頻可以按照時間段抽 6-15 幀左右的圖片進行識別處理之類的來控制成本。
Q:鑒黃存在哪些難點?
A:
實時視頻影像分析大致通過三大方面進行鑒定:
是否有人物(有:色情概率增加)
人形輪廓的膚色比例(大:色情概率增加)
膚色比例大
姿態(tài)分析(性行為姿勢:色情概率增加)
性行為姿勢
人類對于色情的定義較為廣泛,多種情況下對于色情的鑒定標準也會有不同。在這基礎上其實對于黃色和非黃色圖片的區(qū)分,有時候不是特別明顯,很難判斷。舉個通俗的例子,赤裸上身的男子照片(屬于膚色比例大),這種圖片本質上屬于非黃色圖片,但很多時候,因為訓練數據里有類似圖片被判定為黃色圖像,存在判錯的問題。因此需要利用大量樣本去不斷地訓練它,讓機器不斷糾正,學習更多特征避免這種“低級錯誤”。
這也正是上面提到部分 CV 公司不涉入鑒黃業(yè)務的原因,因為一直需要大量樣本去不斷訓練、糾正,工程量挺大。
Q:鑒黃的數據訓練過程是什么樣的?
A:
通俗講,可以把深度學習理解為一個空白的大腦,海量數據就是灌輸進來的經驗。當我們把大量的色情、性感、正常的樣本的屬性告訴深度學習的引擎, 讓引擎不斷學習,然后把他們做對的進行獎勵,做錯的就懲罰,當然這些獎勵和懲罰都是數學上的,最后空白的腦袋就會學成了一種連接的模型,這種模型就是為了鑒別色情與非色情而生的。
綜合上述內容,AI 科技評論把人工智能鑒黃總結為以下幾點:
實時視頻影像分析大致要從三個方向鑒定:是否有人物、人形輪廓的膚色比例、姿態(tài)分析。
直播/視頻和圖片鑒黃區(qū)別不大,把動態(tài)視頻解碼為圖片幀就與圖片沒差了。視頻鑒黃不會對每一幀進行識別,一般是從固定時間段里抽取幾幀進行識別。
黃色的圖片和視頻幀最好達到十萬的量級,深度學習才能跑起來。而訓練小批量數據一般采用傳統(tǒng)的特征分析加分類器算法來做,但效果和精度不如深度學習。
屏蔽、刪除或者禁播等方面的處理,主要是看業(yè)務方,可以選擇由機器自動處理或者人工介入。
最后,鑒黃的棘手之處主要是難以掌握色情和非色情的臨界點,機器容易把正常圖片(如男生上身半裸圖片)誤判為色情圖片,因此需要大量的數據不斷去訓練和糾正,是個慢熬的苦差事,這也是部分 CV 公司不涉入鑒黃業(yè)務的一大原因。
(來源:雷鋒網 編輯:BZ)
新聞熱點
疑難解答