在深度學習中,卷積神經網絡(CNN或ConvNet)是一類深度神經網絡,最常用於分析視覺圖像。基於它們的共享權重架構和平移不變性特征,它們也被稱為位移不變或空間不變的人工神經網絡(SIANN)。它們在圖像和視頻識別,推薦係統,圖像分類,醫學圖像分析,自然語言處理,和財務時間序列中都有應用。

知識薈萃

卷積神經網絡(CNN)從入門到精通——一個過來人的總結

基礎入門

深度學習是一門實踐科學,實驗發展遠遠甩開了理論研究,因此本文的架構采用理論與實踐相結合的模式。

粗略了解

首先可以去專知深度學習條目下看看相關文章,

針對卷積神經網絡,我們可以通過如下文章了解基本概念

卷積神經網絡工作原理直觀的解釋?https://www.zhihu.com/question/39022858

技術向:一文讀懂卷積神經網絡CNNhttp://dataunion.org/11692.html

深度學習元老Yann Lecun詳解卷積神經網絡https://www.leiphone.com/news/201608/zaB48AcZ1AFm1TaP.html

CNN筆記:通俗理解卷積神經網絡https://www.2cto.com/kf/201607/522441.html

了解完基本概念之後,還需要對CNN有一個直觀理解,深度學習可視化是一個非常不錯的選擇

Visualizing and Understanding Convolutional Networks中文筆記http://www.gageet.com/2014/10235.php

英文原文,感興趣的可以看一下https://arxiv.org/abs/1311.2901

基本實踐

在開始具體的實踐之前,可以先去tensorflow的playground嚐試一番,地址http://playground.tensorflow.org/,指導http://f.dataguru.cn/article-9324-1.html

之後就可以在自己的電腦上實驗了,首先,使用GPU是必須的:

安裝cudahttp://blog.csdn.net/u010480194/article/details/54287335

安裝cudnnhttp://blog.csdn.net/lucifer_zzq/article/details/76675239

之後就是選擇適合自己的框架

現在最火的深度學習框架是什麼?https://www.zhihu.com/question/52517062?answer_deleted_redirect=true

深度 | 主流深度學習框架對比:看你最適合哪一款?http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650719118&idx=2&sn=fad8b7cad70cc6a227f88ae07a89db66#rd

當然,還有一個專門評價框架的github項目,更新比較勤https://github.com/hunkim/DeepLearningStars

如果有選擇困難症的話,不負責任地推薦兩個框架:tensorflow和pytorch,tensorflow可視化和工程銜接做得很好,pytorch實現比較自由,用起來很舒服

tensorflow官網http://www.tensorflow.org/

pytorch 官網http://pytorch.org/

基本按照官網上的指示一步步地安裝就沒啥大問題了,如果真遇到問題,可以上一個神奇的網站https://stackoverflow.com/搜索解決方法,基本上都能找到

還需要熟悉一個重要的工具githubhttps://github.com/,不論是自己管理代碼還是借鑒別人的代碼都很方便,想要教程的話可以參考這篇回答https://www.zhihu.com/question/20070065

當然,要是偷懶不想看的話,可以用IDE來輔助管理,例如pycharmhttp://www.jetbrains.com/pycharm/,教程http://blog.csdn.net/u013088062/article/details/50349833

一個可視化的交互工具也是非常重要的,這裏推薦神器jupyter notebookhttp://python.jobbole.com/87527/?repeat=w3tc

以上準備工作都做好了,就可以開始自己的入門教程了。事實上官網的教程非常不錯,但要是嫌棄全英文看著困難的話,也可以看看以下教程

tensorflow

TensorFlow 如何入門?https://www.zhihu.com/question/49909565

TensorFlow入門http://hacker.duanshishi.com/?p=1639

穀歌的官方tutorial其實挺完善的,不想看英文可以看看這個中文翻譯http://wiki.jikexueyuan.com/project/tensorflow-zh/

pytorch

PyTorch深度學習:60分鍾入門(Translation)https://zhuanlan.zhihu.com/p/25572330

新手如何入門pytorch?https://www.zhihu.com/question/55720139

超簡單!pytorch入門教程(一):Tensorhttp://www.jianshu.com/p/5ae644748f21

如果對python不熟悉的話,可以先看看這兩個教程python2:http://www.runoob.com/python/python-tutorial.html,python3:http://www.runoob.com/python3/python3-tutorial.html

如果隻是玩票性質的,不想在框架上浪費太多時間的話,可以試試keras

Keras入門教程http://www.360doc.com/content/17/0624/12/1489589_666148811.shtml

進階學習

經過了前麵的入門,相信大家已經對卷積神經網絡有了一個基本概念了,同時對如何實現CNN也有了基本的了解。而進階學習的學習同樣也是兩個方麵

理論深入

首先是反向傳播算法,入門時雖然用不著看,因為常用的框架都有自動求導,但是想要進一步一定要弄清楚。教程http://blog.csdn.net/u014313009/article/details/51039334

接著熟悉一下CNN的幾個經典模型

基礎模型AlexNet

文章:ImageNet Classification with Deep Convolutional Neural Networkshttp://ml.informatik.uni-freiburg.de/former/_media/teaching/ws1314/dl/talk_simon_group2.pdf

講解:http://blog.csdn.net/u014088052/article/details/50898842

代碼:tensorflowhttps://github.com/kratzert/finetune_alexnet_with_tensorflowpytorchhttps://github.com/aaron-xichen/pytorch-playground

一個時代ResNet

文章:Deep Residual Learning for Image Recognitionhttps://arxiv.org/abs/1512.03385

講解:http://blog.csdn.net/wspba/article/details/56019373

代碼:tensorflowhttps://github.com/ry/tensorflow-resnetpytorchhttps://github.com/isht7/pytorch-deeplab-resnet

最近挺好用DenseNet

文章:Densely Connected Convolutional Networkshttps://arxiv.org/pdf/1608.06993.pdf

講解:http://blog.csdn.net/u014380165/article/details/75142664

代碼:原版https://github.com/liuzhuang13/DenseNettensorflowhttps://github.com/YixuanLi/densenet-tensorflowpytorchhttps://github.com/bamos/densenet.pytorch

推薦先看講解,然後閱讀源碼,一方麵可以加深對模型的理解,另一方麵也可以從別人的源碼中學習各種框架新姿勢。

當然,我們不能僅僅停留在表麵上,這裏推薦一本非常有名的書《Deep Learning》,這裏是中文版的鏈接https://github.com/exacity/deeplearningbook-chinese

更為基礎的理論研究目前還處於缺失狀態

實踐深入

要是有耐心的同學,可以學習一下斯坦福新開的課程https://www.bilibili.com/video/av9156347/

具體到實踐中,有非常多需要學習的點。在學習之前,最好先看看調參技巧

深度學習調參有哪些技巧?https://www.zhihu.com/question/25097993

過去有本調參聖經Neural Networks: Tricks of the Trade ,太老了,不推薦看。

dropout,lrn這些過去常用的模塊最近已經用得越來越少了,就不贅述了,有關正則化,推薦BatchNormhttps://www.zhihu.com/question/38102762, 思想簡單,效果好

雖然有了BatchNorm之後訓練基本已經非常穩定了,但最好還是學習一下梯度裁剪http://blog.csdn.net/zyf19930610/article/details/71743291

激活函數也是一個非常重要的點,不過在卷積神經網絡中基本無腦用ReLuhttp://www.cnblogs.com/neopenx/p/4453161.html就行了,計算快,ReLu+BatchNorm可以說是萬金油。當然,像一些具體的任務還是需要具體分析,例如GAN就不適合用這種簡單粗暴的激活函數。

結構上基本完善了,接下來就是優化了,優化的算法有很多,最常見的是SGD與Adam。

所有優化算法概覽http://www.mamicode.com/info-detail-1931210.html

好的算法可以更快地收斂或者有更好的效果,不過大多數實驗中SGD與Adam已經夠用了。

大神們的經驗也是要看一下的:Yoshua Bengio等大神傳授:26條深度學習經驗http://www.csdn.net/article/2015-09-16/2825716

細化研究

前麵的這些學完之後,就是具體的研究項目了,大家可以去這個github上找自己感興趣的論文https://github.com/terryum/awesome-deep-learning-papers,下麵列舉了一些和卷積神經網絡相關的優秀論文。

Understanding / Generalization / Transfer

Distilling the knowledge in a neural network (2015), G. Hinton et al.http://arxiv.org/pdf/1503.02531

Deep neural networks are easily fooled: High confidence predictions for unrecognizable images (2015), A. Nguyen et al.http://arxiv.org/pdf/1412.1897

How transferable are features in deep neural networks? (2014), J. Yosinski et al.http://papers.nips.cc/paper/5347-how-transferable-are-features-in-deep-neural-networks.pdf

CNN features off-the-Shelf: An astounding baseline for recognition (2014), A. Razavian et al.http://www.cv-foundation.org//openaccess/content_cvpr_workshops_2014/W15/papers/Razavian_CNN_Features_Off-the-Shelf_2014_CVPR_paper.pdf

Learning and transferring mid-Level image representations using convolutional neural networks (2014), M. Oquab et al.http://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Oquab_Learning_and_Transferring_2014_CVPR_paper.pdf

Visualizing and understanding convolutional networks (2014), M. Zeiler and R. Fergushttp://arxiv.org/pdf/1311.2901

Decaf: A deep convolutional activation feature for generic visual recognition (2014), J. Donahue et al.http://arxiv.org/pdf/1310.1531

Optimization / Training Techniques

Training very deep networks (2015), R. Srivastava et al.http://papers.nips.cc/paper/5850-training-very-deep-networks.pdf

Batch normalization: Accelerating deep network training by reducing internal covariate shift (2015), S. Loffe and C. Szegedyhttp://arxiv.org/pdf/1502.03167

Delving deep into rectifiers: Surpassing human-level performance on imagenet classification (2015), K. He et al.http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/He_Delving_Deep_into_ICCV_2015_paper.pdf

Dropout: A simple way to prevent neural networks from overfitting (2014), N. Srivastava et al.http://jmlr.org/papers/volume15/srivastava14a/srivastava14a.pdf

Adam: A method for stochastic optimization (2014), D. Kingma and J. Bahttp://arxiv.org/pdf/1412.6980

Improving neural networks by preventing co-adaptation of feature detectors (2012), G. Hinton et al.http://arxiv.org/pdf/1207.0580.pdf

Random search for hyper-parameter optimization (2012) J. Bergstra and Y. Bengiohttp://www.jmlr.org/papers/volume13/bergstra12a/bergstra12a

Convolutional Neural Network Models

Rethinking the inception architecture for computer vision (2016), C. Szegedy et al.http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Szegedy_Rethinking_the_Inception_CVPR_2016_paper.pdf

Inception-v4, inception-resnet and the impact of residual connections on learning (2016), C. Szegedy et al.http://arxiv.org/pdf/1602.07261

Identity Mappings in Deep Residual Networks (2016), K. He et al.https://arxiv.org/pdf/1603.05027v2.pdf

Deep residual learning for image recognition (2016), K. He et al.http://arxiv.org/pdf/1512.03385

Spatial transformer network (2015), M. Jaderberg et al.,http://papers.nips.cc/paper/5854-spatial-transformer-networks.pdf

Going deeper with convolutions (2015), C. Szegedy et al.http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Szegedy_Going_Deeper_With_2015_CVPR_paper.pdf

Very deep convolutional networks for large-scale image recognition (2014), K. Simonyan and A. Zissermanhttp://arxiv.org/pdf/1409.1556

Return of the devil in the details: delving deep into convolutional nets (2014), K. Chatfield et al.http://arxiv.org/pdf/1405.3531

OverFeat: Integrated recognition, localization and detection using convolutional networks (2013), P. Sermanet et al.http://arxiv.org/pdf/1312.6229

Maxout networks (2013), I. Goodfellow et al.http://arxiv.org/pdf/1302.4389v4

Network in network (2013), M. Lin et al.http://arxiv.org/pdf/1312.4400

ImageNet classification with deep convolutional neural networks (2012), A. Krizhevsky et al.http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

Image: Segmentation / Object Detection

You only look once: Unified, real-time object detection (2016), J. Redmon et al.http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Redmon_You_Only_Look_CVPR_2016_paper.pdf

Fully convolutional networks for semantic segmentation (2015), J. Long et al.http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks (2015), S. Ren et al.http://papers.nips.cc/paper/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks.pdf

Fast R-CNN (2015), R. Girshickhttp://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Girshick_Fast_R-CNN_ICCV_2015_paper.pdf

Rich feature hierarchies for accurate object detection and semantic segmentation (2014), R. Girshick et al.http://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf

Spatial pyramid pooling in deep convolutional networks for visual recognition (2014), K. He et al.http://arxiv.org/pdf/1406.4729

Semantic image segmentation with deep convolutional nets and fully connected CRFs, L. Chen et al.https://arxiv.org/pdf/1412.7062

Learning hierarchical features for scene labeling (2013), C. Farabet et al.https://hal-enpc.archives-ouvertes.fr/docs/00/74/20/77/PDF/farabet-pami-13.pdf

Image / Video / Etc

Image Super-Resolution Using Deep Convolutional Networks (2016), C. Dong et al.https://arxiv.org/pdf/1501.00092v3.pdf

A neural algorithm of artistic style (2015), L. Gatys et al.https://arxiv.org/pdf/1508.06576

Deep visual-semantic alignments for generating image descriptions (2015), A. Karpathy and L. Fei-Feihttp://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Karpathy_Deep_Visual-Semantic_Alignments_2015_CVPR_paper.pdf

Show, attend and tell: Neural image caption generation with visual attention (2015), K. Xu et al.http://arxiv.org/pdf/1502.03044

Show and tell: A neural image caption generator (2015), O. Vinyals et al.http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Vinyals_Show_and_Tell_2015_CVPR_paper.pdf

Long-term recurrent convolutional networks for visual recognition and description (2015), J. Donahue et al.http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Donahue_Long-Term_Recurrent_Convolutional_2015_CVPR_paper.pdf

VQA: Visual question answering (2015), S. Antol et al.http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Antol_VQA_Visual_Question_ICCV_2015_paper.pdf

DeepFace: Closing the gap to human-level performance in face verification (2014), Y. Taigman et al.http://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Taigman_DeepFace_Closing_the_2014_CVPR_paper.pdf

Large-scale video classification with convolutional neural networks (2014), A. Karpathy et al.http://vision.stanford.edu/pdf/karpathy14.pdf

Two-stream convolutional networks for action recognition in videos (2014), K. Simonyan et al.http://papers.nips.cc/paper/5353-two-stream-convolutional-networks-for-action-recognition-in-videos.pdf

3D convolutional neural networks for human action recognition (2013), S. Ji et al.http://machinelearning.wustl.edu/mlpapers/paper_files/icml2010_JiXYY10.pdf

更多的需要可以參考專知的另一篇deeplearning相關的文章//www.webtourguide.com/topic/2001228999615594/awesome,其中有很多具體細化的領域以及相關文章,這裏就不重複了。

VIP內容

視頻標題生成與描述是使用自然語言對視頻進行總結與重新表達. 由於視頻與語言之間存在異構特性, 其數據處理過程較為複雜. 本文主要對基於“編碼−解碼” 架構的模型做了詳細闡述, 以視頻特征編碼與使用方式為依據, 將其分為基於視覺特征均值/最大值的方法、基於視頻序列記憶建模的方法、基於三維卷積特征的方法及混合方法, 並對各類模型進行了歸納與總結. 最後, 對當前存在的問題及可能趨勢進行了總結與展望, 指出需要生成融合情感、邏輯等信息的結構化語段, 並在模型優化、數據集構建、評價指標等方麵進行更為深入的研究.

視頻標題生成與描述任務是對給定的視頻進行特征抽象, 並將其轉換為自然語言, 對視覺內容進行結構化總結與重新表達. 它與目前流行的圖像描述任務一樣, 同屬於計算機視覺高層語義理解範疇, 但鑒於視頻數據的時空特性與語義的多樣性、複雜性, 其比圖像描述更具挑戰性.

如圖1所示, 它不僅需要檢測出空間域中的物體、場景、人物等靜態要素, 還要能夠識別時間域上的動作及事件, 反映各視覺語義對象的時空變化, 最後選擇合適的詞彙及句式結構將其組合在一起, 形成符合人們表達習慣的描述語句. 該任務對於自動解說、導航輔助、智能人機環境開發等領域應用前景廣闊, 在推動旅遊、教育及計算機學科本身發展等方麵意義巨大. 但由於該任務涉及計算機視覺、自然語言處理, 甚至社會心理學等學科, 數據處理過程較為複雜, 具有很大的挑戰性.

視頻標題生成與描述研究曆史較為悠久. 在其發展早期, 人們主要借助於SIFT特征(Scale-invariant feature transform, SIFT)[1]、方向梯度直方圖特征(Histogram of oriented gradient, HOG)[2]等手工特征, 采用統計的方式對視頻內容進行抽象, 提取視頻中的語義特征, 然後運用機器學習、分類/識別、檢索、檢測等技術獲取視覺語義對象, 並將其按照預定模板或規則填入相應位置, 組成可讀的描述句子[3-6]. 後來, 人們借鑒機器翻譯的流程, 設計出能夠生成句式更為靈活、用詞更為豐富的“編碼−解碼” 框架結構, 提升了生成句子質量[7]. 但受限於手工特征的表達能力, 其生成的句子在準確性和語義豐富程度等方麵與人工表達仍有較大差距, 難以滿足人們的需求. 隨著深度學習技術的發展, 研究人員使用大規模訓練數據對深度卷積神經網絡(Deep convolutional neural networks, DCNN)進行優化[8-11], 並將其應用於視頻特征提取[12-14]. 深度特征更加抽象, 表達能力更強, 將其與循環神經網絡(Recurrent neural networks, RNN)進行結合, 使得生成的句子中詞彙更加準確、語義更為豐富. 目前, CNN-RNN框架已成為視覺描述任務的基礎架構. 在此基礎上, 研究人員結合三維卷積神經網絡(3D CNN)[15-16]、門限循環單元(Gated recurrent unit, GRU)[17]、注意力機製[18]、視覺概念/屬性機製[19]等, 設計了多種更為複雜的模型與算法, 進一步改善了視頻標題與描述的生成質量.

除對簡單視頻進行高度總結與抽象, 為其生成簡單描述之外, 人們也在尋求對更為複雜的視頻進行精細化表達, 或以事件/場景變化為依據, 對其中的視覺語義片段進行更為細致的描述, 或者提取整個視頻的邏輯語義, 將各片段描述組合為具有一定邏輯結構的描述語段等. 但由於視頻數據的複雜性, 各視覺語義對象本身的變化、各對象之間的邏輯關聯及其交互等仍存在建模困難、挖掘與利用不充分等弊端. 同時, 將其映射為更為抽象的詞彙表達與邏輯語段也在準確性、連貫性及語義性等方麵存在較大挑戰, 生成的描述難以應用在實際場景中. 此外, 在複雜視頻的情感挖掘與個性化表達方麵, 目前尚無較為有效的方法與模型, 生成的描述缺乏生動性與吸引力, 且難以對隱含在視頻內部的潛在語義及可能的外延信息進行推理顯化與表述, 視覺信息與語言之間的語義鴻溝仍然較為明顯.

目前已有部分工作對視頻描述任務進行梳理與總結, 如Aafaq等總結了當前視頻描述的主流方法、數據集和評價指標, 但他們側重於從學習策略(如序列學習、強化學習等)上對各模型進行歸類分析[20]. Li等則從更大的視角出發, 係統總結了視覺(包括圖像和視頻)到語言的建模範式, 並從視覺特征編碼方式的層麵上對各視頻描述主流工作進行了介紹[21]. 本文參考了他們的思路, 但為了更加詳細而清晰地呈現視頻標題與描述生成的研究脈絡, 首先回顧了視頻描述研究的發展曆史, 對其中典型的算法和模型進行了分析和總結. 然後對目前流行的方法進行了梳理, 尤其是基於深度網絡的模型框架, 以視頻特征編碼方式為依據, 按照不同的視覺特征提取與輸入方式, 將各類模型分別歸類到基於視覺均值/最大值特征的方法、基於RNN網絡序列建模的方法、基於3D卷積網絡的方法, 以及基於混合特征編碼的方法. 在每類方法中, 首先對視頻簡單描述模型進行了舉例與概括, 然後對視頻密集描述、段落描述等精細化表達模型做了分析與總結. 此外, 還介紹了視頻描述任務的各類常用驗證數據集及其評價指標體係, 列舉了部分典型模型的性能表現, 並對結果進行了對比分析. 最後對視頻描述任務麵臨的問題及可能研究方向進行了闡述與說明.

  1. 基於模板/規則的視頻描述 不同於靜態圖像, 視頻中的視覺內容是動態可變的, 在靜態的二維數據基礎上, 增加了時間維度, 蘊含的視覺信息更為豐富, 但數據結構也更為複雜. 在為視頻生成標題與描述時, 不僅需要考慮每幀上的視覺語義對象, 還需要兼顧對象隨著時間的變化及其與環境、其他語義對象的交互. 同時還要考慮多尺度時空上的上下文信息, 對視覺信息進行高度抽象, 並將其表現在生成的描述語句中. 正是由於視頻攜帶了更為豐富的視覺信息, 人們一般認為視頻標題生成與描述更具有現實意義, 在自動解說、監控理解等方麵具有巨大的應用價值, 因此其發展曆史也更為悠久. 在具體方法方麵, 早期研究者主要是結合基於模板或固定規則的框架, 設計手工特征從視頻中獲取視覺語義表達, 或使用識別檢測技術檢測出人物、動作、場景等, 將其填入預設的語句模板中, 或按照固定規則組合成描述語句. 其基本框架如圖2所示.

  1. 基於神經網絡的視頻描述 基於模板或規則的視頻描述方法其弊端較為明顯, 生成的描述句子在語法結構、語義表達等方麵都不夠靈活. 目前, 隨著深度學習技術的廣泛應用, 人們也將其應用在視頻描述領域中, 從視頻特征編碼, 到描述語句生成, 設計了多種有效的模型與方法, 大幅提升了模型性能, 有效改善了生成語句的質量. 具體表現在, 人們參考機器翻譯與圖像描述中流行的做法, 使用深度卷積神經網絡及三維卷積神經網絡等對視頻進行特征編碼, 然後使用RNN網絡對視覺特征進行解碼, 逐個生成詞彙並組成句子. 其通用框架與圖像描述類似, 是將視頻作為“源語言”, 將待生成句子作為“目標語言”. 在整個過程中, 其語句的語法、句型結構等不再通過人為設定模板或規則進行幹預, 而是直接從訓練數據中進行自主學習並記憶. 目前, 基於神經網絡的流程與框架, 研究者已開發出多種效果顯著的模型與算法. 但不同方法之間差異巨大, 所結合的相關技術涵蓋了時序特征編碼、檢索與定位、注意力機製、視覺屬性、對抗學習、強化學習等. 本文主要從視覺特征編碼的角度對相關工作進行歸納與梳理, 對各模型與方法的設計動機、原理及所使用的技術進行詳細分析.

3 相關數據集與評價方法 視頻標題生成與描述的驗證與評價比其他傳統的視覺任務(如分類識別[8-11]、目標檢測[101-103]、圖像/視頻檢索[104-105]等)更加複雜. 在對生成的標題與描述進行統計分析時, 其評價指標不僅需要對詞彙預測的精度、句子長度、連貫性進行評價, 還需要對句子的語義豐富程度進行衡量. 在驗證數據集的構建方麵, 不僅需要考慮視頻的類型、複雜程度, 在標注時, 還需要兼顧用詞的準確性、與視頻內容的關聯度, 以及整條句子的連貫性與語義性, 構建過程較為耗時、費力. 而對於更高層次的視頻理解與描述任務, 如融合情感、個性化及隱含語義挖掘的視頻描述, 其評價指標的設計與數據集構建更為困難. 目前, 針對視頻簡單描述、密集描述與結構化描述, 已出現多個公開的數據集; 同時, 人們也借鑒機器翻譯中的BLEU (Bilingual evaluation understudy)[106]、METEOR (Metric for evaluation of translation with explicit ordering)[107]、ROUGE-L (Recall-oriented understudy for gisting evaluation)[108]等評價方法, 並將其引入到視覺描述任務中, 對生成的描述進行多方麵的考量. 本節對目前常用的視頻描述數據集、相關評價方法, 以及部分模型性能進行了梳理與總結。

  1. 總結與展望 視頻描述任務與圖像描述類似, 都是將非結構化的視覺數據轉換為結構化的自然語言, 其間使用中間語言(視覺特征)進行橋接, 以機器學習技術(尤其是深度學習技術)為支撐, 運用多種計算機視覺和自然語言處理技術, 為視頻生成準確、連貫且語義豐富的描述句子. 目前, 針對圖像標題生成與描述, 人們已開發出多種效果顯著的模型與方法, 在圖像簡單描述[18-19, 63-64, 121-124]、圖像密集描述[50, 125-127]、結構化段落描述[128-129], 以及情感及個性化描述[69, 95-99]等方麵均開展了卓有成效的研究工作. 但由於視頻在靜態圖像的基礎上增加了時間維度, 其數據更為複雜, 信息更為豐富, 視覺語義提取與挖掘更加困難, 為其生成可靠且質量較高的描述語句的挑戰性也更大. 目前人們已借鑒機器翻譯任務的流程與框架, 結合圖像標題與生成中的多種技術, 使用3D卷積網絡、RNN序列建模機製、注意力機製、視覺屬性、視覺概念、層次化序列記憶網絡、強化學習技術等, 設計出一係列效果顯著的方法與模型, 已能為視頻生成簡單描述語句, 或為部分視頻生成密集描述/結構化描述語句, 推進了視頻標題生成與描述任務的進展.

本文係統回顧了視頻標題與描述生成的研究曆史, 分析了其研究現狀與前沿動態, 對當前的主流模型進行了梳理、歸納, 並指出了部分模型的優越性及可能的局限性. 在未來的工作中, 以下幾個方麵值得進一步研究與探索:

  1. 在含有多個場景、人物及事件的複雜視頻中, 對其邏輯語義的發現、表征及嵌入的研究尚存在大量空白. 在具體研究中, 不僅要分析視覺信息中各物體、人物、事件之間的關係, 還需要將其映射為自然語言的具體成分, 合理地嵌入到生成的句子中, 實現視頻的精細化、結構化表達與描述. 為解決該問題, 一方麵可借助於視覺推理技術, 以目標識別與檢測等方法完成視覺對象的感知與發現, 以關係檢測、圖網絡等方法發現並構建相應的視覺關係及其演化拓撲, 完成視覺關係的知識圖構建與關聯推理; 另一方麵, 研究視覺關係與語言邏輯之間的映射與轉換, 合理使用視覺屬性、視覺概念等先驗知識, 設計更為魯棒的層次化序列模型, 實現視覺關聯語義到語言邏輯語義的自然嵌入.

  2. 視頻描述模型的學習代價比一般的分類、識別等任務更為高昂, 其訓練數據的收集與標注常耗費大量的人力與物力, 且質量也難以管控. 針對這一問題, 可借鑒零樣本與小樣本學習技術, 通過樣本中的概念與屬性推理, 以較少的訓練數據實現模型較為充分的優化, 生成較為流暢、語義較為豐富、質量較為可靠的描述句子. 同時也可結合遷移學習及強化學習策略, 引入域外知識, 對模型參數進行快速優化, 或通過不斷試錯, 增強模型對於正確解的敏感程度, 實現模型在樣本受限情況下的自主學習. 除研究模型的優化策略外, 同樣也需要構建更為完備的相關數據集, 對其構建方法、標注規則及其質量管控等方麵作出更為有益的嚐試, 以質量更優的訓練數據推進視頻描述任務走向實際應用.

  3. 在各種複雜視頻中, 尤其是包含人物的視頻, 其內容常包含豐富的情感變化及隱含語義, 同時不同的視頻內容對人們也會產生相應的情感影響或個人理解. 而目前人們在研究視頻描述時, 往往隻關注其中的事實表達, 對情感、個性化及隱含信息關注較少, 造成生成的句子趣味性、可讀性不強. 為此, 需要結合人類的情感心理及視覺情感發現技術, 在表情、動作及上下文語義環境上建立其與情感的映射關係, 並通過視覺屬性/概念、注意力機製等技術將情感及個性化信息有機嵌入到生成的句子中. 同時加強對視頻描述可解釋性的研究, 構建相應的知識圖譜, 並結合零樣本學習策略, 通過對現有知識的學習, 對視覺信息之外的隱含語義進行預測和推理, 進一步增強生成句子的可用性.

  4. 視覺描述任務的評價內容及過程比其他視覺任務更加複雜, 不僅需要判斷生成句子對於視頻中物體、人物、動作及關係描述的準確性, 還需要對句子的連貫性、語義性及邏輯性進行衡量. 目前的策略多是借鑒機器翻譯的評價指標, 評價內容較為單一. 當前雖然也有如CIDEr、SPICE等麵向視覺描述任務的評價方法, 但在一些更具針對性的評價任務中, 如對於情感、個性化及邏輯語義的判斷與評價, 這些方法都難以對其進行有效的衡量. 因此, 需要結合現有的評價方法設計思路, 開發更為合理的具有針對性及綜合性的指標體係, 為模型及其描述提供更為客觀、公平的評價機製, 尤其是為強化學習的模型優化方法, 提供更為貼近人們描述與評價習慣的學習與反饋策略.

成為VIP會員查看完整內容
0
13
0

最新論文

Cosmic polarization rotation, which may result from parity-violating new physics or the presence of primordial magnetic fields, converts $E$-mode polarization of the cosmic microwave background (CMB) into $B$-mode polarization. Anisotropic cosmic polarization rotation leads to statistical anisotropy in CMB polarization and can be reconstructed with quadratic estimator techniques similar to those designed for gravitational lensing of the CMB. At the sensitivity of upcoming CMB surveys, lensing-induced $B$-mode polarization will act as a limiting factor in the search for anisotropic cosmic polarization rotation, meaning that an analysis which incorporates some form of delensing will be required to improve constraints on the effect with future surveys. In this paper we extend the ResUNet-CMB convolutional neural network to reconstruct anisotropic cosmic polarization rotation in the presence of gravitational lensing and patchy reionization, and we show that the network simultaneously reconstructs all three effects with variance that is lower than that from the standard quadratic estimator nearly matching the performance of an iterative reconstruction method.

0
0
0
下載
預覽
Top
微信掃碼谘詢專知VIP會員
Top