第一讲：

现状：

现在处于信息爆炸时期，需要依赖计算机视觉完成对照片的标签和分类，人工无法完成。

现在的挑战：massive data，challenge of such “dark matter"（视频、音频资料称为Dark matter of Internet）

1.1 A brief history of computer vision

计算机之前的历史：

①5.4亿年前，物种大爆发的一个解释是因为进化出了眼睛

②文艺复兴：照相机

③Hubel&Wiesel实验：生物的大脑是如何处理视觉信息的？

基础视觉区：简单的形状结构处理，边缘决定了形状

现代计算机视觉：

① 现代计算机视觉的先驱：LARY ROBERTS论文”block world"，解析图片的边缘

② 现代计算机视觉诞生的时间：1966年夏季，MIT AI LAB成立并决定开始处理计算机视觉的问题。

Stanford AI lab建立者：John McCarthy，提出AI这个单词

③ David Marr从神经科学领域给了我们继Hubel&Wiesel之后的第二个领悟：视觉是分层的

现在的深度学习架构的基石：

Hubel&Wiesel实验：从简单的形状开始（边缘）

David Marr：建立分层的模型（input image——edge image——2.5D sketch（处理遮挡问题）——3D model），这是一个概念性的指导思想，我们称之为“representation”

④ 80年代涌现第一批视觉识别算法：

Tomas Binford和Brook（Stanford）提出“generalized Cylinder”模型：世界由简单形状组成，实体都是形状的组合（从不同角度观察）

斯坦福研究院SRI提出Pictorial Structure：专注于概率模型方面，也认为物体由简单形状组成，各部分之间由“弹簧“连接，允许有一定变形———》多样性

David Lowe论文：边缘&边缘组成的简单形状来识别物体

⑤ 90年代，开始着手处理彩色画面

重要成果一：不是识别图片物体，而是将图片分割成有意义的几部分，称之为”感知分组“，感知分组是视觉领域最重要的问题之一。

（在这节课中会发现这个简单问题并没有彻底解决，still finding the final solution。）

这个成果是“normalized cut”，第一次使用现实世界的图片试图解决非常核心的问题。by Malik，伯克利教授，1997。

重要成果二：Viola Jones Face Detector（论文：实时面孔检测） ——>后被富士引用制造第一台具有人脸检测功能的数码相机，是第一个用到大众消费产品上的高级视觉算法产品。代表了计算机视觉领域研究焦点的一次变迁（从给3D建模转到了识别领域）计算机视觉领域最重要的问题：识别问题和AI重要成果三：features。follow PASCAL的成果，建立了超大规模的项目：ImageNet。在这个课程中要export一部分做作业。ImageNet有5000w张图片，all clean by hand，label了2w+分类。使用Amazon Mechanic Turk平台完成。ImageNet Competition for Object Recognition：对1000 object classes（接近150张图片），比较各种算法的性能，计算机视觉的奥林匹克比赛。2012年挑战赛冠军：CNN，该算法源于七八十年代————>beginning of deep learning revolution and the promise of this class

1.2 CS231n overview

CS231n focuses on one of the most important problems of visual recognition - image classification.

这节课关注的问题：

① 图像分类：关注大图整体

② object detection： where things exactly are?

③ image captioning，图片描述:

这堂课需要学习这些问题的细微差别和细节

Convolutional Neural Network(CNN)只是深度学习架构的一种。2012年,Alex Krizhesky和导师Geoff Hinton提出CNN（7层结构的）。在这之前一直是特征+SVM的分层结构，没有端到端学习的风格特色。2015年，151层CNN模型，by MSAR，称为深度残差网络。Kunnihiko Fukushima，日本计算机科学家提出了模型Neocogitron，神经网络架构的开端。Yann Lecun在AT&T的Bell Lab工作，尝试识别手写，从家简单边缘开始，在每一层网络对图片过滤，再放到一起池化、滤波、池化。。。建立这个结构。2012年,Alex Krizhesky和导师Geoff Hinton用了近乎一样的结构参加了比赛。计算机视觉智能比物体识别更任重而道远（visual intelligence goes far beyond object recognition...）。除了imagenet，仍有很多问题很有趣：对整个照片标记、感知分组、识别和3D整合、motion和场景、物体间关系等等计算机视觉的愿景1：看图讲故事                            2:   图片细节，理解力

posted on

2018-02-15 16:08 阅读(

...) 评论(

...)

转载于:https://www.cnblogs.com/amberdata/p/8449389.html

你可能感兴趣的文章

[转]CodeSmith和PowerDesigner的使用安装和数据库创建