博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
斯坦福CS231n笔记(一):Introduction
阅读量:5009 次
发布时间:2019-06-12

本文共 2424 字,大约阅读时间需要 8 分钟。

CS231n课程界面:

第一讲:

现状:

现在处于信息爆炸时期,需要依赖计算机视觉完成对照片的标签和分类,人工无法完成。
现在的挑战:massive data,challenge of such “dark matter"(视频、音频资料称为Dark matter of Internet)

1.1 A brief history of computer vision

计算机之前的历史:

①5.4亿年前,物种大爆发的一个解释是因为进化出了眼睛
②文艺复兴:照相机
③Hubel&Wiesel实验:生物的大脑是如何处理视觉信息的?
基础视觉区:简单的形状结构处理,边缘决定了形状

现代计算机视觉:

① 现代计算机视觉的先驱:LARY ROBERTS论文”block world",解析图片的边缘
② 现代计算机视觉诞生的时间:1966年夏季,MIT AI LAB成立并决定开始处理计算机视觉的问题。
Stanford AI lab建立者:John McCarthy,提出AI这个单词
③ David Marr从神经科学领域给了我们继Hubel&Wiesel之后的第二个领悟:视觉是分层的
现在的深度学习架构的基石:
Hubel&Wiesel实验:从简单的形状开始(边缘)
David Marr:建立分层的模型(input image——edge image——2.5D sketch(处理遮挡问题)——3D model),这是一个概念性的指导思想,我们称之为“representation”

④ 80年代涌现第一批视觉识别算法:

Tomas Binford和Brook(Stanford)提出“generalized Cylinder”模型:世界由简单形状组成,实体都是形状的组合(从不同角度观察)
斯坦福研究院SRI提出Pictorial Structure:专注于概率模型方面,也认为物体由简单形状组成,各部分之间由“弹簧“连接,允许有一定变形———》多样性
David Lowe论文:边缘&边缘组成的简单形状来识别物体

⑤ 90年代,开始着手处理彩色画面

重要成果一:不是识别图片物体,而是将图片分割成有意义的几部分,称之为”感知分组“,感知分组是视觉领域最重要的问题之一。
(在这节课中会发现这个简单问题并没有彻底解决,still finding the final solution。)
这个成果是“normalized cut”,第一次使用现实世界的图片试图解决非常核心的问题。by Malik,伯克利教授,1997。

重要成果二:Viola Jones Face Detector(论文:实时面孔检测) ——>后被富士引用制造第一台具有人脸检测功能的数码相机,是第一个用到大众消费产品上的高级视觉算法产品。代表了计算机视觉领域研究焦点的一次变迁(从给3D建模转到了识别领域)计算机视觉领域最重要的问题:识别问题和AI重要成果三:features。follow PASCAL的成果,建立了超大规模的项目:ImageNet。在这个课程中要export一部分做作业。ImageNet有5000w张图片,all clean by hand,label了2w+分类。使用Amazon Mechanic Turk平台完成。ImageNet Competition for Object Recognition:对1000 object classes(接近150张图片),比较各种算法的性能,计算机视觉的奥林匹克比赛。2012年挑战赛冠军:CNN,该算法源于七八十年代————>beginning of deep learning revolution and the promise of this class

1.2 CS231n overview

CS231n focuses on one of the most important problems of visual recognition - image classification.
这节课关注的问题:
① 图像分类:关注大图整体
② object detection: where things exactly are?
③ image captioning,图片描述:
这堂课需要学习这些问题的细微差别和细节

Convolutional Neural Network(CNN)只是深度学习架构的一种。2012年,Alex Krizhesky和导师Geoff Hinton提出CNN(7层结构的)。在这之前一直是特征+SVM的分层结构,没有端到端学习的风格特色。2015年,151层CNN模型,by MSAR,称为深度残差网络。Kunnihiko Fukushima,日本计算机科学家提出了模型Neocogitron,神经网络架构的开端。Yann Lecun在AT&T的Bell Lab工作,尝试识别手写,从家简单边缘开始,在每一层网络对图片过滤,再放到一起池化、滤波、池化。。。建立这个结构。2012年,Alex Krizhesky和导师Geoff Hinton用了近乎一样的结构参加了比赛。计算机视觉智能比物体识别更任重而道远(visual intelligence goes far beyond object recognition...)。除了imagenet,仍有很多问题很有趣:对整个照片标记、感知分组、识别和3D整合、motion和场景、物体间关系等等计算机视觉的愿景1:看图讲故事                            2:   图片细节,理解力
posted on
2018-02-15 16:08 阅读(
...) 评论(
...)

转载于:https://www.cnblogs.com/amberdata/p/8449389.html

你可能感兴趣的文章
[转]CodeSmith和PowerDesigner的使用安装和数据库创建
查看>>
Android手机配置gcc,实现手机编译代码
查看>>
Java单例模式
查看>>
重温WCF之消息契约(MessageContract)(六)
查看>>
Excel2007制作直方图和正态分布曲线图
查看>>
android adb常用指令
查看>>
Android框架之路——GreenDao3.2.2的使用
查看>>
类方法WCF学习笔记-KnowTypeAttribute用法
查看>>
平台程序微信平台开发应用的签名
查看>>
程序卡OK6410裸板更新程序_update
查看>>
MYSQL用户名:root
查看>>
JavaScript 开发规范要求
查看>>
Devstack 安装OpenStack Pike版本(单机环境)
查看>>
Javascript 函数初探
查看>>
类的定义、声明使用
查看>>
转载,gini系数代码对应的公式
查看>>
编译安装mysql-5.6.40
查看>>
年终总结
查看>>
初创互联网公司技术架构变迁之路
查看>>
【BZOJ 3676】 3676: [Apio2014]回文串 (SAM+Manacher+倍增)
查看>>