实战案例:AI产品经理如何介绍“计算机视觉”?
2017-11-08 22:01:10 来源:易采站长网友投稿 作者:人人都是产品经理
做者按照切身司理的项目案例战争时所教,从产物理论的角度,道道计较机视觉,期望对您有所协助。

计较机视觉(Computer Vision)对我去道也算是老伴侣了,我最开端打仗野生智能便是计较机视觉相干的常识。近来受益于老迈逐日带我来旁听的算法则会,又减上看了缓坐(商汤)的《计较机视觉的完好链条,从成像到晚期视觉再到辨认了解》,发明许多疑息,其时没有以为有甚么,如今念念,每步皆是故意义的。
明天,我会按照切身司理的项目案例战争时所教,从产物理论的角度,道道计较机视觉。
1、媒介
计较机视觉(computer vision)是利用计较机和相干装备对死物视觉的一种模仿。它次要使命是经由过程对收罗的图片或视频停止处置以得到响应场景的三维疑息。
正在缓坐的分享中,将计较机视觉的完好链条分为了三部门:
成像(image)
晚期视觉(early vision)
辨认了解(Recognition)
本文也将按照缓坐对全部链条的三部门分类,别离用实践例子分离道道产物正在三部门中能够存眷的内容。
2、成像(image)
成像便是模仿的相机本理,便是正在处理如何把拍摄照片的量量停止提拔的成绩。
我们正在实践产业使用中,常常发明实践数据战尝试室数据相好过年夜,尝试数据的量量近近好于尝试室数据。愈甚者正在最开端锻炼模子的时分,我们会发明尝试室模子正在实践场景毫无功效。
颠末屡次实验测试,我们发明影响图象量量的果素大要有以下几类:
光照影响
过暗或过明等非一般光照情况,会对模子的结果发生很年夜滋扰。正在处理光照影响那个成绩上,我念能够经由过程两种方法:
1)从产物角度掌握:
a.正在用户能够改换情况的条件下(好比脚机自拍等),可语音/界里提醒用户今朝情况不睬念,倡议换一个情况。
b.用户不克不及掌握改换情况的状况下(好比人脸辨认、车辆辨认等摄像头牢固的场景),只能经由过程调试硬件设备补偿那个成绩。
夜早:正在产业上我们碰着过曝大概过暗的状况更多皆是正在早晨,因为摄像头正在早晨会主动切换到乌夜场景(从图片上看便是从彩色切换为口角),因而正在早晨强光下(比方车灯映照)图象便会过曝,那样的状况我们能够经由过程强迫设置摄像头情况为白日(图象为彩色)去制止。过暗的状况从节流本钱角度看,我们能够正在摄像头中间删减一个光芒收集、功率没有下的灯去补偿。固然那两个成绩也能够经由过程购置下量量的摄像头处理,但那样做也意味着更下的本钱。
白天:白日也会呈现光芒过明的状况,那种状况能够思索用滤光片等等。
2)算法角度掌握
用算法将图片停止处置,能够将图片规复得让人眼看浑的水平。缓坐正在文及第例了那样一张图片:

那张图片从暗到明,颠末算法的处置我们能够不言而喻天不雅察到全部图片的内容。那个法子十分灵敏,但也对公司的算法提出了更下的请求。我们晓得每次算法的过滤工夫长短常主要的,假如正在对工夫请求十分严厉的场景(人脸辨认、车辆辨认),那样正在辨认之前借要对图片停止转化,无疑是删减了输出成果的工夫。手艺真力没有那末强的公司能够是需求衡量一下的。
恍惚(blur)
恍惚也是产业中常常逢到且使人非常头痛的成绩。那里我们先将恍惚分下类:
活动恍惚:人体挪动、车辆挪动
对焦恍惚:摄像头间隔等果素组成,相似远视眼,图象中低频存正在,下频缺得。以是需求用算法想法补齐下频部门。
低分辩率好值恍惚:小图放年夜等,图象中低频存正在,下频缺得。以是需求用算法想法补齐下频部门。
混淆恍惚:多种恍惚范例配合存正在
关于恍惚产物上能掌握的场景比力少,仅针关于第一种活动恍惚且产物战用户有交互的状况下才气做到。其他范例的恍惚均需求接纳算法停止处置。
我们发明年夜大都模子(包罗face++等手艺比力前沿公司的模子),也会呈现年夜量一般图象被判为恍惚。从算法角度讲那能够没有是很幻想,但从产业角度讲那是能够被承受的,被误判为恍惚图象的一般图象会被过滤失落大概颠末算法处置后再辨认,那对用户去道没有会形成利用上的没有适。并且我们也能包管阈值以上的图皆是一般图片,对模子锻炼去道也是有益的。以是,产物需求存眷的准确率战召回率正在某种特定状况下能够低落请求。
影响图象量量的果素除光照、恍惚借有许多好比噪声、分辩率等等成绩,那些成绩年夜多也是从算法战硬件上来劣化,值得留意的是我之条件过的,需求思索到工夫战本钱的衡量。
3、晚期视觉(early vision)
early vision那部门实在我之前出有总的观点,看了缓坐的分享,转头去才发明“哦!本来各人其时做的是那个部门的内容”。
early vision次要是做哪些事情呢?次要是图象朋分、边沿供与、活动战深度的估量。那些内容实在出有间接的成果使用,是一个“中心形态”。

图象朋分是指将特定的影象朋分成【地区内部下性分歧】而【地区间纷歧致】的手艺,是图象处置中最根底战最主要的范畴之一。
图象朋分办法有许多种,好比灰度阈值朋分的办法、边沿检测法战地区跟踪等办法。许多品种的图象或风景皆有相对应的朋分方法对其朋分,但同时有些朋分办法也仅限于某些特别范例的图象朋分。
拿边沿检测去道,其目标是找到图象中明度变革猛烈的像素面组成的汇合,表示出去便是表面。

缓坐提出了early vision现今朝的两个成绩:
成果没有准确
需求少工夫的常识沉淀才气做到
第一个成绩的处理法子是用端到真个方法,第两个成绩的处理法子能够依托数据驱动。
那部门产物参与的比力少吧,平常跟算法同事相同闻声比力偏偏多的反应是正在图象朋分上有一些缺点。像缓坐道的“怎样样用那种中心的成果来获得更好的使用,至古去道以为那皆是一个比力易答复的成绩”,因而产物大概能够来思索晚期视觉间接使用的场景。
4、辨认了解(Recognition)
辨认了解是需求把一张(输进)图对应到一张(输出)图,大概道一张(输进)图对应到一其中间成果。简朴去道便是把一张图对应到一个笔墨或标签。那此中有两个主要的果素:标签、数据。那两个果素广度战粗度越下,针对模子最初的辨认结果便越好。
标签
标签的界说实在也便是划定规矩的界说,我正在上一篇文章《AI产物司理需求理解的数据标注事情》里有提过,越准确的标签必定对模子的成果有益,但同时越准确的标签意味着那类标签下的数据量便会越少,产物也需求思索到那个果素。
借有一些会被客观果素影响的标签订义,好比颜值,每一个人对颜值的评价皆是纷歧样的。缓坐道正在他们的颜值模子里会分为“标致”“没有标致”两个标签,次要是靠交际网站上的评分战明星取群众的区分去标注。实在我从前也跟过颜值的模子,正在我的模子里对颜值愈加细化了:有都雅、一般、丑。除按照交际网站挨分、明星挨分那种方法,我的经历是存眷数据的场景范例,许多数据被回为一类皆是场景类似的。好比如花,我们以为丑吧?年夜大都男扮女的打扮也城市被界说为丑。
别的更细的标签细分会有更多的降天能够性,我印象最深的便是从前颜值模子有一个节日运营举动,主题是扮丑,办得越丑的人借会有小礼物,那个举动上线后正在友商的用户圈内惹起了很下的存眷度。其时我接到那个举动的时分思惟实在是被推翻的,果为我最开端以为颜值模子能够存正在的场景次要是来辨认好的人,好比正在曲播等仄台中来辨别主播的颜值,保举更优良的主播上尾页等等后真个使用,出有念过借能反着用。颠末那个举动的启示,厥后我们也发明颜值模子正在文娱性上能够有更多发掘的能够性。
那样看出处于我们的模子多了一个标签订义,便多了一种降天的能够性,标签的主要性也便不问可知了。
数据劣化
数据的数目战量量对模子去道举足重沉。近来刚领受到的重磅动静:阿法狗的弟弟阿法元出有任何先验常识的条件下,经由过程完整的自教,挨败了由数据锻炼出去的阿法狗。我信赖当前那个手艺必定会愈来愈多的使用,道没有定当前的确正在某些范畴倒霉用海量数据也能完成模子锻炼。可是便今朝而行,正在计较机视觉范畴,数据的年夜量性是重中之重的。
我们各人必定皆晓得,数据劣化能够使模子愈来愈好。甚么范例的功用表示得欠好,便要挖补那些对应的数据。而除那个知识中,实在数据劣化借能够用去处理我们常常正在锻炼历程中呈现的成绩:过拟开。
甚么是过拟开?

凡是去讲是模子把数据进修过深,数据中的细节战乐音也进修出来了,那样便招致模子泛化的机能变好。过拟开的表示是,一个模子(一个假定)正在锻炼散上表示得很好,可是正在测试散上表示确实没有是很好。
那该怎样经由过程数据限定过拟开呢?
从头浑洗数据。数据的乐音太多会影响到模子结果,浑洗数据可以把因为那个果素形成的过拟开成绩躲避
删减锻炼散的数据量。假如锻炼散占总数据的比例太少,也会形成过拟开。
固然也能经由过程算法限定那个成绩的,好比正则化办法战dropout法,当前有空我们能够再深化会商。
5、项目理论 (以车型辨认举例)
车辆检测体系下有许多CV相干的使用,好比车型辨认、车牌辨认、车色彩辨认等等。我们从车型辨认那一个例子动手,探究项目标详细流程。
项今朝期筹办
1.数据筹办:
车型那个主题道年夜没有年夜,道小没有小。齐天下的车辆品牌数量约莫三四百个,每一个品牌上面又有几十种车系。我们从0开端坐项,最少需求把常睹的车辆车系皆包罗。像群众、歉田、奔跑、宝马、奥迪、当代等等热点车辆品牌更是需求拿齐数据。每种车型最少有车头、车尾、车身三种根底数据。
好比奔跑C200:
那三张图片代表了三种数据,差别场景下那三种数据的主要性年夜为差别。正在项今朝期假定我们定下去辨认车型那个需供次要使用场景是“泊车场辨认车辆”,那车头那个数据相对而行便愈加主要,需求花更多心机搜集。为何呢?我们能够设想,泊车场的车辆辨认摄像头为了捕获车商标,普通会将摄像头正对车辆,摄像头传上去的数据很少会有杂侧里车身的数据以至车尾数据。我们为了项目更快天使用降天,其他范例数据比力短少的状况是能够临时放下前期再做劣化的。

正在数据筹办的历程中,尾先需求爬虫从网上爬与数据,再由野生挑选过滤到不成用的数据,将数据同一整开,才气停止下一步事情。
2.文档筹办
A)数据标注文档,包罗我们项目一共所露几钟车型、每种车型别离对应甚么款式。数据标注中需求留意的成绩,多辆车的图片、角度刁钻的图片能否需求舍弃等等。
B)产物文档,包罗降天场景阐明、需供阐明文档等通例文档。那里拿产业车辆辨认需供阐发下体系设想:
算法需供形貌(辨认的品种、范畴、速率、精确率、不变性等等)
摄像头装备硬件需供形貌、情况形貌、数据传收形貌、摄像头设置形貌
仄台法式设想(车辆辨认体系仄台前后端设想)
数据联系关系形貌(车辆疑息阐发统计联系关系)
假如摄像头正在局域网,且有布控功用(辨认车辆乌名单的需供)借需求:
下收法式(思索云端到当地的图象特性下收)
面播法式设想(能够从互联网检察当地摄像头)
项目流程跟踪
1.硬硬件端:根据通例的硬硬件项目跟踪开辟
2.算法:车型辨认的流程根本以下:

车型图象上传:经由过程过摄像头/web上传
图象预处置:包罗了上文成像部门中的恍惚图象规复处置(活动恍惚有快速算法来恍惚:经由过程已知速率V、位移S,肯定图象中随便面的值)

early vision中的图象朋分(将目的图象从布景图中标识出去,便于图象辨认,能够思索边沿检测办法)、图象两值化(将图象中的像素面的灰度值设置为0大概255,利用表面跟踪让目的表面更加凸隐)

图象特性提与

特性比对
项目测试
摄像头测试
摄像头取面播法式测试
面播法式(可及时检察摄像头的法式)取仄台背景法式测试
算法取仄台背景测试、备用接心测试
模子辨认工夫测试
模子辨认精确率、召回率测试
效劳器不变性测试
收集带脱期造测试
正反背测试
其他仄台、硬件产物通例测试
项目验支
产物根据流程功用一一验支
6、跋文
明天从产物理论角度梳理了下计较机视觉的链条,内里能够没有怎样触及到算法常识,我更多的是念经由过程分享我小我私家阅历给各人,能发生更多正在产物上的碰碰。
固然正在全部流程中借有许多故意思的事,各人能够多理解相干的常识,有念法也能够战我多多交换.











闽公网安备 35020302000061号