赵勇:打造人工智能的“上帝之眼”

来源:    发布日期:2016-02-17 10:24:08   阅读量:0

文/记者 李晶


赵勇简介:格灵深瞳联合创始人、CTO,布朗大学计算机工程系博士,毕业后进入谷歌研究院,是Google Glass团队核心成员之一

  沿着颐和园北宫门的红色围墙,翻过白玉石桥,穿过寂静的小巷,在分叉路口,过往的游人很少会注意到此处的一块金属质地铭牌。它并不起眼,嵌在红色的高墙下,上面写着:格林深瞳。

  院落的大门敞开着,地面铺砌整齐的长形砖。影壁背后豁然开朗,一隅池塘,中央坐落着亭廊,宛如穿越到达官翩翩信步游览的所在。碧瓦红墙的一处厅堂阶梯上,上了年纪的野猫,四条腿蜷缩在肥硕的身体下,眯着眼睛,不动声色。

  这样的静、这样的古香古色如今却和科技的最前沿——人工智能——联系在了一起。约定时间刚到,赵勇披着一件加绒外罩、肩上挎着电脑包走进了办公室。室外的寒气似乎没有在他身上留下痕迹。交谈才知道,为了办公方便,他们一家三口搬到了办公室对面的二层小楼上。家和办公室两点一线的距离,不过分分钟就能走到。这里的亭台楼阁是已关闭的会所留下的。作为格灵深瞳的创立者,赵勇喜欢这种气氛,他只简单进行了改造,搬来些办公用品,就开始办公了。

  而喜欢这种沉静的赵勇办起事来却很干脆。拿出电脑,开机,干脆利落地切入了采访的主题:人工智能。

  深度学习,让计算机更聪明

  算得快,记得牢,拎重物,计算机能做的事情超出人类自身的能力。不过,计算机按部就班地做事,步骤(程序)却仍由人类设计。以前计算机做着苦力活,背后动脑的还是人类。

  今天,人工智能离人类的生活更近了一些。近日,《自然》杂志封面刊载了谷歌围棋AI战胜人类职业选手的文章,围棋曾被视为人类智慧集大成的游戏之作,而今人工智能经过深度学习,也可以玩得转了。

  赵勇轻松地按了下回车键,一张电子显微镜下的人的大脑连接图片呈现在屏幕前。大概一立方毫米的人脑里面的内容,是由不同色彩的小点组成的。每一个小点就是一个神经元,每一个神经元里面都会做微小的计算,计算结果再到其他神经元内不停地加工。

  “科学界早就开始尝试,用软件的方式拼凑一个人工的神经元网络,这与‘程序’完全不同。新模式设计的是一个‘大脑’,它通过教材学习,学会一些东西。我们无法清晰地解释这件事,但我们知道类仿生的方法,可以‘教育’计算机,让它变聪明。”

  “人类创造的智能,可以用在医学、交通、安全等很多领域。格灵深瞳的目标是在视觉感知领域创造一个智能,它将成为计算机的一双‘眼睛’。”

  LOOK or SEE?让计算机看且看懂

  这些年,赵勇一直在人工智能领域对计算机视觉展开研究。他曾是美国谷歌研究员资深研究员,Google Glass(谷歌眼镜)的核心研发团队成员之一,还负责探索谷歌未来针对高性能图像分析处理的云计算架构设计。2013年,他回国创立格灵深瞳,继续专注于计算机视觉的同时,将安防领域确定为产品研发的第一个方向。

  刚回国那年,赵勇租住在惠新西街附近。出行的路上,偶尔会遇到一对母女,衣着整齐却跪在地上,铺在地上的字迹写着,数年前,女孩父亲在这条街上被人杀害,案件一直未破。那些年,这条街上还没有安置摄像头,命案线索无从查找。

  如今,世界上每生产两块硬盘,就有一块用于安防视频的存储。这些视频帮助找寻线索,提供破案依据。目前大城市里命案的破案率近百分之百,10%来自其他情报,90%的线索源于安防视频。

  当街上数以百万计的摄像头时刻记录着视频时,安防工作却更为棘手,因为在庞大的数据信息中寻找线索,就像大海里捞针。除非视频能看懂“针”是什么,人工捞针的问题才能解决。

  格灵深瞳就给计算机装上了一双这样的慧眼——三维摄像头。它的外部表现依然是摄像头,但比普通安防摄像头多提供一个维度——深度。世界的原貌是三维的、立体的,如果摄像头是二维的,物体与相机的距离很难分辨。

  三维摄像头的画面弥补了这个缺失,不同颜色呈现出不同距离,还原物体真实形状、位置和大小等信息。以文物保护为例,利用红外相机为文物生成一个肉眼看不到的“气泡”,当三维摄像头拍到有人伸手进去,或拿了任何东西,警报立刻会响起。

  如果偷窃者逃脱了当前摄像头的视觉范围,短时间内,监控中心很难在成百上千的摄像头画面中,确定他逃跑的方向。这是传统摄像头的又一个弊端,无法准确跟踪移动的目标。

  其实,解决这一问题并不复杂,只需调整视角,变平视为俯瞰,格灵深瞳为这个视角取名为“上帝视角”。在上帝视角场景下,人群化作五彩的线圈,彩色线圈跟踪每个人的运动轨迹不停移动着。“这些线圈的颜色代表每个人分配的号码,移动的过程中,每个人都被锁定住。”赵勇解释着。

  “上帝视角”解决了摄像头边界问题,物体移动的轨迹是连贯的,突然出现的不正常移动,很容易被监测人员发现。同时,计算机也会对不正常的操作进行预警。不仅如此,格灵深瞳还能识别24个人体的关节位置,判断拥挤、跌倒或是打架的场景。

  计算机驾驶可以更安全

  如果给计算机一双慧眼,它能看懂的还有很多。不过,格灵深瞳想在“视界”里面挑几个重要的先看懂,除了人,还有车。

  越来越多的私家车造成拥堵,也平添环保问题。私家车寿命期间,5%的时间在行驶,剩下95%的时间是停下的。这意味着,解决交通问题本不需要那么多的汽车。

  “今天,我们有公交、出租车、滴滴打车、优步等,他们提供了共享交通。不过,我们想用自动驾驶的方式解决交通的问题。”赵勇说,当车里面有司机的时候,共享的成本仍是高的,且很多车无法加入共享。但是,车辆自己行驶,从某种程度上说,只要硬件造出来,就不再有其他成本。

  赵勇算过一笔账。从格灵深瞳开车到国贸,以电动汽车的能源成本计算,每公里大约是两元。如果自动驾驶,全程的成本不到10元,与地铁票价相仿。在赵勇看来,让汽车实现完全意义上的“共享”,不应再有司机。这样会更经济、环保和安全。

  自动驾驶,安全问题如何保障?交通安全,是中国面临的严重问题之一。赵勇曾走访各大保险公司,得到2014年关于交通死亡理赔的数据,大概是30万起,这个数据与世界卫生组织在中国独立调查发布的27万起非常接近。对比当年死亡人数900万,因交通事故死亡的人数占到了1/30。

  其实,理论上计算机驾驶比人更可靠、更安全,谷歌已经证明了这一点。美国保险公司发现,每行驶100万公里,美国司机发生交通事故比中国司机少17.5倍。谷歌自动驾驶汽车发生交通事故的记录比美国司机的平均数据好20倍以上。计算可知,谷歌目前的自动驾驶技术,至少比中国司机驾驶安全高出将近100倍。

  事实上,谷歌针对自动驾驶技术的研发,也带动了一批无人车项目的出现。国内曾举办数届高校无人车比赛,百度无人车也在不久前完成路测。但是,这些无人车配置的激光雷达、高精度差分卫星定位系统、高精度惯导等传感器,少则数十万,多则上百万,如此昂贵的装备,距离消费级市场还是太远了。

  格灵深瞳的自动驾驶系统,仅配备消费级GPS,就像手机中用的GPS,成本只有几美元。“高精度”的导航全部依赖于人工智能实现。现在,这套系统已经可以看到车周围的环境、人的环境、计算车的轨迹、速度、加速度和距离。“人们开车依靠的是常识和感知能力,计算机也可以做同样的事。这项技术已不遥远,再过几年,我们可以完全造出老百姓能接受的技术。”赵勇说。

  人工智能会让人类失业吗?

  “如果你们成功了,很多人会失业。你怎么看?” 赵勇在参加某论坛活动时,曾有观众提出质疑。

  对于这个问题,赵勇如实回答,“早晚有一天,可能真的有人因为人工智能的竞争而失业。就像工业革命的发展,使得大量农民失业,逐步成为了城市人口参与了工业生产。这就是产业升级。人工智能会使得过去从事简单重复劳动的人面临压力,不得不提升自己的技能。而随着社会的发展,很多国家老龄化现象都愈发严重。目前的人工智能主要解决的是人手不足的问题。”

  赵勇说,格灵深瞳正在与交通部门和安全部门合作,帮助交通管理和平安城市的摄像头深度理解车辆和行人,使得在茫茫人海中寻找一辆汽车、一张面孔或者一个背影变得可能和可靠。要实现这个目标,格灵深瞳必须收集数以千万级的目标样本,通过精确的标注形成训练人工智能模型的“教材”。

  而数据标注这件事情本身,也成为了一种有趣的兼职工作机会。目前,每天都有数百人通过网络,用灵活的兼职工作方式加入到帮助格灵深瞳标注模型训练数据的大军中。

  人工智能的前景不容置疑,但每件事都并不容易。赵勇感慨道,“到2030年,我退休的时候,好多领域的解题思路都将改变。”■