新华网 > > 正文

“解码”视频——人工智能如何实现智能?

2016年07月19日 14:31:08 来源: 《中国传媒科技》杂志

    记者:曹素妨 实习记者:刘文清

    人工智能在近两年异常活跃,认知计算、深度学习、大数据等新的理念和技术层出不穷,但机器真的实现智能了吗?黄铁军认为,人工智能与视频的“碰撞”开辟了人工智能的全新方向。

    黄铁军:北京大学信息科学技术学院计算机科学技术系主任,数字媒体研究所所长,数字视频编解码技术国家工程实验室副主任,兼任国家数字音视频编解码技术标准工作组(AVS)和 AVS产业技术创新战略联盟秘书长。

    人工智能到真正智能的路途依然遥远

    针对人工智能与视频的碰撞黄铁军有自己的看法,他说,智能和视频从来都是不可分的。智能来自于感觉,而人类的感觉有2/3来自于视觉,人类获取的信息70%是通过眼睛获得的,我们想问题的时候,经常有空间感、抽象感,这些词的用法最终都能够在视觉里找到它的来源,因此没有视觉就不可能产生感觉,智能也无从谈起。

    他还提到,人类的视皮层占大脑皮层的约1/5,视觉作为生物体最基本的功能对计算机来说却是弱项,但是机器视觉一直是广义人工智能的重要部分,因此,视觉绝不仅仅是智能的一部分,而是智能的来源。人工智能这个概念被提出的时候,大家所关心的都是计算机能够做到人不能做到的,例如计算、推理和记忆,但黄铁军则认为这些只是一些高级的功能,跟人的本能还相差甚远,不能算作智能。

    “比如大家说阿尔法狗有布局的能力很厉害,其实背后的模型并不复杂,我们把今天人工智能叫做智能模型驱动,模型是人设定的,知识则来源于大量的数据,作为技术人员,我们设计模型,在模型上装载数据然后让机器学习。但我们看一个棋局,很快就知道这样的布局是否合理,所以今天的人工智能跟生物的智能相比还差很远。”对此,他做了进一步解释:“人工智能的发展过程和人的进化过程正好是相反的,人工智能一开始就在做所谓的高级计算、数据分析、记忆等功能,其实这些功能都是比较容易形式化的,但是自我、认知、情绪等功能都是很难形式化的,也是难以模拟的。目前的机器不具备这种条件,因此也不可能产生类人类的智能。”

    尽管如此,黄铁军也认为人工智能不会永远受制于此,而是会往类人方向发展,到了一定阶段机器人也会有自我、认知以及创造。他认为,在人工智能发展的过程中,除了像阿尔法狗那样的棋局的数据输入以外,传感网络、物联网、环境的刺激等,能够让一个机器人在环境里探索,并获得类似于生物进化一样的条件,产生新的本能。他预言第一代具有自我意识的机器将会是仿照人脑结构的。

    视频将很快超越人眼标准

    “骗过人眼是视频技术所追求的目标。”黄铁军坦言道。最早照相需要8个小时,发展到现在脱离了胶卷,相片即拍即成;最早的电影是12帧/秒,而人眼对运动感知程度要到20几轮才能显现,现在的电影已经是符合人眼感知的高帧率电影,所以,这些技术都在逐渐接近人的眼睛。

    黄铁军提到,电视视频技术的发展也在欺骗我们的眼睛。首先电视视频的清晰度在不断提高,因为人类眼睛中有500万个色彩感知细胞,亮度有1亿多像素,所以人眼是高度清晰的,而现在的显示技术已经超过人眼标准。其次是刷新速度,目前生产出的4K电视,刷新速度在50帧/秒,比以前的25帧/秒提高了一倍。但是,100帧/秒左右的速度才能让人眼将事物判断为真实事物,因此,我们也可以推测将来的8K电视有可能到120帧/秒。

    对于视频技术的发展,黄铁军表示非常看好,但是他也提到,在视频传播方面,视频的压缩是一个难题。目前人们通过高清电视播放视频,高清电视如果纯粹采集完之后,是每秒1.5Gbps,需要对视频进行编码,将1.5Gbps的数据压缩为几兆,方便大家通过网络或广播电视等方法传播视频。

    黄铁军提到,压缩视频的技术纯粹作为数字视频技术已经做了60多年,标准也已经做了30 余年。只有技术是不够的,没有标准会产生许多问题,没有自己的标准,就要花钱去买别人的标准。比如视频,如果用最新的标准,封顶费要交2500万美元。而且这只是单专利权的标准,所以编码视频表面是一个技术,但是背后也存在着经济问题。所以中国从2002年就开始组织做自己的标准,2006年发布了第一代标准,现在中国2/3的高清频道已经切换成中国标准在传输,中国视频体系已经切换成中国标准,节约了大量专利费用。

    黄铁军还提到,视频不仅是电视,还包括视频监控。在视频监控方面,中国标准比国际标准的效率还要高一倍,这一点全世界只有中国能够做到。他表明,2020年中国将完成高清视频监控从标清到高清的切换,而且将不会存在技术难点。从这一角度,黄铁军非常看好视频技术的发展。

    机器真正实现智能需要找对方向

    黄铁军提到一组数据,现在视频占互联网流量的90%,推动了全球数据总量的高速增长,在十年之内,全球数据量将增长50倍,视频将占比最多。按照国家发改委的规划,到2020年,视频将全部高清化、连网化,那么视频所需占用的存储空间是巨大的,所以对于挖掘视频内容的需求也是巨大的。在中国,每个省的摄像头约有100万个,到2020年还将持续增长,但每个省全部警种的视频分析人员不超过10万个,所以未来视频的处理分析一定是机器来完成,而非人类。

    近年来基于深度学习的技术成果不断呈现,但是这是大数据训练出来的结果,需要人来设计模型,基于大量的数据,才具有检测识别对象的功能,比人眼还要差很多。赋予机器真正的智能需要避免被常规概念错误引导,回归人类生物功能的方向。

    对此他解释道:“现在人们对视频的理解只是为满足媒体产业发展需要所定义的概念。比如‘帧’这个概念,是利用了人眼对频率的识别,使人50毫秒之内保留对视频画面的印象。但是从生物视觉上讲,我们的大脑之所以能够从复杂的环境里分辨人的动作,是因为视网膜接收连续的光子撞击,神经节细胞接收到足够刺激后发放脉冲,脉冲序列传送给大脑,使得大脑产生连续的印象,而非每秒30帧、50帧。所以传统视频输入的方法,不一定适用于人工智能。”

    所以,机器如果想要真正实现智能,还需要从仿生物的方向研究,人们应该弄清楚眼睛发放脉冲是如何将信息编码传送给大脑的。

    提到进展,黄铁军表示目前可以通过高速摄像机记录脉冲发放过程,并由发放过程还原影像。虽然只能察觉画面有一些变化,还远远不足以掌握精确的解码过程,但是脉冲的发放已经有一些规律性的东西出现了,相信机器将会真正实现智能。

    写在后面:

    认知计算、深度学习、大数据等一系列的热门话题层出不穷,相信人工智能将在视频、媒体等多个领域中得到逐步的完善与提高。很多前瞻性的不管是技术、商业,还是应用,都值得我们不断去实践,去探索。

【纠错】 [责任编辑: 高海英 ]
新华炫闻客户端下载

相关稿件

010020111200000000000000011199861355243861