大家自行脑补这个场景。例如乡下的旷野黄昏。
人眼中并不能识别环境的具体状态,只有大体轮廓。人们通过对尺度和角度的识别,以及经验主义对物体轮廓的补充,来进行对环境的识别。
如果换个场景,把平原中生活的人放入黄昏的山区。那么这个人就会因为缺乏对环境的辨识,陷入恐慌中。
而目前的机器视觉就是如此,等于一个只能分辨黑白两色和光线强度的眼睛。
我们要想让这样一双眼睛进行工作,只有进行视觉代替。就是通过人眼告诉计算机环境中都有什么物体。这样的工作量是巨大的,所以说是笨办法。
但是,如果我们的目的是要求机器人在一定的空间单位内进行工作呢?如几十平米的室内或者车间。而机器人需要操作的物体也是有限的,只有几十甚至几百种。那么机器人就可以通过深度视觉,光线强度,以及经验主义来达到固定空间内的全识别。
经验主义的识别,主要是依靠物体轮廓在视网膜的投影进行。固定尺度的物体,在视网膜的投影是随着距离呈反比变化的。这个变化比例是线性的。
例如,厨房。对厨房的环境进行深度扫描三维建模。那么相对于摄像头来说,厨房内的固定物体距离和尺寸,以及物体的反光都是已知的。当厨房内出现新物体时,光线出现变化,红外测距对光线变化部分进行测距。根据角度和轮廓投影比例,计算出物体的方位和尺寸。
当知道物体尺寸,根据轮廓投影,就可以知道距离。已知尺寸,距离,比例,就可以为该物体建立三维模型。对三维模型进行形状特征提取,按照特征对物体进行定义和归类。
当机器人对物体接触时,会有一个触觉感应,包括温度识别和力度识别。每个物体的热量吸收速度和硬度,强度,以及平滑度,单位面积的压强都有细微的不同。以触觉对视觉进行辅助进行物品归类。
知道物体类别和尺寸,就可以对物体进行定义内的操作。
这就是笨办法。因为机器视觉的原因,不能对物体颜色进行区分,只能按照轮廓特征对物体进行经验主义的有限区分。但是对于一些特定的场景,有限的区分已经够用了。
再举例,厨师机器人对调料的识别。因为颜色问题,机器人不能准确识别包装袋的文字,所以可以直接告诉机器人,该调料属于什么,放在什么方位。如醋和酱油,酒精和水