你认为人工智能能超越人类大脑吗?(12)
语音识别或视频识别之困难,都切身感受到了。
最大的困难在于,对事实的认识不清或认识有误而不知。
其中最大的错误认识在于图像与含义的逻辑层级问题。
问:人眼前见到的情景是图像吗?
告诉您正确答案:眼所得到的情景并不是图像。
情景仅存在于意识当中。
意识参与了情景的形成。
意识怎么参与情景形成的?
眼所得作为名称,意识内容作为其含义,两者等起,建立了情景。
换句话说,情景是眼与意识共同创造出来的。并仅存于意识当中。
在同一条街上,帅哥看美女,美女看橱窗,小偷看钱包,警察看小偷,清洁工看地面。
各有各的情况,各看各的景。关注不同,所得情景也不同。
意识的参与情景的形成,作用很显著。
图片、照片上的静止的画面,与人眼见到的情景,两者从建立过程到结果都不相同。
人眼见到的情景经历了含义的层层积累聚集的过程。
图片照片画面经历了摄影设备运作,或人手的勾线填色等的创作过程。
人眼情景是一个个既具有相互关系又具有独立含义的主动关注与被动关注的流动变化的事物的总和。
而图片照片画面上全一体,无个体。静止不动。
人眼情景是每个人各自眼睛与意识共同完成的的原创作品。
图片照片画面是机器或人手的作品。
人眼所见情景的形成,必须有意识参与。耳与身,也如此。
这不是理论。而是事实。
有了这样的认识,前文说含义都是声图触,就必须颠倒过来了
——声图触都是含义。
在逻辑层级中,义体位于声图触之上。或叫做更深层。
声图触依赖义体而建立。
也就是说,无论义体或名身,其声图触都来自同一个源头。
那么就必须再次追究义体及名身的本质是什么?
答案是:义体与名身都来自于同一个东西——逻辑。
二进制正是逻辑的抽象直观表现。
与声图触相应的三种算法,为第二层表现。
声图触,为逻辑的第三层表现。
学习、创新、工作等外在功能,位于第四层。
人本来就如此。这是事实!
机器也如此。完全可以同理仿制。
狭义派完全忽略了这个事实,甚至不了解这个事实。
将麦克风获得的电脉冲,毫无逻辑地粗暴转码,
并认为这就是声音。
这就好像学英语时,把英语发音与汉语联系起来。
然后再凭汉语语音,与其含义做等起反应。
许多有经验的英语老师都说过,这样做不对。难以建立语感。
语音识别也是这样。
不应将数码转成固定的某声的代码。
然后呢,只好用这个声代码,与先前存储于大数据库中的声代码做比对,
以识别其是什么声。别无他法。
不应这样兜圈子。
而应直接将输入的数码拿来,与文化总码一起做的逻辑运算。
以省掉代码对比这个环节。若需要输出声音到喇叭时,再转成代码。
什么叫做文化总码?
其功能等于存储器或大数据库。
其结构为,与逻辑规模电路相应并同步运转的大规模数码。
注意:是一个运转的大数码!而不是大数据。
这个大数码,来自机器生命过程中的不断系缚积累。
可实现全部代码的一体存储。也就是模仿长时记忆。
还可实现瞬时寻址。其实根本就不寻址。而是简单运算。
还可实现无限容量存储。机器听到的见到的,学到的,数据包输入的都可以在寿命期限内无限存储。
还能实现很多狭义派永远无法做到的功能。
例如,将《生如夏花》这首歌的代码输出打印出来,您会看到一张01组成的乐谱。只有01,没有其他符号。
我相信,人经过训练,也能直接阅读这东西。歌词也可转成01。01会成为全世界通用的文字。
这个大规模数码会有多么巨大?
加几个数学公式进去,这个数码不需要很大。
千元手机内存应该足够了。
到此,广义人工智能,距离成功,还差两件事:
声图触代码的编码方案及零和算法。