本文转自公众号 原理
1. 一个令人困惑的问题
人类在儿童时期是如何学习语言的基本语法结构,然后创造出他们从未听过的句子?这是一个已经困扰语言学家很久的问题。
著名语言学家乔姆斯基(Noam Chomsky)曾提出过一个非常有名的理论:人类具有与生俱来的语言能力,儿童天生就具有适用于所有人类语言的基本语法结构的知识。这种观点被称为普遍语法理论。虽然一直以来,这种观点饱受批评,但目前仍没有强大的理论来解开我们对于人类究竟如何理解语法规则的困惑。
2. 物理思维的语言分析
在一项最新的研究中,巴黎高等师范学校的物理学家Eric DeGiuli用物理学思维提出了一种可能的机制,他提出,这可能涉及到一个“相变”过程,就像水在结冰时会经历的从液态到固态的相变一样:在儿童凭着直觉掌握语法规则的过程中,语言中的一些“深层结构”会突然如结晶一般变得具体而明晰。在这样一个相变过程中,语言从一堆杂乱无章的词语,转变为一种高度结构化并拥有丰富信息的交流系统。
在所有人类语言中都存在这样一种树状网络,它是由词语之间的关系和决定了词语组合的语法规则构成的。
○ 一个典型的英文句子被分解为树状结构。| 图片来源:[1]
在论文中,DeGiuli就用英文句子“the bear walked into the cave”(这只熊走入了洞穴之中)来作为例子:这个句子可以被划分为一个名词短语(NP)和一个动词短语(VP),而每一个短语又可以被划分成更小的词组。每一次划分都可以用树状图中的一个分叉点来表示,而处于在分叉末端的“树叶”,就是实实在在的名词、动词、代词等词语。
这样一种语法的最简单类型是上下文无关文法(CFG),这是几乎所有的人类语言都共有的一种语法。
在新发表的论文中,DeGiuli提出可以将CFG这种语法视为物理对象来对待:在这些树的“表面”(也就是语法结构之树的末端),承载着词语通过所有可能的排列组合形成的句子,这当然也包括那些没有意义的句子。当儿童接触到树的“表面”(也就是他们听到的句子)时,会本能地推断出处于树状结构“深层”的语法规则。
通过这些语法规则,他们就能了解在规则之下,什么句子是可行的,什么是不可行的。这一过程事实上相当于为不同的分叉分配权重,并且他们会根据听到的语言不断地对权重进行调整。最终,那些会延伸出不符合语法规则的句子的分叉,只会获得非常小的权重,那些句子也就会被识别为不可行的句子。
DeGiuli将这些众多的词语构型视为统计力学中的微观状态——一个系统的构成粒子的所有可能排列的集合。
在CFG中,所有节点之间的权重都是相等的,所有句子出现的可能性都是一样的,因此也就无法识别出那些由词语随机排列而成的无意义组合。问题是,在所有可能的CFG中,是什么样的权重分布能让有的CFG产生由词语随机组合而成的句子,有的则会产生携带着丰富信息的句子的?
3. 语言中的“相变”
DeGiuli通过统计力学中的技术对此进行了理论分析,他发现其中涉及到两个关键因素:一是这些权重能在多大程度上“修剪”掉在语法之树深处的分叉;二是在特定句子出现的树状结构表面,它们又能修剪掉多少分叉。
在这两种情况下,分叉的稀疏程度所扮演的角色类似于统计力学中的温度,无论是在表面还是深处,降低温度都意味着减少更多的权重。DeGiuli发现,当深层的温度降低时,也就是让树的内部变得稀疏时,会突然出现一种转变:随机无序的CFG转变为包含丰富信息的有组织的CFG。
这种转变就是我们在前面提到的相变,新的研究认为,类似这样的转变机制或许可以解释为什么发育到一定阶段,儿童就能很快学地会如何构建符合语法规则的句子。因为当过了那个点,词语就不再仅仅只是词语,而是变成了能构成具有复杂结构且富有含义的句子的成分。
儿童并不需要已经完成了所有正确的权重分配才能发生这种转变,他们会继续完善对语言的理解。
4. 意义
一直以来,许多语言学家和神经学家就儿童是如何从一堆句子中提炼出语法的展开了广泛的探讨与争论。DeGiuli使用归纳推理和概率推理所构建的这个理论,与他在儿童语言习得过程中观察到的现象是一致的。而且这个新的理论是可以做出定量预测的,因此有机会在未来接受检验。或许,DeGiuli所提出的这样一个抽象过程最终能在神经学层面与观察到的现象联系起来,那时,科学家或许能够理解是什么阻碍了那些有学习障碍的孩子的语言能力。
参考链接:
[1]https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.122.128301
[2] https://physics.aps.org/articles/v12/35