硅基人与地球人的渊源开始了（1/2）

好书推荐：重生79之我在美国开银行修罗之绝世武神春深我帮殿下捡马甲红墙，白墙王平修仙传天辰邪龙妙手仙王你好，前夫？初级博弈2：生命永存

“ 硅基人企图以数理方式融入地球”

—

硅基人的软殖民

硅基文明遵循着潜移默化的共同进化原则，而非暴力入侵或殖民的方式；通过了解地球的文明程度，做出对应的措施以融入地球文明。为了更好地进行信号传递和对地球的定位，硅基人在地球上建造了同时具有信号发射和信号接收作用的金字塔、玛雅神庙等建筑；他们有一个共同的特点——指向猎户座α星。

时间来到了公元前500年左右。硅基人在地球各地分散设置了若干个扫描区域，进入这个区域的人类会被扫描身体构造（硅基人避免采用小白鼠的方式研究地球人，最大的考量是为了避免恐慌），很快硅基人掌握了地球人的生理结构，并抽象出了地球人的信息接收、释放和处理机制的模型——神经网络模型（这个模型是脱离身体结构的，这意味着这个抽象模型天然地就不具备通过各个身体部件获得信息的能力）。

硅基人希望通过地球人的方式学习地球人的语言，进而融入地球人的生产生活，以地球人可以接收的方式，也是潜移默化的方式帮助地球文明发展，因为硅基人通过严密的计算和评估除了地球文明的发展指数，只有指数达到硅基文明上下两个量级以内，硅基人才可以与地球文明共同发展，而达到这个水平的一个明显特征就是出现电磁波的研究。而之所以从语言入手也是考虑到语言是地球人对世界认知的基本反映，可以说，语言是可以被理解的存在。通过对地球人语言的学习，硅基人可以以一种内在的方式理清楚地球人目前的文明现状和将来可能的发展潜力。

对硅基人而言，地球上的不同语言是不同的符号系统，语言的基本单位已经蕴含了人类的部分先验认知，硅基人无法直接对这样的符号进行处理。而且不同的语言（不同的符号系统）之间要么相互叠加，要么是包含与被包含，错综复杂。于是硅基人把地球人语言的基本元素转化为一个多维的坐标，不同维度表示地球语言每个字或者每个词的不同语义和语法特征，某个维度的数值更大意味着这个特征更加显著。而且通过数值化的表达，硅基人可以利用他们的优势计算能力，将语言进行计算。

当然，有了数字的基础，硅基人需要的就是有一个数据处理的框架，他们自然而然地盯上了地球人的大脑神经网络。

硅基人持续关注了人类的成长过程，发现随着经验的增加神经突触之间的连接强度也在发生变化，而且神经元之间的信息传递是通过化学反应产生的电信号，通过电信号的方向和强度表征信息，而硅基人的晶体结构恰好可以完美复刻这种模式。但是硅基人并没有发现地球人的脑神经中是如何学习反馈的，没有反馈也就无法达到学习的目的。这一度十分困扰硅基人。慢慢地硅基人意识到这是一种当前阶段无法被认识到的机制，也许在不久的将来可以解锁这种机制，或许这种学习机制中隐藏着进化的某种秘密？然而硅基人擅长各种抽象和运算。尽管无法完全复制人类的脑神经学习机制，硅基人还是通过运算证明了他们设计的神经网络结构可以近似逼近任意的数学函数，而他们正是将人类的神经网络结构视为一个多元函数。此外，他们还巧妙地通过多元函数梯度计算优化误差进而达到了学习目的。他们把这种机制称为反向传播。

当然，想适配通用函数，神经网络必须具有足够的容量，即网络要有足够的深度，满足一定的神经元数量是必然条件；其次，与阈值函数不同的是，使用梯度的其他激活函数作为感知机，可以在浅层网络丢失部分信息的时候，在深层网络获得一定的信息补偿。因此，神经网络对通用函数的拟合，一定是深度、宽度和激活函数之间的权衡，而适配通用函数的本质其实是硅基人把非线性激活函数融入到了整个结构中。

很快，硅基人找到了影响地球文明发展的突破口。因为地球上不同文明之间的语言存在某种模式上的互通性，主要是指不同地区的文明其语言所指有着共同的物理基础，但是语言组织的模式、表达的具体含义及信息强度等各有不同。于是想利用不同语言之间的翻译验证他们设计的神经网络结构的合理性。这个神经网络的基础是硅基人擅长的概率论、数理统计以及矩阵运算。

但是缺点就是硅基人也无法解释每个维度的特征具体代表什么含义，因为能够让这样一个拟合函数真正起作用需要经过多次的实验和参数调整，有很大的经验成分和试错成分在里面。这些在地球东方文明的语言体系下得到了印证，因为他们试图利用设计的神经网络对语言进行建模，把该语言的所有内容编码为一个高维数值空间，以彻底掌握该语言。但是显然他们基于地球语言都是线性的（一句话或者一段话乃至更长的语篇可以看成字词串）而简单对共现词进行建模的方式是存在巨大缺陷的。他们的处理方式本质上比较简单，即语言中挨得近的字或者词语具有近似的含义，对应地会被编码到高维空间中相近的位置。

关于这一点，实际上硅基人做了多次尝试：

【1】第一次尝试：针对一种语言（针对当时地球上使用人数最多的语言——汉语），最基本的数值化映射方法是将每个字或者词映射为一个字典序号。也就是说，假如汉语的所有词汇构成一个词汇表（包括单个字的词、多个字的词），词表长度为5000，其中一个词为“吾”，序号为3；另一个词为“壮观”，序号为347，... ...以此类推，这样倒是可以把地球语言的这些符号表示为数字，但是因为数字是离散的（就是不连续，因为字典序是自然数，比如1和2之间还有1.1、1.111、1.2等等无穷多个数），在硅基人的微积分体系下无法很好地计算；另外字典序号也没有任何的实际意义，仅仅是从无法计算的符号映射到了可以勉强计算的数字符号。

【2】第二次尝试：把每个词汇表征为一个向量，而且向量维度就是词表长度，也就是每个向量都是5000维，比如“吾”这个词序号为3，那么这个词对应的5000维向量就是第三个数字是1，其余数字为0：<0,0,1,0,... ...,0>，相比第一次尝试的方法，这种方法可以实现比较好的计算，但若是词表发生变化（尤其变至上万甚至几万的情况下）那么计算量就会陡增，因为每个词都是几万维度的向量，进行梯度计算时就会出现梯度消失或者梯度爆炸等一些现象。

【3】第三次尝试：在第二次的尝试基础上结合设计出来的网络结构，将几万维度的向量进行一个压缩，比如是512维（512是2的9次幂），但是维度的含义解释性比较低。相比以前bit在处理陨石雨攻击时采用的将陨石刻画为<密度、体积、长度、角度...>等这样有具体含义的特征序列不同，现在这种方法对语言符号的表示是未知特征的序列，比如<0.234，1.34，0.009，... ...，4.11>，其中每个数字都可以刻画某种类似陨石飞过来的角度这样的特征，但是特征含义未知，具体这个数值是多少也未知，需要在训练过程中慢慢更新优化。

硅基人对第三次尝试的方法尤为满意。

比奇屋最新地址www.biqiwu.net

本章未完，点击下一页继续阅读。

新书推荐：魂穿斗破副本，我崩了剧情主线藏在课桌下的心事 HP同人always 海后，你的学霸马甲掉了青涩的相遇青春曳航倾阳之恋晴夏叶薇此间任我逍遥游斗破：绑定系统后女王她妹飒爆了