第252章另类的学术习惯

　　第252章另类的学术习惯

　　时间更少意味着什么呢？

　　意味着效率的空前提升。

　　此前伊芙·卡莉一直不是很理解林灰是怎么突然异军突起的。

　　现在她却已然是心下了然了。

　　不过这样的话，伊芙·卡莉觉得先前对林灰进行的有些估计就有点保守了。

　　同等规模语料库下的训练引入基于迁移思想的预训练机制的训练要比常规的至少能够节省70%的时间。

　　这个数据是比较夸张的了。

　　如果一如伊芙·卡莉猜测的那样的话。

　　那林灰搞出的东西不止是数据夸张，功用也将是很离谱

　　要知道基于迁移思想搞定的东西某种意义上讲是可以“迁移”的，也就是可移植性。

　　这特么的就逆天了。

　　涉及到文本摘要甚至是整个自然语言处理这一领域的研究以前多多少少是有点圈地自萌的意味的。

　　但如果具有了迁移性那完全是有可能渗透到别的领域的。

　　心念及此，一时之间伊芙·卡莉感觉林灰的着眼点也一定不是自然语言处理的这个小鱼塘。

　　林灰在下一盘大棋。

　　尽管和林灰相识不久，但作为一个跟林灰经常学术交流的人。

　　伊芙·卡莉能笃定林灰在学术方面的野心是极大的。

　　此前，伊芙·卡莉就感觉林灰能开启自然语言处理这个方向崭新的大门。

　　现在看来，以后林灰所影响的方向绝对不止是自然语言处理这一个方向。

　　涉及到整个机器学习领域，林灰都将有很大的建树。

　　甚至可能还远远不止于此，对于这一切伊芙·卡莉很期待。

　　没有什么比见证一位天才的雄起更兴奋的了。

　　（如果有，那或许只能是目睹一位“神”的破灭了。）

　　纵然现在的林灰还没有什么头衔加持。

　　不过，过往林灰的成就已经足够耀眼了。

　　伊芙·卡莉相信林灰会一点点将其野心所践行的。

　　为什么伊芙·卡莉能得出这样的判断呢？

　　林灰在过往在学术方面取得的璀璨成果只是伊芙·卡莉得出这样推断的原因之一。

　　这不是最重要的原因。

　　真正让伊芙·卡莉得出林灰能将其野心践行的原因在于林灰有自己的学术风格。

　　相比于看得见的学术成果。

　　学术风格这种东西很玄学，看不见摸不着。

　　听起来很虚幻的东西。

　　但学术风格这东西确确实实存在。

　　关于“学术风格”这一名词的讨论也常常现于各种学术交流以及科研人员日常的讨论中。

　　无论是学术路线、学术习惯这些东西某种意义上都会影响学术风格的形成。

　　衡量一个科研人员在学术方面是划水的还是水准之上的一般主要看是否有独立的学术风格。

　　一般学术方面只是划水的科研人员普遍都没有自己的学术风格。

　　其研究成果就比较随心所欲那种，研究课题也以“跟随研究”为主。

　　而水准之上的科研人员则普遍有着稳定的学术风格。

　　学术风格的稳定尽管不能意味着一切。

　　但起码也意味着该研究者对学术路线有着比较明确的规划。

　　或许林灰本人也没注意到他的学术风格。

　　但伊芙·卡莉觉得林灰是有属于其自己的学术风格的。

　　而且这风格很明显。

　　林灰拥有学术风格这件事也能侧面反映出其学术路线的稳定。

　　故而伊芙·卡莉是很相信林灰能够按部就班实现其野心的。

　　而林灰是什么样的学术风格呢？

　　太具体的伊芙·卡莉暂时也无法精准描述。

　　但就学术习惯方面而言，伊芙·卡莉觉得林灰有一极其鲜明的特征。

　　那就是林灰总是致力于赢在起跑线上。

　　当然赢在起跑线上只是比喻说法，确切地表述应该是

　　——在解决学术问题以及实际上的工程问题的时候林灰很倾向于将可能出现的问题扼杀在萌芽状态。

　　得出这一判断，伊芙·卡莉自然有相应的依据。

　　就拿前不久林灰在论文补充内容中所提到的预训练来说吧。

　　此前涉及到“训练”的时候人们往往想到是对训练生成的模型由机器学习方面的专家进行调整。

　　很少有像林灰这样的对训练过程就有想法的。

　　毕竟涉及到语料训练这已经是一个语言模型构建很靠前的问题了。

　　除了这个例子之外，还有此次来到中國和林灰的第一次谈话。

　　当时两人聊到了对“语料向量化之后再处理可能导致的维度爆炸”相关问题的处理时。

　　原本伊芙·卡莉设想的降维做法有将高维模型转化为低维模型、将分析后得到的高维数据降低成低维数据等等。

　　而林灰提出的思路却是将语料向量化之后得到原始高维向量数据直接进行降维处理。

　　要知道在此前涉及到维度爆炸这件事几乎没啥研究者想到直接对维度本就比较高的原始数据做文章。

　　毕竟这涉及到将语料信息抽象成向量原始数据已经差不多其对应研究中特别靠前的一个环节了。

　　伊芙·卡莉觉得这些都可以佐证她先前的判断。

　　依据她先前的判断的话，还可以在此基础上进一步推断。

　　如果一个科研项目涉及到多个环节，每个环节都有可施为的空间。

　　那林灰一定会在最初的环节下主要功夫或者是最初环节还要之前的地方开辟新的赛道。

　　知道这个有什么用呢？

　　当然有用，甚至是有大用。

　　此前伊芙·卡莉对林灰为什么要收购她搞出的那项专利即《文本判断甄别比较的一种新方法》这个专利是很不明所以的。

　　在林灰提出了生成式文本摘要算法之后。

　　现在的自动文摘实现方法主要分为抽取式方法和生成式方法：

　　这两种摘要方法有很多原理和实际效能的区别。

　　但此二者本质上都是自动文本摘要。

　　举凡是自动文本摘要，其技术框架就都可以概括为：

　　内容表示→权重计算→内容选择→内容组织。

　　内容表示是将原始文本划分为文本单元的过程，主要是分字、词、句等预处理工作；

　　内容表示的主要目的是通过预处理将原始文本处理成算法容易进行分析的形式。

　　权重计算则是要对文本单元（即预处理后原始文本）计算相应的权重评分，权重的计算方式多样，如基于特征评分、序列标注、分类模型等提取内容特征计算权重。

第252章 另类的学术习惯

第252章另类的学术习惯