第258章 巨额的隐形财富_穿越黑龙江1940
奇鹫小说 > 穿越黑龙江1940 > 第258章 巨额的隐形财富
字体:      护眼 关灯

第258章 巨额的隐形财富

  第258章巨额的隐形财富

  伊芙·卡莉所谓的“内容表示”指的是在自动文本摘要的流程中将原始文本划分为文本单元的过程。

  这一过程包含有分字、词、句等预处理工作;

  其主要目的是通过预处理将原始文本处理成算法容易进行分析的形式。

  传统的抽取式摘要这样传统自动文本摘要不怎么注重内容表示这一环节。

  生成式文本摘要和传统的抽取式摘要关于这部分则稍稍有些不同。

  生成式文本摘要还是比较注重内容表示这一环节的。

  尤其是应用了词嵌入技术和预训练机制的生成式文本摘要更是格外注重“内容表示”这一环节。

  没办法,不得不重视,传统的文本摘要各步骤的重要程度其实是差不多的。

  但应用了词嵌入技术和预训练机制的生成式文本摘要的工作很多时候都是“头重脚轻”的。

  即开始的环节在整个环节中权重是最高的。

  或者说在实际构建生成式文本摘要模型的时候,虽然要设计到很多的步骤。

  但通常情况下越靠前的工作也往往更重要。

  就以“内容表示”来说吧,在构建生成式文本摘要模型的时候。

  很多时候内容表示的完成水平的高下将直接影响到后续的步骤。

  而伊芙·卡莉所搞得《文本判断甄别比较的一种新方法》这项专利在内容表示方面确实有一定的价值。

  借助于该专利所提供的价值,林灰以后在进行文本摘要的后续升级换代的过程中可以少一些逻辑层面的漏洞。

  但如果仅仅是因为这点价值,还不足以让林灰大费周章进行一项跨国专利的收购。

  林灰之所以煞费苦心将伊芙·卡莉搞出的《文本判断甄别比较的一种新方法》这项专利最最根本的原因还是因为林灰比较在意伊芙·卡莉在这一专利中所应用的模型。

  在《文本判断甄别比较的一种新方法》这项专利中就文本甄别伊芙·卡莉极其有创意地鼓捣出一个用于文本判断甄别的模型。

  如果仅仅就自然语言处理机器学习方面来看,这不过只是一个平平无奇的用于文本判别的模型。

  但当思维跳脱出自然语言处理这个小领域之后,这个模型可不能够等闲视之。

  当初在翻阅这个时空的学术方面的一些资料时,林灰敏锐地注意该专利所蕴含的价值。

  尽管专利所提供的技术路线很多时候都是概要性的。

  一些后来者在按照这些技术路线去体悟技术的时候往往只能盲人摸象般的探索。

  在拥有前世信息的情况下,林灰相当于站在巨人的肩膀上,

  虽然偶尔会有些高处不胜寒的感觉,但具体到技术方面的时候林灰往往系统概念更强。

  很多时候,林灰只消看到一些公开的技术路线就能了解到其背后所蕴含的价值。

  并且这种判断基本是八九不离十。

  当初接触到伊芙·卡莉搞得这个专利时。

  林灰发现根据该专利已经公开的一些资料尤其是该专利公开提及的技术路线。

  林灰很快捕捉到这个专利的价值。

  林灰料定利用这个模型几乎稍加变形就能在此基础上形成一种颇为高效的判别式模型。

  事实是后来进行的收购进一步了解了专利信息后更是印证了此前林灰对之的猜测。

  仅仅是判别式模型即便是效率高或许没啥意义。

  但是稍微做点小改动那事情就不一样了。

  当高效的判别式模型邂逅高效的生成式模型。

  此二者进行有机结合,并在此基础上再继续进行一定的专门架构之后。

  完全可以藉此搞出全新的效率颇高的深度学习模型。

  这个深度学习模型在前世有个大名鼎鼎地称呼:

  ——生成对抗网络

  生成对抗网络由一个生成网络与一个判别网络组成。

  生成网络从潜在空间中随机取样作为输入,其输出结果需要尽量模仿训练集中的真实样本。

  判别网络的输入则为真实样本或生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能分辨出来。

  而生成网络则要尽可能地欺骗判别网络。

  两个网络相互对抗、不断调整参数。

  最终目的是使判别网络无法判断生成网络的输出结果是否真实。

  在前世图灵奖获得者、卷积神经网路之父YannLeCun在某次学术论坛上甚至将生成对抗网络模型称之为机器学习方面二十年来最酷的想法。

  能得到图灵奖级别大佬这样高度肯定,生成对抗网络模型的价值可想而知。

  前世生成对抗网络作为非监督式学习的一种方法。

  是由伊恩·古德费洛等人于2014年提出的。

  不过这个时空由于机器学习方面的研究整体滞后。

  这个前世颇为有名的深度学习模型在这个时空想要如约而至似乎是有些难度了。

  前世生成式对抗网络自出现以来,针对不同的应用领域出现了许多变体。

  这些变体相对于最原始的生成式对抗网络都进行了一定的改进。

  这些改进有的是单纯改进了结构。

  有的则是因为理论上的发展而对生成式对抗模型涉及到的一些函数或者说参数进行了一定的改进。

  再或者就是单纯就应用方面进行了一定的创新调整。

  一项技术被频繁改动不是说明这项技术失败。

  刚好相反,这恰恰说明这项技术很成功。

  因为这某种程度上从侧面反映了该技术有很多的成长空间。

  事实也正是如此,前世生成式对抗网络是相当成功且应用广泛的。

  在很多机器学习领域都能看到生成式对抗网络的身影。

  之所以如此大概是因为原始的生成式对抗网络在构建的时候,先验假设比较少。

  正是因为对数据几乎没有任何假设使得生成式对抗网络具有几乎不设限的建模能力。

  借助于生成式对抗网路可以拟合多种分布。

  此外,由于生成式对抗网路模型不甚复杂。

  很多时候在应用生成式对抗网络的时候就不需要预先设计较为复杂的函数模型。

  在不少生成式对抗网络的应用场景中,工程师甚至只需要应用反向传播算法简单训练一下对应的网络。

  就可以让生成式对抗网络中的生成器和判别器正常工作。

  之所以将生成式对抗网络搞得这么比较易上手。

  跟生成式网络的设计初衷是为了进行无监督学习也有很大的关系。

  不过事物都是有两面性的,正是因为原始生成式对抗网路过于自由。

  训练过程很容易出现训练发散的情况。

  不止于此,生成式对抗网络还存在诸如梯度消失等问题。

  由于这些问题的存在,生成式对抗网络是很难学习一些生成离散的分布的。

  就比如原始的生成式对抗网路就不是很擅长纯粹文本方面的处理。

  除了涉及到部分场景下会将生成式对抗网络用于文本分割之外。

  多数时候很少将生成式对抗网络应用于文本(特指纯粹文字形式的文本)方面。

  不过尺有所长寸有所短,虽然并不是很擅长对纯粹文本信息的处理。

  但在其余很多领域生成式对抗网路都可以大显身手。

  在人脸识别方面、超分辨率重建等方面生成对抗网络更是大有用武之地。

  甚至是在语义图像修复方面生成式对抗网络同样是可以大显身手。

  除此之外,生成式对抗网络还有很多应用方向。

  概括地说,生成式对抗网络的应用前景是相当广阔的。

  说起来因为在这个时空机器学习方面的研究比较滞后。

  林灰想搬运生成式对抗网络这一模型的话其实也不需要担太多风险。

  尽管如此,在将生成式文本摘要方面的彻底搞定之前。

  林灰也不着急将生成式对抗网络相关的研究成果搬运出来。

  至于为什么林灰不将生成式对抗网络搬出来?

  林灰不想给外界其余的学术人员一种割裂感。

  就像林灰在过往游戏开发(搬运)时不想给游戏玩家一种割裂感一样。

  虽然林灰现在已经有了一定的将生成式对抗网络的推出逻辑基础。

  (林灰此前搞得生成式文本摘要里面涉及到的生成式模型,而从伊芙·卡莉那收购来的专利中又涉及到类判别式模型,而生成式对抗网络其组成正是包含有生成式网路和判别式网路……)

  但如果林灰贸然搞出生成式对抗网路依旧不是很好。

  毕竟生成式对抗网络就应用层面来说和林灰现在一向搞得自然语言处理这一学术领域其实关系不太大。

  在这种情况下,林灰莫名其妙推出一个和自然语言处理几乎没啥关系的模型算怎么回事呢?

  虽然学术方面无心插柳柳成荫的例子很多,很多学术成果最开始问世的时候目的往往是跑偏的。

  但林灰内心信奉的原则是注定了林灰不大可能打破此前延续的惯例。

  无论是游戏开发还是学术进展上,林灰都不想给别人一种割裂感。

  而且,科技树还是按顺序点比较好。

  虽然说作为挂比不按顺序点科技树也可以。

  但在多元化的社会下不按规矩办事往往就意味着风险。

  乱点科技树,自己的科技逻辑链没形成。

  潜在对手却形成了相应的发展脉络。

  那么科技成果很有可能被对手所窃取。

  这是林灰所不愿意看到的。

  现在在林灰看来学术方面他所要做的依然是深耕自然语言处理。

  深耕生成式文本摘要。

  通过不断的深耕,从自然语言处理这一领域找到破局点

  或者说点亮相邻于林灰已点亮科技成果的科技树分支才是最好的。

  (林灰倒也不着急,即便是一时之间未找到合适的破局点其实也关系不大。

  起码是一个月林灰还是不需要太担心的。

  毕竟就生成式文本摘要这方面取得的“突破性进展(成功的搬运)”林灰最起码也能“混”一个硕士学位。

  而这也是要林灰消化一段时间了。

  其实林灰原本的估计更加乐观。

  林灰原本是觉得将生成式文本摘要这个方向的论文搞清楚,就差不多能博士了。

  不过通过最近跟伊芙·卡莉的交流,林灰觉得是他过于乐观了。

  就像诺奖级成果不一定真的能获得诺奖一样。

  就算林灰在生成式文本摘要方面鼓捣出的东西对于这个时空能称得上是博士级甚至更高级别的成果。

  但想藉此一步到位获得博士毕业论文也是很有难度的。

  毕竟此前林灰搞得学术内容其主要呈现形式都是围绕着生成式文本摘要这样一个算法专利的。

  这个时空西方对于专利形式的学术成果更倾向于将之视作偏向于实践的东西,亦即工程上的成果。

  而仅仅依靠工程方面的成果想要一步到位弄到博士方面的成果是很麻烦的。

  虽然涉及到生成式文本摘要在学术上的收益这个稍微低于林灰的预期,不过问题不大。

  林灰觉得学术上步子太大也不完全是好事情。)

  既然短时间不搬运生成式对抗网路。

  那刚才关于生成式对抗网路的思考岂不是等同于白白浪费脑细胞?

  当然不是。

  很多时候思维大概就是在一些漫不经心的思考中获得新的启发的。

  关于生成式对抗网路这方面的思考,林灰突然意识到他还有一笔巨额的隐形财富。

  那就是前世的人工标注数据。

  虽然没太认真翻看前世一同携带来的信息。

  但人工标注的数据林灰不可能是没有的。

  尤其是前世那些企业级硬盘里面绝对不可能没有人工标注数据。

  就算没啥图像的人工标注,涉及到一些文本的人工标注,绝对是不可能少了的。

  毕竟这种东西相当实用,而且文本标注其实也不是很占地方。

  要知道涉及到神经网路学习训练或者说深度学习训练在模型构建的时候可是需要大量的人工标注数据的。

  尤其是监督学习和半监督学习更是需要大量的人工标注数据。

  通常一个模型在架构的时候需要很多的人工标注的数据。

  在调整的时候也需要很多的人工标注数据。