第267章 加速数据利用合规化
第267章加速数据利用合规化
能如此体恤下属的情绪,黄静越发觉得追随林灰是个正确的选择。
当然黄静内心深处的自我攻略,林灰对此是并不知晓的。
林灰之后和黄静也没聊线上办公。
而是又聊了一些美國科技巨头的讯息。
虽然基本都是八卦之类的无聊消息,不过也不是所有信息都是八卦。
至少林灰不是一无所获。
从跟黄静的后续谈话中林灰从黄静那得知了一个颇为重要的信息。
那就是蘋淉方面似乎致力于在谋求一笔总额大概在两亿美元到三亿美元大宗数据交易。
对于这条消息黄静在描述的时候有点含糊其辞。
似乎生怕不小心坑了林灰似的。
以前黄静描述的信息往往都言之凿凿。
很少出现不自信的情况。
涉及到这宗交易黄静先说是数据交易后来又说不是数据交易。
搞得林灰都有点糊涂。
即便是小道消息林灰也很看重相应的价值,毕竟很多时候无风不起浪。
至于黄静说得这个讯息到底是什么,经过进一步的询问以及多方查验。
以及更进一步的一番推敲,林灰还是搞明白了。
所谓的两三亿美元的数据交易指向的确实是数据,但又不是一般类型的数据交易。
蘋淉方面此次谋求的数据收购实在是一桩比较特殊的数据交易。
因为通过各方面渠道获得的信息,林灰觉得蘋淉方面的目标指向的实际是:
——“暗数据”。
图谋于此,也可以看出来蘋淉似乎在明修栈道暗渡陈仓啊。
暗数据有时候也被称为尘埃数据。
暗数据或者说“尘埃数据”是由所有冗余的、经常被遗忘的数据组成的。
这些数据是公司和组织在其活动过程中收集的,但随后又不使用。
暗数据往往是无结构、无标记、无分析的信息。
比起此前林灰忽视的标注数据。
暗数据就更没啥存在感了。
暗数据这类数据几乎是被无视的。
毕竟这类数据存在于网络和服务器中,只会占据了宝贵的空间。
一般来说,暗数据主要有三种类型:
第一种是传统的基于文本的数据。这可能包括电子邮件,日志和文档。
第二种类型是非传统数据。
这包括未标记的音频和视频文件、静止图像和声音文件。
第三种类型是深度数据。
这包括深层网络中搜索引擎无法触及的信息。
这些深度数据大多是私有的,由政府或私人机构控制。
它包括由学者、政府机构和当地社区策划的数据、医疗记录、法律记录、财务信息和组织特定数据库。
以上这些数据都可以称之为暗数据。
……
暗数据这类数据相比传统意义上数据要更隐晦一些。
暗数据这种未标注过的数据虽然不能拿来直接用吧。
但却不能否定这种东西的潜力。
反正绝对不能说这些信息不重要。
至于果子为什么对这类东西感兴趣。
因为收集这类一贯不被视为数据的数据。
实际上通过深耕是能得到跟传统数据差不多的功效的。
而且使用这类数据的话,通过一些概念性的教育消费者甚至可以形成一种企业从来不涉足一般数据的印象。
这对于树立企业形象岂不是很有妙用??
总之,对于既当又立的企业不能说是没有诱惑力。
反正林灰觉得从暗数据入手这倒是符合很多科技巨头的行事风格。
类比林灰以前估量的价格。
如果说几千万美元就能买上千万条双语标注数据。
可想而知像蘋淉所谋求的价值两三个亿美元的暗数据肯定是一笔相当庞大的数据。
涉及到标注数据跟暗数据一大区别在于标注数据是结构化进行过一定处理的数据。
而暗数据很大程度上是未被结构化处理甚至很是“乱糟糟”的数据。
结构化的数据一般是即有固定格式和有限长度的数据。
例如填的表格就是结构化的数据。
比如说“国籍,种花家,民族:汉,性别:男,姓名:张三,年龄:……”
这种央视的都叫结构化数据。
这类数据很容易以固定的格式存储到数据库里。
而半结构化数据值得是一些XML或者HTML的格式的数据。
对这类数据当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。
所谓的非结构化的数据:就是不定长、无固定格式的数据。
例如网页,邮件,有时候非常长;有时候非常短,几句话就没了,这类就是典型的非结构化数据。
子啊比如说例如Word文档、语音,视频、图片都是非结构化的数据。
而半结构化数据和非结构化数据,一般合二为一统称为“暗数据”。
这个词语也不是林灰定义的。
相比于标注数据这种结构化数据,暗数据同标注数据此二者的价值是不可同日而语的。
单位标注数据的价值往往几十倍甚至于几百倍于单位暗数据。
两三亿美元就算是换取较为昂贵的跨语种语言类标注数据都能换上几亿条。
更何况说拿几亿美元去换暗数据呢?
可想而知,两三亿美元涉及到的暗数据是一笔相当可观的暗数据。
林灰那有很多前世的信息。
但也绝不可能有满足蘋淉胃口的暗数据。
不要说是林灰前世那点信息了。
就是像國内有的忝居互联网巨头之列外强中干的互联网公司所拥有的暗数据规模也未必能满足蘋淉的胃口。
这种情况下如果林灰对蘋淉的这笔巨额收购感兴趣的话似乎只能去收集暗数据了。
至于如何去收集呢?
暗数据的收集方式多种多样。
因为暗数据包括用户活动日志、客户对话或电子邮件记录、服务器监控日志、视频文件、物联网产生的机器和传感器信息。
暗数据还可能包括由于存储在过时设备上而无法再访问的数据。
这种情况下很多时候清理活动日志或者说收集存储碎片的时候都有可能顺手牵羊搞到一些暗数据。
除此之外还有很多种收集暗数据的方式。
说起来虽然很容易。
但正所谓抛开剂量谈毒性都是耍流氓。
同样的道理抛开数据规模谈咋挖掘数据同样是耍流氓。
像蘋淉所图规模的暗数据肯定不是传统的数据挖掘方式能满足的。
似乎时下也没太好的挖掘暗数据的方式。
传统的公司,在处理暗数据的时候,采用的是笨办法,想办法把非结构化的数据转换成结构化数据。
这种方法费时费力。
不过也仅仅只是对于时下的科技公司来说。
对于林灰来说他还是有很多数据挖掘方式的。
没人比林灰更懂如何挖掘数据了。
对于大规模的数据挖掘,似乎最方便的方式就是借助于人工智能来挖了。
甚至于林灰前世电脑里有一些现成的挖掘暗数据的方式。
虽然效率受限于时下的硬件可能会大打折扣。
但相比于现在传统的挖掘方式也是降维打击般的存在了。
不过新的问题又来了,从哪挖掘暗数据呢?
前面提到了像有些属于私有的,由政府或私人机构控制的深度数据。
这类包括由学者、政府机构和当地社区策划的数据、医疗记录、法律记录、财务信息和组织特定数据库在内的数据。
就算是属于暗数据。
借林灰十个胆子林灰也不敢去挖。
毕竟这玩意另一个名字叫国家机密。
思考了一小会,林灰倒是想到了几个主意。
但认真琢磨之下,无论是哪个主意似乎都很容易担风险,短时间内都不具有可行性。
尽管说做事情完全不担风险几乎不存在。
但为了区区两亿美元去担风险似乎没啥必要。
毕竟以林灰脑海中的信息想赚两亿美元实际上不需要太久的。
总之,完全没行险的必要。
既然没行险的必要,而且林灰一贯求稳。
那么涉及到数据挖掘为什么林灰会想出一堆有风险的方法呢?
莫非是林灰飘了不成??
再往后几年的话,林灰想到的主意没任何问题。
至少以21年年底的思维来看,林灰刚才想到的也不是什么铤而走险的办法。
林灰所想的方法完全可以合乎规矩进行操作。
但很无奈,现在是2014年,想要进行同样的操作是不可能的。
最根本的原因是因为在前世往后几年的数据挖掘一应事宜已经完成程序化、规范化。
涉及到数据的利用以及数据安全方面有明确的《数/据/安/全/法》。
该法律开宗明义第一条就说明了:“为了规范数据处理活动,保障数据安全,促进数据开发利用,保护个人、组织的合法权益,维护國家主权、安全和发展利益,制定本法。”
在《数/据/安/全/法》这部法律中对于数据利用和数据安全的很多东西都进行了相当明确的规定。
涉及到数据安全应急处置机制、数据安全审查、数据出口管制之类的自不必说。
比较关键的在于这部法律明确了数据分类分级与核心数据保护制度同时明确了数据安全风险评估与工作协调机制。
按照这两条的话,无疑意味着将有國家层面出面对一些数据进行安全风险评估从而对于数据分级。
虽然看似是对数据管制更严了。
但这对于真正踏踏实实的本分人反而是好消息。
为什么这么说呢??
很多事情都是不怕有明确规定,就怕无可无不可那种情况。
无可无不可意味着灰色地带,有的人游走于灰色地带很开心,那只能说是傻大胆了,是真的不拍秋后算账。
反正林灰是觉得这种牵扯到大宗利益的东西有明确的制度比较好。
有明确的制度代表着正规化和合理化。
这对于从业人员是重大利好。
同样以该法内容来说吧,在该法中明确表示了國家支持开发利用数据提升公共服务的智能化水平。
明确表示了國家支持数据开发利用和数据安全技术研究,鼓励数据开发利用和数据安全等领域的技术推广和商业创新,培育、发展数据开发利用和数据安全产品、产业体系。
此外还明确表示了國家推进数据开发利用技术和数据安全标准体系建设。
这些无疑是像林灰这种本分的技术从业者的福音,因为这代表了國家对合理合规的数据利用的明确承认。
按照该法,在筛选出一些涉及到國家安全以及國家利益的关键数据之后。
一些普通数据其实是可以基于此进行合理利用的,哪怕是商用只要不违反规定也是完全可以的。
这对于规规矩矩的技术人员简直就是重大利好。
可以说在有该法通过后涉及到数据利用在我國才真正步入了正轨。
反正比现在[2014年]的情况要好。
现在的情况是,涉及到数据的挖掘和利用基本没明确的法律。。
别说是涉及到数据挖掘和数据利用这事没啥法律了。
就是对“数据”、“数据处理”以及“数据安全”的明确立法定义也是在前世2021年才正式出来的。
没有明确的确定,使得线下涉及到数据利用无论是数据挖掘还是数据处理在我國当下实际上都是灰色地带的。
虽然说对于一般人来说“法无禁止即可为”,但涉及到数据这东西,林灰觉得还是不要太任性。
普通人对数据可能无感,但技术人员可丝毫不敢小瞧数据的价值。
随着人类社会进入数字化时代,网络空间、物理世界和人类社会开始实现深度融合。
数据可不仅是网络空间自身运行的产物,也是物理世界、人类社会运行的数字画像,蕴含着数字化世界的运行规律。
在数字化时代,数据同时兼具國家安全、数字经济、社会治理、个人隐私等多个属性。
这种情况下,很多时候数据是具有重大意义的。
如此,很多涉及到数据方面的事情即便没有关于数据本省的法律办你。
折腾出大动静来也总有一款法律适用你。
这种情况下,林灰觉得涉及到数据不可以太任性。
甚至于如果有可能,林灰觉得应该尽快推动《数/据/安/全/法》提前问世。
哪怕是花上一定的代价也是值得的。
能如此体恤下属的情绪,黄静越发觉得追随林灰是个正确的选择。
当然黄静内心深处的自我攻略,林灰对此是并不知晓的。
林灰之后和黄静也没聊线上办公。
而是又聊了一些美國科技巨头的讯息。
虽然基本都是八卦之类的无聊消息,不过也不是所有信息都是八卦。
至少林灰不是一无所获。
从跟黄静的后续谈话中林灰从黄静那得知了一个颇为重要的信息。
那就是蘋淉方面似乎致力于在谋求一笔总额大概在两亿美元到三亿美元大宗数据交易。
对于这条消息黄静在描述的时候有点含糊其辞。
似乎生怕不小心坑了林灰似的。
以前黄静描述的信息往往都言之凿凿。
很少出现不自信的情况。
涉及到这宗交易黄静先说是数据交易后来又说不是数据交易。
搞得林灰都有点糊涂。
即便是小道消息林灰也很看重相应的价值,毕竟很多时候无风不起浪。
至于黄静说得这个讯息到底是什么,经过进一步的询问以及多方查验。
以及更进一步的一番推敲,林灰还是搞明白了。
所谓的两三亿美元的数据交易指向的确实是数据,但又不是一般类型的数据交易。
蘋淉方面此次谋求的数据收购实在是一桩比较特殊的数据交易。
因为通过各方面渠道获得的信息,林灰觉得蘋淉方面的目标指向的实际是:
——“暗数据”。
图谋于此,也可以看出来蘋淉似乎在明修栈道暗渡陈仓啊。
暗数据有时候也被称为尘埃数据。
暗数据或者说“尘埃数据”是由所有冗余的、经常被遗忘的数据组成的。
这些数据是公司和组织在其活动过程中收集的,但随后又不使用。
暗数据往往是无结构、无标记、无分析的信息。
比起此前林灰忽视的标注数据。
暗数据就更没啥存在感了。
暗数据这类数据几乎是被无视的。
毕竟这类数据存在于网络和服务器中,只会占据了宝贵的空间。
一般来说,暗数据主要有三种类型:
第一种是传统的基于文本的数据。这可能包括电子邮件,日志和文档。
第二种类型是非传统数据。
这包括未标记的音频和视频文件、静止图像和声音文件。
第三种类型是深度数据。
这包括深层网络中搜索引擎无法触及的信息。
这些深度数据大多是私有的,由政府或私人机构控制。
它包括由学者、政府机构和当地社区策划的数据、医疗记录、法律记录、财务信息和组织特定数据库。
以上这些数据都可以称之为暗数据。
……
暗数据这类数据相比传统意义上数据要更隐晦一些。
暗数据这种未标注过的数据虽然不能拿来直接用吧。
但却不能否定这种东西的潜力。
反正绝对不能说这些信息不重要。
至于果子为什么对这类东西感兴趣。
因为收集这类一贯不被视为数据的数据。
实际上通过深耕是能得到跟传统数据差不多的功效的。
而且使用这类数据的话,通过一些概念性的教育消费者甚至可以形成一种企业从来不涉足一般数据的印象。
这对于树立企业形象岂不是很有妙用??
总之,对于既当又立的企业不能说是没有诱惑力。
反正林灰觉得从暗数据入手这倒是符合很多科技巨头的行事风格。
类比林灰以前估量的价格。
如果说几千万美元就能买上千万条双语标注数据。
可想而知像蘋淉所谋求的价值两三个亿美元的暗数据肯定是一笔相当庞大的数据。
涉及到标注数据跟暗数据一大区别在于标注数据是结构化进行过一定处理的数据。
而暗数据很大程度上是未被结构化处理甚至很是“乱糟糟”的数据。
结构化的数据一般是即有固定格式和有限长度的数据。
例如填的表格就是结构化的数据。
比如说“国籍,种花家,民族:汉,性别:男,姓名:张三,年龄:……”
这种央视的都叫结构化数据。
这类数据很容易以固定的格式存储到数据库里。
而半结构化数据值得是一些XML或者HTML的格式的数据。
对这类数据当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。
所谓的非结构化的数据:就是不定长、无固定格式的数据。
例如网页,邮件,有时候非常长;有时候非常短,几句话就没了,这类就是典型的非结构化数据。
子啊比如说例如Word文档、语音,视频、图片都是非结构化的数据。
而半结构化数据和非结构化数据,一般合二为一统称为“暗数据”。
这个词语也不是林灰定义的。
相比于标注数据这种结构化数据,暗数据同标注数据此二者的价值是不可同日而语的。
单位标注数据的价值往往几十倍甚至于几百倍于单位暗数据。
两三亿美元就算是换取较为昂贵的跨语种语言类标注数据都能换上几亿条。
更何况说拿几亿美元去换暗数据呢?
可想而知,两三亿美元涉及到的暗数据是一笔相当可观的暗数据。
林灰那有很多前世的信息。
但也绝不可能有满足蘋淉胃口的暗数据。
不要说是林灰前世那点信息了。
就是像國内有的忝居互联网巨头之列外强中干的互联网公司所拥有的暗数据规模也未必能满足蘋淉的胃口。
这种情况下如果林灰对蘋淉的这笔巨额收购感兴趣的话似乎只能去收集暗数据了。
至于如何去收集呢?
暗数据的收集方式多种多样。
因为暗数据包括用户活动日志、客户对话或电子邮件记录、服务器监控日志、视频文件、物联网产生的机器和传感器信息。
暗数据还可能包括由于存储在过时设备上而无法再访问的数据。
这种情况下很多时候清理活动日志或者说收集存储碎片的时候都有可能顺手牵羊搞到一些暗数据。
除此之外还有很多种收集暗数据的方式。
说起来虽然很容易。
但正所谓抛开剂量谈毒性都是耍流氓。
同样的道理抛开数据规模谈咋挖掘数据同样是耍流氓。
像蘋淉所图规模的暗数据肯定不是传统的数据挖掘方式能满足的。
似乎时下也没太好的挖掘暗数据的方式。
传统的公司,在处理暗数据的时候,采用的是笨办法,想办法把非结构化的数据转换成结构化数据。
这种方法费时费力。
不过也仅仅只是对于时下的科技公司来说。
对于林灰来说他还是有很多数据挖掘方式的。
没人比林灰更懂如何挖掘数据了。
对于大规模的数据挖掘,似乎最方便的方式就是借助于人工智能来挖了。
甚至于林灰前世电脑里有一些现成的挖掘暗数据的方式。
虽然效率受限于时下的硬件可能会大打折扣。
但相比于现在传统的挖掘方式也是降维打击般的存在了。
不过新的问题又来了,从哪挖掘暗数据呢?
前面提到了像有些属于私有的,由政府或私人机构控制的深度数据。
这类包括由学者、政府机构和当地社区策划的数据、医疗记录、法律记录、财务信息和组织特定数据库在内的数据。
就算是属于暗数据。
借林灰十个胆子林灰也不敢去挖。
毕竟这玩意另一个名字叫国家机密。
思考了一小会,林灰倒是想到了几个主意。
但认真琢磨之下,无论是哪个主意似乎都很容易担风险,短时间内都不具有可行性。
尽管说做事情完全不担风险几乎不存在。
但为了区区两亿美元去担风险似乎没啥必要。
毕竟以林灰脑海中的信息想赚两亿美元实际上不需要太久的。
总之,完全没行险的必要。
既然没行险的必要,而且林灰一贯求稳。
那么涉及到数据挖掘为什么林灰会想出一堆有风险的方法呢?
莫非是林灰飘了不成??
再往后几年的话,林灰想到的主意没任何问题。
至少以21年年底的思维来看,林灰刚才想到的也不是什么铤而走险的办法。
林灰所想的方法完全可以合乎规矩进行操作。
但很无奈,现在是2014年,想要进行同样的操作是不可能的。
最根本的原因是因为在前世往后几年的数据挖掘一应事宜已经完成程序化、规范化。
涉及到数据的利用以及数据安全方面有明确的《数/据/安/全/法》。
该法律开宗明义第一条就说明了:“为了规范数据处理活动,保障数据安全,促进数据开发利用,保护个人、组织的合法权益,维护國家主权、安全和发展利益,制定本法。”
在《数/据/安/全/法》这部法律中对于数据利用和数据安全的很多东西都进行了相当明确的规定。
涉及到数据安全应急处置机制、数据安全审查、数据出口管制之类的自不必说。
比较关键的在于这部法律明确了数据分类分级与核心数据保护制度同时明确了数据安全风险评估与工作协调机制。
按照这两条的话,无疑意味着将有國家层面出面对一些数据进行安全风险评估从而对于数据分级。
虽然看似是对数据管制更严了。
但这对于真正踏踏实实的本分人反而是好消息。
为什么这么说呢??
很多事情都是不怕有明确规定,就怕无可无不可那种情况。
无可无不可意味着灰色地带,有的人游走于灰色地带很开心,那只能说是傻大胆了,是真的不拍秋后算账。
反正林灰是觉得这种牵扯到大宗利益的东西有明确的制度比较好。
有明确的制度代表着正规化和合理化。
这对于从业人员是重大利好。
同样以该法内容来说吧,在该法中明确表示了國家支持开发利用数据提升公共服务的智能化水平。
明确表示了國家支持数据开发利用和数据安全技术研究,鼓励数据开发利用和数据安全等领域的技术推广和商业创新,培育、发展数据开发利用和数据安全产品、产业体系。
此外还明确表示了國家推进数据开发利用技术和数据安全标准体系建设。
这些无疑是像林灰这种本分的技术从业者的福音,因为这代表了國家对合理合规的数据利用的明确承认。
按照该法,在筛选出一些涉及到國家安全以及國家利益的关键数据之后。
一些普通数据其实是可以基于此进行合理利用的,哪怕是商用只要不违反规定也是完全可以的。
这对于规规矩矩的技术人员简直就是重大利好。
可以说在有该法通过后涉及到数据利用在我國才真正步入了正轨。
反正比现在[2014年]的情况要好。
现在的情况是,涉及到数据的挖掘和利用基本没明确的法律。。
别说是涉及到数据挖掘和数据利用这事没啥法律了。
就是对“数据”、“数据处理”以及“数据安全”的明确立法定义也是在前世2021年才正式出来的。
没有明确的确定,使得线下涉及到数据利用无论是数据挖掘还是数据处理在我國当下实际上都是灰色地带的。
虽然说对于一般人来说“法无禁止即可为”,但涉及到数据这东西,林灰觉得还是不要太任性。
普通人对数据可能无感,但技术人员可丝毫不敢小瞧数据的价值。
随着人类社会进入数字化时代,网络空间、物理世界和人类社会开始实现深度融合。
数据可不仅是网络空间自身运行的产物,也是物理世界、人类社会运行的数字画像,蕴含着数字化世界的运行规律。
在数字化时代,数据同时兼具國家安全、数字经济、社会治理、个人隐私等多个属性。
这种情况下,很多时候数据是具有重大意义的。
如此,很多涉及到数据方面的事情即便没有关于数据本省的法律办你。
折腾出大动静来也总有一款法律适用你。
这种情况下,林灰觉得涉及到数据不可以太任性。
甚至于如果有可能,林灰觉得应该尽快推动《数/据/安/全/法》提前问世。
哪怕是花上一定的代价也是值得的。