1. 什么是大数据时代
利用相关算法对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活。
大数据无处不在,社会各行各业都可以找到大数据的印记,在金融,餐饮,电信,体育,娱乐等领域都可以感受到大数据对各行各业的影响
1、更多,更乱,但内部有关系可循。
示例:
大约20年前,亚马逊刚成立时,杰夫·贝索斯让50个书评员来为他卖书,他意识到不仅仅可以请人来写书评,还可以用数据技术来提供图书推荐。起初他使用的是小数据,不是大数据,把客户进行分类,比如说有人对中国旅游或者是对园艺感兴趣,系统会自动提供推荐。他的同事告诉他,刚刚开始使用这个数据推荐时,使用体验并不好;在进一步分析后,亚马逊决定不对人进行分类,而是对用户的需求分类。这个做法做法非常成功,以至于到今天,推荐系统为亚马逊带去30%的销售收入。
这就是数据收集和再处理。亚马逊有交易数据,每买一本书就是一个交易,然后对这个数据进行分析。但今天我们已不再满足于交易数据了,转而收集起沟通数据。你看了某一个书评、某一个交流会给商家更多的信息和细节。
2、数据可以被重复使用(数据的产生和收集本身并没有直接产生服务,最具价值的部分在于:当这些数据在收集以后,会被用于不同的目的,数据被重新再次使用)
示例:
比方说这家公司实时车辆交通数据采集商Inrix,该公司目前有1亿个手机端用户。Inrix可以帮助你开车,避开堵车,为司机呈现路的热量图,红的就表面堵车。如果只提供数据,这个产品没什么特色,
但值得一提的是,Inrix并没有用交警的数据,这个软件的每位用户在使用过程中会给服务器发送实时数据,比如走的多快,走到哪里,这样每个客户都是探测器。
每天早上起来想一下,这么多数据我能用来干什么,这些价值在哪里可以找到,能不能找到一个别人以前都没有做过的事情。你的想法和思路,是最重要的资产。
示例:
我们可以通过大数据来确定哪些地方会有火灾。以前防火检查员只有13%的时间可以准备预测,现在他们找到火灾隐患的概率达到了70%,比以前提高了6倍。将效率提高6倍是一个巨大无比的进步,未来的公共服务业可以由此获得更多便利。
2. 大数据技术有哪些
随着大数据分析市场迅速扩展,哪些技术是最有需求和最有增长潜力的呢?在Forrester Research的一份最新研究报告中,评估了22种技术在整个数据生命周期中的成熟度和轨迹。这些技术都对大数据的实时、预测和综合洞察有着巨大的贡献。
1. 预测分析技术
这也是大数据的主要功能之一。预测分析允许公司通过分析大数据源来发现、评估、优化和部署预测模型,从而提高业务性能或降低风险。同时,大数据的预测分析也与我们的生活息息相关。淘宝会预测你每次购物可能还想买什么,爱奇艺正在预测你可能想看什么,百合网和其他约会网站甚至试图预测你会爱上谁……
2. NoSQL数据库
NoSQL,Not Only SQL,意思是“不仅仅是SQL”,泛指非关系型数据库。NoSQL数据库提供了比关系数据库更灵活、可伸缩和更便宜的替代方案,打破了传统数据库市场一统江山的格局。并且,NoSQL数据库能够更好地处理大数据应用的需求。常见的NoSQL数据库有HBase、Redis、MongoDB、Couchbase、LevelDB等。
3. 搜索和知识发现
支持来自于多种数据源(如文件系统、数据库、流、api和其他平台和应用程序)中的大型非结构化和结构化数据存储库中自助提取信息的工具和技术。如,数据挖掘技术和各种大数据平台。
4. 大数据流计算引擎
能够过滤、聚合、丰富和分析来自多个完全不同的活动数据源的数据的高吞吐量的框架,可以采用任何数据格式。现今流行的流式计算引擎有Spark Streaming和Flink。
5. 内存数据结构
通过在分布式计算机系统中动态随机访问内存(DRAM)、闪存或SSD上分布数据,提供低延迟的访问和处理大量数据。
6. 分布式文件存储
为了保证文件的可靠性和存取性能,数据通常以副本的方式存储在多个节点上的计算机网络。常见的分布式文件系统有GFS、HDFS、Lustre 、Ceph等。
7. 数据虚拟化
数据虚拟化是一种数据管理方法,它允许应用程序检索和操作数据,而不需要关心有关数据的技术细节,比如数据在源文件中是何种格式,或者数据存储的物理位置,并且可以提供单个客户用户视图。
8. 数据集成
用于跨解决方案进行数据编排的工具,如Amazon Elastic MapRece (EMR)、Apache Hive、Apache Pig、Apache Spark、MapRece、Couchbase、Hadoop和MongoDB等。
9. 数据准备
减轻采购、成形、清理和共享各种杂乱数据集的负担的软件,以加速数据对分析的有用性。
10. 数据质量
使用分布式数据存储和数据库上的并行操作,对大型高速数据集进行数据清理和充实的产品。
3. 什么是大数据时代
大数据时代是数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。
“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在,却因为来自互联网和信息行业的发展而引起人们关注。
进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数大数据时代来临据,并命名与之相关的技术发展与创新。
大数据时代已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。
(3)大数据时代是4大技术领域扩展阅读:
大数据时代特征:
1、数据量大(Volume)
第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
2、类型繁多(Variety)
第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
3、价值密度低(Value)
第三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。
4、速度快、时效高(Velocity)
第四个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。
4. 大数据技术有哪些
大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。
大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
六、大数据展现与应用技术
大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。在我国,大数据将重点应用于以下三大领域:商业智能、政府决策、公共服务。例如:商业智能技术,政府决策技术,电信数据信息处理与挖掘技术,电网数据信息处理与挖掘技术,气象信息分析技术,环境监测技术,警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统),大规模基因序列分析比对技术,Web信息挖掘技术,多媒体数据并行化处理技术,影视制作渲染技术,其他各种行业的云计算和海量数据处理应用技术等。
5. 大数据应用的领域主要有哪些
大数据是信息技术与专业技术、信息技术产业与各行业领域紧密融合的典型领域,有着旺盛的应用需求、广阔的应用前景。为把握这一新兴领域带来的新机遇,需要不断跟踪研究大数据,不断提升对大数据的认知和理解,坚持技术创新与应用创新的协同共进,加快经济社会各领域的大数据开发与利用,推动国家、行业、企业对于数据的应用需求和应用水平进入新的阶段。
6. 什么是大数据时代
(1)大数据时代的提出
最早提出大数据时代到来的是全球知名咨询公司麦肯锡,他认为数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。
(2)大数据时代的来临
随着互联网快速发展、智能手机以及“可佩带”计算设备的出现,我们的行为、位置,甚至身体生理数据等每一点变化都成为了可被记录和分析的数据。这些新技术推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB来衡量。
(3)大数据时代的特点
如果简单来理解什么是大数据,我们只要抓住大数据的四个特点,大量、高速、多样、价值。具体来讲就是数据体量巨大,数据的爆发性增长迫切的需要智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据;数据类型繁多,广泛的数据来源决定了大数据形式的多样性。任何形式的数据都可以产生作用,目前应用最广泛的就是推荐系统的应用;价值密度低,现实世界所产生的数据中,有价值的数据所占比例很小。相比于传统的小数据,大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据;数据分析处理速度快,主要通过互联网传输。大数据对处理速度有非常严格的要求,服务器中大量的资源都用于处理和计算数据,很多平台都需要做到实时分析。
7. 2021那些事儿|细数信息技术4大领域
2021年,信息技术发展突飞猛进。人工智能、大数据、开源、虚拟现实(VR)、增强现实(AR)……每个领域的发展几乎都可圈可点。
在人工智能领域,人工智能的语言大模型、图文大模型乃至多模态大模型的基本能力已得到了充分展现。例如,阿里巴巴达摩院公布多模态大模型M6最新进展,参数从万亿跃迁至10万亿;鹏城实验室与网络联合发布全球首个知识增强千亿大模型——鹏城—网络·文心,参数规模达到2600亿。
不仅如此,人工智能与其他科学领域的交叉融合也擦出火花。在《科学》近日公布的2021年度科学突破榜单上,AlphaFold和RoseTTA-fold两种基于人工智能预测蛋白质结构的技术位列榜首。
在人机交互领域,扎克伯格将Facebook公司更名为“Meta”时,特斯拉和SpaceX首席执行官埃隆·马斯克则将注意力放在脑机接口上。马斯克认为脑机接口装置将更有可能改变世界,帮助四肢瘫痪或有身体缺陷的人更好地生活和工作,“复杂的脑机接口装置可以让你完全沉浸在虚拟现实中”。此外,今年5月,斯坦福大学开发出一套皮质内脑机接口系统,可以从运动皮层的神经活动中解码瘫痪患者想象中的手写动作,并将其转换为文本。
在超算领域,最值得一提的是,今年11月,我国超算应用团队凭借“超大规模量子随机电路实时模拟”成果斩获国际高性能计算应用领域的最高奖项“戈登贝尔奖”。
在开源方面,RISC-V开源指令集及其生态快速崛起;由华为公司牵头,中国科学院软件研究所、麒麟软件等参与的openEuler操作系统开源社区业已汇聚了7000名活跃开发者,完成8000多个自主维护的开源软件包,催生了10多家厂商的商业发行版……
回望2021年,信息技术版邀请业内专家梳理上述四个领域的发展脉络,展望未来发展趋势。
作者 张双虎
AlphaFold或是2021年人工智能(AI)领域的“一哥”。
近日,《科学》杂志公布了 2021 年度科学突破榜单,AlphaFold 和 RoseTTA-fold 两种基于人工智能预测蛋白质结构的技术位列榜首。
此前几天,由中国工程院院刊评选的“2021全球十大工程成就(近5年全球实践验证有效、有全球影响力的工程科学和技术重大成果)”中,AlphaGo和AlphaFold亦榜上有名。
在接受《中国科学报》采访时,数位专家回望今年人工智能领域取得的成就时,均谈到了AlphaFold。
“面向科学发现的AlphaFold和中国正在构建的人工智能发展生态不能不说。” 浙江大学人工智能研究所所长吴飞对《中国科学报》说。
中科院自动化研究所模式识别国家重点实验室研究员王金桥则提名“用AI进行新冠诊断”“人工智能与生物、制药、材料等科学融合(AI for Science)”和“三模态大模型紫东太初”。
在医学领域,AI识别咳嗽声早已用于肺炎、哮喘、阿尔茨海默氏症等疾病检测。美国麻省理工学院研究人员研发出可以通过分析咳嗽录音识别新冠患者的AI模型,识别出新冠患者咳嗽的准确率为98.5%,其中识别无症状感染者的准确度高达100%。日前,有报道称该模型已用于识别奥密克戎病毒。
“紫东太初首次实现了图—文—音语义统一表达,兼具跨模态理解和生成能力。” 王金桥说,“目前与新华社共同发布的‘全媒体多模态大模型研发计划’,实现对全媒体数据理解与生成的统一建模,打造全栈国产化媒体人工智能平台,已 探索 性地应用于纺织业和 汽车 行业质检等场景。”
12月7日, 科技 部官网公布3份函件,支持哈尔滨、沈阳、郑州3地建设国家新一代人工智能创新发展试验区。至此,我国已经有18个国家新一代人工智能创新发展试验区,这将引领带动中国人工智能创新发展。
“我国正在推动人工智能生态发展,构建良好生态。”吴飞说,“目前已有15个国家新一代人工智能开发创新平台、18个国家新一代人工智能创新发展试验区、8个人工智能创新应用先导区和高等学校设置的人工智能本科专业和交叉学科等人才培养载体。”
“一是大模型,二是人工智能和基础学科的结合。”孙茂松对《中国科学报》说,“语言大模型、图文大模型乃至多模态大模型的基本能力已得到了充分展现,确定了它作为智能信息处理基础软设施的地位。同时,它并非简单地扩大规模,而是对数字资源整合能力和计算能力都提出了挑战。虽然它的局限性也很明显,但它所表现出的某些‘奇特’性质(如少样本学习、深度双下降、基于提示的任务调整等),使学者产生了超大参数规模或会引发质变的期待,从而为新的突破埋下了伏笔。”
今年,人工智能领域从“大炼模型”走向“炼大模型”阶段,从千亿量级到万亿量级,在大模型领域,似乎没有最大,只有更大。
3月,北京智源人工智能研究院发布我国首个超大规模人工智能模型“悟道1.0”。6月,智源就改写了自己的纪录,发布悟道2.0,参数规模达到1.75万亿;9月,浪潮人工智能研究院推出了中文巨量语言模型——源 1.0,参数量达2457亿;11 月,阿里巴巴达摩院公布多模态大模型 M6 最新进展,参数从万亿跃迁至 10 万亿;12月,鹏城实验室与网络联合发布全球首个知识增强千亿大模型——鹏城—网络·文心,参数规模达到2600亿。
与此相应,最近快手和苏黎世联邦理工学院提出了一个新的推荐系统Persia,最高支持100万亿级参数的模型训练。
另一方面,人工智能在基础学科领域不断攻城略地。
7月,DeepMind公司人工智能程序Alphafold2研究成果又登顶《自然》,在结构生物学研究领域,人工智能或带领生物学、医学和药学挺进新天地;11月,美国南加利福尼亚大学研究人员通过脑机连接设备,让猴子玩 游戏 和跑步机,从而进行神经活动数据研究;12月,DeepMind开发的机器学习框架,已帮助人们发现了纯数学领域的两个新猜想,展示了机器学习支持数学研究的潜力。
“今年人工智能在各行业应用方面也取得不小的成绩。”孙茂松说,“人工智能与基础学科结合已显示出巨大潜力,发表了多篇顶级论文,已展露出某种较强的趋势性,即‘人工智能+基础科学’大有可为。”
作者 张双虎
脑机接口、AR眼镜、智能语音、肌电手环、隔空手势识别……2021年,从基础研究到应用落地,人机交互领域风起云涌。不管是智能 健康 、元宇宙,还是自动驾驶领域的蓬勃发展,似乎都表明,人机交互正站在产业化落地的门口。
“我们研发的高通量超柔性神经电极已通过科研临床伦理审批,即将开展脑机接口人体临床试验。”中科院上海微系统所副所长、传感技术联合国家重点实验室副主任陶虎对《中国科学报》说,“安全稳定地大规模采集人体大脑的神经元信号并进行闭环调控,将实现病人感知和运动功能的修复。”
脑机接口技术给患者带来越来越多的便利。今年5月,斯坦福大学研究人员在《自然》发表封面论文,开发出一套皮质内脑机接口系统,可以从运动皮层的神经活动中解码瘫痪患者想象中的手写动作,并将其转换为文本。借助该系统,受试者(因脊髓损失瘫痪)每分钟可以打出近百个字符,且自动更正后的离线准确率超过了 99%。
不久前,马斯克表示,希望明年能在人类身上使用Neuralink 的微芯片装置。该芯片将用于治疗脊髓损伤、帕金森氏症等脑部疾病和神经系统疾病。目前,相关技术正在等待美国食品药品监督管理局的批准。
“脑机接口领域已经蓄积了相当的技术,有望成为解决大脑疾病的利器。”陶虎说,“大家都在抢占临床应用的先机,明年可能会实现技术落地应用。预计两三年内,国内会出现可媲美马斯克Neuralink的独角兽企业。”
“人机交互将引申出新的万亿级市场。”福州大学特聘教授严群这句判断,也囊括了元宇宙这个巨大的市场。
有人称2021年是“元宇宙元年”,也有人认为这不过是“旧瓶装新酒”。但无论如何,元宇宙已是今年人机交互领域绕不开的话题。
“元宇宙是虚拟现实、增强现实和混合现实的综合,它实际上并非新的东西。”北京邮电大学人机交互与认知工程实验室主任刘伟告诉《中国科学报》,“元宇宙是现实世界和虚拟世界跨越未来的发展方向,但还有些技术问题未能很好地解决。”
在真实世界里,人机交互问题和人机环境系统的混合问题未能很好地解决。真实世界的人机交互中,不管是输入、处理还是输出过程中,客观数据、主观信息和知识依然不能完美融合。
刘伟认为,无论真实世界还是虚拟世界,人类和机器决策都有“快决策”和“慢决策”过程。人类决策有时依靠逻辑决策多些,有时直觉决策多些,这种“混合决策”不断变换,而且很难找到变化规律。这方面的问题机器决策目前还未能解决。
“元宇宙还处在画饼的前期阶段。”刘伟说,“因为它的底层机理没有解决——人在真实世界里未能完美解决人机交互的问题,带到元宇宙里同样不能解决。”
谈到人机交互,刘伟认为第二个不能不说的问题是“复杂领域”。
“今年的诺贝尔物理学奖,也给了复杂系统预测气候变化模型的提出者。”刘伟说,“人机交互也是一个复杂系统,它既包括重复的问题,还包括杂乱的、跨域协同的问题。”
刘伟认为,从智能的角度说,复杂系统包括三个重要组成部分,一是人,二是装备(人造物),三是环境。这其实是多个事物之间相互作用,交织在一起、既纠缠又重叠的“人机环系统”问题。
“在人机交互中,机器强在处理‘复’的问题,人擅长管‘杂’的事——跨域协同、事物间平衡等。因为人们还没找到复杂事物的简单运行规律,所以解决所有智能产品、智能系统问题,要从人、机、环这个系统里找它们的结合、融合和交互点。而且,人要在这个系统中处于主导地位。”
人机交互领域引起刘伟重视的第三个现象,是“人工智能帮数学家发现了一些定律”。“最近,DeepMind研发了一个机器学习框架,能帮助数学家发现新的猜想和定理。”刘伟说,“人工智能是一个基本的数学工具,同时,数学又反映了一些基本规律。如果人工智能可以帮助数学家处理一些数学问题,那么,人们将更好地认识复杂系统的简单规律,人机交互方面就可能会取得新突破。”
作者 张云泉(中国科学院计算技术研究所研究员)
今年是我国超算应用实现丰收的一年。
11月中旬在美国举行的全球超算大会(SC21)上,中国超算应用团队凭借基于一台神威新系统对量子电路开创性的模拟(“超大规模量子随机电路实时模拟”),一举摘得国际上高性能计算应用领域的最高学术奖——“戈登贝尔奖”。
同时,在SC 21大学生超算竞赛总决赛上,清华大学超算团队再次夺得总冠军,实现SC竞赛四连冠。这些大规模应用软件可扩展性和性能调优方面的成绩表明,我国在并行软件方面的发展方兴未艾。
回到超算对产业的驱动来看,我们要重提“算力经济”一词。早在2018年,我们提出“算力经济”概念,认为以超级计算为核心的算力经济将成为衡量一个地方数字经济发展程度的代表性指标和新旧动能转换的主要手段。
综合近几年的发展趋势,我们认为高性能计算当前发展趋势已充分表明,随着超算与云计算、大数据、AI的融合创新,算力已成为当前整个数字信息 社会 发展的关键,算力经济已经登上 历史 舞台。
通过对2021年中国高性能计算机发展现状综合分析,可以总结出当前高性能计算正呈现出以下几个特点。
首先,高性能计算与云计算已经深度结合。高性能计算通常是以MPI、高效通信、异构计算等技术为主,偏向独占式运行,而云计算有弹性部署能力与容错能力,支持虚拟化、资源统一调度和弹性系统配置。
随着技术发展,超级计算与容器云正融合创新,高性能云成为新的产品服务,AWS、阿里云、腾讯、网络以及商业化超算的代表“北龙超云”,都已基于超级计算与云计算技术推出了高性能云服务和产品。
其次,超算应用从过去的高精尖向更广、更宽的方向发展。随着超级计算机的发展,尤其是使用成本的不断下降,其应用领域也从具有国家战略意义的精密研制、信息安全、石油勘探、航空航天和“高冷”的科学计算领域向更广泛的国民经济主战场快速扩张,比如制药、基因测序、动漫渲染、数字电影、数据挖掘、金融分析及互联网服务等,可以说已经深入到国民经济的各行各业。
从近年中国高性能计算百强排行榜(HPC TOP100)来看,超算系统过去主要集中于科学计算、政府、能源、电力、气象等领域,而近5年互联网公司部署的超算系统占据了相当大比例,主要应用为云计算、机器学习、人工智能、大数据分析以及短视频等。这些领域对于计算需求的急剧上升表明,超算正与互联网技术进行融合。
从HPC TOP100榜单的Linpack性能份额看,算力服务以46%的比例占据第一;超算中心占24%,排名第二;人工智能、云计算和短视频分别以9%、5%和4%紧随其后。
可以看出,人工智能占比的持续增加与机器学习等算法和应用的快速崛起,以及大数据中的深度学习算法的广泛应用有很大关系。互联网公司通过深度学习算法重新发现了超级计算机,特别是GPU加速的异构超级计算机的价值,纷纷投入巨资建设新系统。
综合来看,目前的算力服务、超算中心、人工智能、科学计算等领域是高性能计算的主要用户,互联网、大数据,特别是AI领域增长强劲。
再次,国家层面已经制订了战略性的算力布局计划。今年5月,国家发展改革委等四部门联合发布《全国一体化大数据中心协同创新体系算力枢纽实施方案》,提出在京津冀、长三角、粤港澳大湾区、成渝以及贵州、内蒙古、甘肃、宁夏建设全国算力网络国家枢纽节点,启动实施“东数西算”工程,力促把东部的数据送到西部进行存储和计算,同时在西部建立算力节点,改善数字基础设施不平衡的布局,有效优化数据中心的布局结构,实现算力升级,构建国家算力网络体系。
最后,人工智能的算力需求已成为算力发展主要动力。机器学习、深度学习等算法革新和通过物联网、传感器、智能手机、智能设备、互联网技术搜集的大数据,以及由超级计算机、云计算等组成的超级算力,被公认为是人工智能时代的“三驾马车”,共同掀起最新一轮的人工智能革命。
在人工智能蓬勃发展这一背景下,虚拟化云计算向高性能容器云计算演进,大数据与并行计算、机器学习融合创新就成为了产业发展的最新方向。
此外,在智能计算评测方面,我国已经提出了包括AIPerf 500在内的众多基准测试程序,这是对传统Linpack测试标准的有力补充。
这些发展表明超算技术向产业渗透的速度加快,我们已经进入一个依靠算力的人工智能时代,这也是未来发展的必然趋势之一。随着用户对算力需求的不断增长,算力经济必将在未来 社会 发展中占据重要地位。
作者 武延军(中国科学院软件研究所研究员)
开源发展可圈可点并非只是今年的事。最近几年,开源领域发生了很多重要的事情。
例如,RISC-V开源指令集及其生态的快速崛起。这与上世纪90年代初Linux诞生一样。当时,UNIX和Windows是主流,很少有人能够预料到今天以Linux为内核的操作系统已经遍及人们生活的方方面面。
如今,人们每天使用的App,超过80% 概率是运行在以Linux为内核的安卓操作系统上,而且,支撑其业务的后端服务器上运行的操作系统很大概率也是Linux发行版。
所以,今天的RISC-V也同样可能被低估,认为其不成熟,很难与ARM和X86抗衡。但也许未来RISC-V就像Linux一样,最终成为全球范围内的主流指令集生态,产品遍及方方面面。
仅2020年,RISC-V International(RVI,RISC-V基金会迁入瑞士之后的新名称)的会员数增长了133%。其实RVI迁入瑞士这件事情本身也意义重大,是一次开源领域面对大国竞争保持初心不“选边站”的经典案例,值得全球其他开源基金会参考。
在国内,2019年底,华为公司牵头,中国科学院软件研究所、麒麟软件等参与的openEuler操作系统开源社区正式成立。在短短的两年内,社区已经汇聚了7000名活跃开发者,完成8000多个自主维护的开源软件包,催生了10多家厂商的商业发行版。
这是中国基础软件领域第一个真正意义上的“根社区”,虽然与20多年 历史 的Debian、Fedora还有差距,但迈出了重要一步,对学术研究、技术研发、产业创新来说,终于有了国内主导的、可以长期积淀的新平台。
同时,华为在遭遇安卓操作系统GMS(谷歌移动服务)海外断供之后,推出了鸿蒙操作系统HarmonyOS,并在开放原子开源基金会下启动开源项目OpenHarmony。
目前OpenHarmony短时间内已经吸引了国内众多厂商参与,也侧面反映了国内产业界对新一代万物互联操作系统的旺盛需求。尽管其在生态规模和技术完整程度方面与安卓仍有差距,但毕竟迈出了打造自主生态的第一步。
这相当于为源代码合理使用划定了一个边界,即合理使用仅限于接口,一旦深入到接口的实现代码,则需要遵守相关许可。这对开源知识产权的法律界定具有重要参考意义。
今年5月,《2021中国开源发展蓝皮书》重磅发布。它不仅系统梳理了我国开源人才、项目、社区、组织、教育、商业的现状,并给出发展建议,而且为国家政府相关管理部门制定开源政策、布局开源战略提供参考,为科研院所、 科技 企业以及开源从业者提供更多的案例参考和数据支撑。
而不论是开源软件向围绕开放指令集的开源软硬件生态发展,还是开源有严格的法律边界约束,抑或是国内龙头企业正尝试通过开源 探索 解决“卡脖子”问题,且已经取得了一定的效果……众多案例都指向一个方向——开源趋势不可阻挡。因为它源自人类分享知识、协同创造的天性,也是人类文明在数字时代薪火相传的重要模式。
当然,不可否认的是,开源还存在很多问题,例如,开源软件供应链安全的问题。这里的安全既有传统意义上软件质量、安全漏洞的问题,也有开源软件无法得到持续有效维护的问题(如OpenSSL在出现HeartBleed问题时只有两位兼职维护者,log4j出现问题时只有三位兼职维护者),更有大国竞争导致的“断供”问题(如GitHub曾限制伊朗开发者访问)。
随着开源软件向GitHub这类商业平台的集中,这一问题会更加突出,甚至演变为重大风险。开源软件这一本应属于全人类的智慧资产,可能变为实施“长臂管辖”的武器。为了避免这一问题,开源代码托管平台、开源软件构建发布平台等公共基础设施需要“去中心化”。世界需要多个开源软件基础设施,以最大程度消除政治力量对开源社区的威胁。
对于中国来说,随着开源软件成为众多科研、工业等重大基础设施的重要支撑部分,开源软件本身也要有一个基础设施,具备代码托管、编译、构建、测试、发布、运维等功能,保证开源软件供应的安全性和连续性,进而增强各行各业使用开源软件的信心。
未来,核心技术创新与开源贡献引领将成为国内企业发展的新动力,或将我国开源事业推向另一个高潮。
8. 大数据的核心技术有哪些
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据版预处理、分布权式存储、数据库、数据仓库、机器学习、并行计算、可视化等。
1、数据采集与预处理:
Flume NG实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据;
Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。
2、数据存储:
Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。
HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。
3、数据清洗:MapRece作为Hadoop的查询引擎,用于大规模数据集的并行计算
4、数据查询分析:
Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。
Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
5、数据可视化:对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。
9. 大数据技术包括哪些
大数据技术包括数据收集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测、结果呈现。
1、数据收集:在大数据的生命周期中,数据采集处于第一个环节。根据MapRece产生数据的应用系统分类,大数据的采集主要有4种来源:管理信息系统、Web信息系统、物理信息系统、科学实验系统。
2、数据存取:大数据的存去采用不同的技术路线,大致可以分为3类。第1类主要面对的是大规模的结构化数据。第2类主要面对的是半结构化和非结构化数据。第3类面对的是结构化和非结构化混合的大数据,
3、基础架构:云存储、分布式文件存储等。
4、数据处理:对于采集到的不同的数据集,可能存在不同的结构和模式,如文件、XML 树、关系表等,表现为数据的异构性。对多个异构的数据集,需要做进一步集成处理或整合处理,将来自不同数据集的数据收集、整理、清洗、转换后,生成到一个新的数据集,为后续查询和分析处理提供统一的数据视图。
5、统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
6、数据挖掘:目前,还需要改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
7、模型预测:预测模型、机器学习、建模仿真。
8、结果呈现:云计算、标签云、关系图等。