大数据智能挖掘技术研究_大数据挖掘在虚拟医药科研方面的思考

A. 大数据的核心数据挖掘

大数据的核心：数据挖掘
大数据的核心：数据挖掘。从头至尾我们都脱离不了数据挖掘。其实从大学到现在一直都接触数据挖掘，但是我们不关心是什么是数据挖掘，我们关心的是我们如何通过数据挖掘过程中找到我们需要的东西，而我们更关心的是这个过程是什么？如何开始？
总结的过程也是一个学习的过程，通过有章节的整理对目前正在的学习的内容做规整。在这个过程中我们会从具体的项目实施中去谈数据挖掘，中间会贯穿很多的概念，算法，业务转换，过程，建模等等。
我们列一下要谈论的话题：
1、什么是数据挖掘及为什么要进行数据挖掘？
2、数据挖掘在营销和CRM中的应用？
3、数据挖掘的过程
4、你应理解的统计学
5、数据描述与预测：剖析与预测建模
6、经典的数据挖掘技术
7、各类算法
8、数据仓库、OLAP、分析沙箱和数据挖掘
9、具体的案例分析
什么是数据挖掘？
是知识发现、商业智能、预测分析还是预测建模。其实都可以归为一类：数据挖掘是一项探测大量数据以发现有意义的模式（pattern）和规则（rule）的业务流程。
这里谈到了发现模式与规则，其实就是一项业务流程，为业务服务。而我们要做就是让业务做起来显得更简单，或直接帮助客户如何提升业务。在大量的数据中找到有意义的模式和规则。在大量数据面前，数据的获得不再是一个障碍，而是一个优势。在现在很多的技术在大数据集上比在小数据集上的表现得更好——你可以用数据产生智慧，也可以用计算机来完成其最擅长的工作：提出问题并解决问题。模式和规则的定义：就是发现对业务有益的模式或规则。发现模式就意味着把保留活动的目标定位为最有可能流失的客户。这就意味着优化客户获取资源，既考虑客户数量上的短期效益，同时也考虑客户价值的中期和长期收益。
而在上面的过程，最重要的一点就是：如何通过数据挖掘技术来维护与客户之间的关系，这就是客户关系管理，CRM。
专注于数据挖掘在营销和客户关系管理方面的应用——例如，为交叉销售和向上销售改进推荐，预测未来的用户级别，建模客户生存价值，根据用户行为对客户进行划分，为访问网站的客户选择最佳登录页面，确定适合列入营销活动的候选者，以及预测哪些客户处于停止使用软件包、服务或药物治疗的风险中。
两种关键技术：生存分析、统计算法。在加上文本挖掘和主成分分析。
经营有方的小店自然地形成与客户之间的学习关系。随着时间的推移，他们对客户的了解也会越来越多，从而可以利用这些知识为他们提供更好的服务。结果是：忠实的顾客和盈利的商店。
但是拥有数十万或数百万客户的大公司，则不能奢望与每个客户形成密切的私人关系。面临这样困境，他们必须要面对的是，学会充分利用所拥有的大量信息——几乎是每次与客户交互产生的数据。这就是如何将客户数据转换成客户知识的分析技术。
数据挖掘是一项与业务流程交互的业务流程。数据挖掘以数据作为开始，通过分析来启动或激励行为，这些行为反过来又将创建更多需要数据挖掘的数据。
因此，对于那些充分利用数据来改善业务的公司来说，不应仅仅把数据挖掘看作是细枝末节。
相反，在业务策略上必须包含：1、数据收集。2、为长期利益分析数据。3、针对分析结果做出分析。
CRM（客户关系管理系统）。在各行各业中，高瞻远瞩的公司的目标都是理解每个客户，并通过利用这种理解，使得客户与他们做生意更加容易。同样要学习分析每个客户的价值，清楚哪些客户值得投资和努力来保留，哪些准许流失。把一个产品为中心的企业转变成以客户为中心的企业的代价超过了数据挖掘。假设数据挖掘的结果是像一个用户推荐一个小首饰而不是一个小发明，但是如果经理的奖金取决于小发明的季度销售量而不是小首饰的销售量（即便后者更为有利可图或者收获长期盈利更多的客户），那么数据挖掘的结果就会被忽视，这就导致挖掘结果不能产生决策。

B. 大数据挖掘在虚拟医药科研方面的思考

大数据挖掘在虚拟医药科研方面的思考
1.基于大数据挖掘的虚拟医药科研案例
数据挖掘发展到今天，按照时下的概念应该到了“大”数据挖掘的时代了。我们还是先从几个相关案例开始吧。
1.1 虚拟临床试验-大数据采集
我们首先来看这样一个案例。2011年06月，辉瑞制药有限公司宣布开展一项“虚拟”临床研究，该项研究是一个得到美国食品和药物管理局批准的试点项目，首字母缩写为“REMOTE”。“REMOTE”项目是在美国开展的第一项病人只需使用手机和互联网、而不用重复跑医院的临床研究，该项目的目标是要确定此类“虚拟”临床研究能否产生和传统临床研究一样的结果。而传统的临床研究要求病人住在医院附近，并且定期前往医院或诊所进行初次检查和多次后续检查。如果这一项目有效，那它可能意味着全美国的病人都能参加今后的许多医学研究。这样一来，原先的科研项目中未得到充分代表的群体将得以参加，数据收集速度将大大加快，而且成本也很可能会大幅下降，参与者退出的几率也很可能会降低不少。
从上例中，我们可以看到，利用互联网可以收集远远大于传统临床科研样本数目的超大量病人的临床数据，而且其中有些临床数据可能来自于更加便捷的可穿戴健康监测设备。如果这样的研究，在科研设计严谨、质量标准得到有效执行、各种误差得到有效控制的情况下，科研的效率和成果的可信度可以显著提高。正如辉瑞公司首席医疗官弗蕾达?刘易斯-霍尔所说的：“让更多样化的人群得以参与研究有可能会推动医学进步，并为更多的病人带来更好的疗效。”
1.2 虚拟药物临床试验-大数据挖掘
我们再来看另外一个案例。1992年，抗抑郁药物帕罗西汀（Paxil）获准上市；1996年，降胆固醇药物普拉固（Pravachol）正式开售。两种药品生产企业的研究证明：每种药物在单独服用时是有效且安全的。可是，患者要是同时服用两种药是否安全，没有人知道，甚至很少有人想过。美国斯坦福大学的研究人员应用数据挖掘技术分析了数万例患者的电子病历后，很快发现了一个出人意料的答案：同时服用两种药物的患者血糖含量较高。这对于糖尿病患者来说影响很大，过多的血糖对他们来说是一种严重的健康威胁！科学家还通过分析血糖检测结果和药物处方，来寻找隐藏的规律。
对于单个医生来说，他所经历的同时服用这两种药物的病人是很有限的，虽然其中可能有少数的糖尿病患者莫名其妙地血糖升高了，但医生很难意识到这是由于病人同时服用了Paxil和Pravachol造成的。因为这是一种掩藏在大数据中的隐含规律，如果不是有人有目的地专门研究Paxil和Pravachol联合用药的安全性的话，个体医生是很难揭示这个规律的。但是，临床药品成千上万，我们怎么可能对任意组合的两、三种药联合应用的安全性和有效性进行逐一研究呢？数据挖掘很可能是一种有效的、快速的、主动式的探索多种药联合应用问题的方法！
研究者不必再召集患者去做临床试验，那样做的话花费太大了。电子病历及其计算机应用的普及为医疗数据挖掘提供了新的机遇。科学家不再局限于通过召集志愿者来开展传统的课题研究，而是更多地从现实生活中的实验中，如日常的大量的临床案例中筛选数据并开展虚拟科研，这些并非来自计划的课题立项的实验数据保存在许多医院的医疗记录中。
类似本案例，应用数据技术使得研究人员可以找出在药物批准上市时无法预见的问题，例如一种药物可能对特定人群产生怎样的影响。另外，对医疗记录的数据挖掘不仅将为研究带来好处，还会提高医疗服务系统的效率。
1.3 虚拟药物靶标发现-知识发现
我们再看看这样的一类研究。通常新药研发的过程都比较漫长,投入巨大，风险也很高。有数据表明，新药研发的平均时间长达15年,平均耗费超过8亿美元。但是,由于药物疗效的不佳和毒副作用太高，使得许多药物的研发经常在临床阶段就失败了，造成了巨大的经济损失。作为药物研发的源头,药物靶标的发现和识别对药物的研发成功率具有举足轻重性的作用。随着生物信息技术的不断发展,以及蛋白质组学数据、化学基因组学数据的日益增长,应用数据挖掘技术结合传统生物实验技术,可为药物新靶标的发现提供新的技术手段,为靶标识别预测提供新的方法。构建药物靶标数据库，利用智能计算技术和数据挖掘技术对现有的药物靶标数据开展深入探索，以期发现新的药物靶标正是这样一类研究，我们也称之为药物靶标的知识发现。
传统的药物靶标的发现，通常大都是通过大量的、反复的生物化学实验来实现的，不仅成本高、效率低，成功率也很低，犹如瞎子摸象一样，不好掌握方向。而应用数据挖掘这一自动的、主动的、高效的探索技术，可以开展虚拟药物靶标发现，不仅大大加快了药物靶标发现的进程，而且大幅减少了生物化学实验的次数和成本，同时也提高了传统生化实验的成功率。
2. 数据挖掘在虚拟医药科研上的应用
大数据时代，医药研发面临更多的挑战和机遇，为了更好的节约研发成本，提高新药研发成功率，研发出更有竞争力的新药，可以应用数据挖掘技术开展虚拟医学科研和药物研究。数据挖掘在虚拟医药科研上的应用，可以总结为如下几个方面。
2.1 通过预测建模帮助制药公司降低研发成本提高研发效率。模型基于药物临床试验阶段之前的数据集及早期临床阶段的数据集，尽可能及时地预测临床结果。评价因素包括产品的安全性、有效性、潜在的副作用和整体的试验结果。通过预测建模可以降低医药产品公司的研发成本，在通过数据建模和分析预测药物临床结果后，可以暂缓研究次优的药物，或者停止在次优药物上的昂贵的临床试验。
2.2 通过挖掘病人数据，评估招募患者是否符合试验条件，从而加快临床试验进程，提出更有效的临床试验设计建议。例如: 通过聚类方法对患者群体进行聚类，寻找年龄、性别、病情、化验指标等方面的特征，判定是否满足试验条件，也可以根据这些特征更好的设立对照组。
2.3 分析临床试验数据和病人记录可以确定药品更多的适应症和发现副作用。在对临床试验数据和病人记录进行分析后，可以对药物进行重新定位，或者实现针对其他适应症的营销。通过关联分析等方法对试验数据进行挖掘可能会发现事先想不到一些成果，大大提高数据的利用程度。
2.4 实时或者近乎实时地收集不良反应报告可以促进药物警戒。药物警戒是上市药品的安全保障体系，对药物不良反应进行监测、评价和预防。通过聚类、关联等大数据挖掘手段分析药品不良反应的情况，用药、疾病、不良反应的表现，是否跟某种化学成分有关等。例如不良反应症状的聚类分析，化学成分与不良反应症状的关联分析等。另外在一些情况下，临床实验暗示出了一些情况但没有足够的统计数据去证明，现在基于临床试验大数据的分析可以给出证据。
2.5 针对性药物研发：通过对大型数据集(例如基因组数据)的分析发展个性化药物。这一应用考察遗传变异、对特定疾病的易感性和对特殊药物的反应的关系，然后在药物研发和用药过程中考虑个人的遗传变异因素。很多情况下，病人用同样的用药方案但是疗效却不一样，部分原因是遗传变异。针对同病种的不同的患者研发不同的用药，或者给出不同的用法。
2.6 对药物化学成分的组合和药理进行挖掘，激发研发人员的灵感。例如针对于中医药物研发，用数据挖掘手段对于中药方剂和症候进行分析研究，探讨方剂和针对症状之间的联系，从功效、归经、药性和药味等方面进行分类特征分析。
3. 虚拟药物临床试验分析系统
现在越来越多的临床科研和药物临床试验都是从日常的临床工作中生成的大数据中经过严格的条件筛选来提取数据的。正如我们在本文1.1和1.2中提到的案例一样，所谓虚拟药物临床试验，是以更广泛的临床数据采集，和从海量的医院电子化的病历中按照事先的设计需求经过严格的条件筛选来开展的，虽然是虚拟的方法而不是传统的方法，这种药物临床试验研究有样本代表更广泛、成本低、效率高、研究成果更丰富等优点。采用虚拟研究的方法可以完全替代某些传统的药物临床研究，也可以作为某些传统的药物临床研究的预试验或探索性研究，以使真正的药物临床研究工作多、快、好、省。我们现在来看一下虚拟药物临床试验分析系统是如何工作的。
3.1 虚拟药物研究的基本思路
1、建设药物临床试验数据仓库，充分整合和积累的临床数据和药物应用数据。 2、设计、选取药物临床试验的观察组样本与对照组样本。 3、应用数据挖掘技术探索药物对于疾病治疗的效果和产生的副作用。 4、应用统计学技术进行药物临床试验效果的推断和评价。
3.2 建立药物临床数据仓库
建设药物临床试验数据仓库有两种途径，一种是通过经典的药物临床试验设计来定制化和采集相关数据，传统的方法主要记录在纸质文档上，也有专门数据录入软件，这种方法采集的数据是按照预先设计进行的，直接形成药物临床试验的专用数据，但通常样本数据量不会太大；另外一种是将医院大量的、历史的临床用药数据进行抽取、变换、装载，然后充分整合积累的其他临床数据和药物应用数据，形成药物临床试验数据源，为生成药物临床试验数据提供支撑，这样的样本数据量可能很大，我们后面演示的方法就是采用种数据进行“虚拟”样本筛选和分析的。
3.3 药物临床试验样本设计
药物临床试验样本根据药物研究的需要可以有很多设计，例如单因素单水平设计，单因素两水平设计，单因素多水平设计，配对设计设计，区组设计设计，重复测量设计等。我们这里以两因素区组设计为例来介绍一下样本筛选。本例仅以方法演示为目的，不考虑严格的医学专业意义。
本研究的疾病为动脉硬化心脏病，处理因素为药物应用，共有三种药物，分别为倍他乐克、诺和灵、硝酸异山梨脂。区组因素为年龄，分了三个年龄段。观察指标为血钠。我们科研设计按照“三要素、四原则”进行数据筛选。所谓“三要素”是研究人群，处理因素和观察对象。所谓四原则是指随机、对照、重复、均衡等原则。按照如下图一的输入条件，可以将数据集筛选出来，然后再用统计分析工具进行统计分析。

3.4 药物临床数据挖掘
应用数据挖掘技术不仅可以提高药物临床数据的利用程度，而且可以探索和发现药物临床应用中的新的积极作用和新的消极作用。利用多种数据挖掘方法分析临床试验数据和病人的电子化数据，可以确定药物更多的适应症和发现未知的副作用。在对临床试验数据和病人记录进行挖掘分析后，可以对药物进行重新定位，或者实现针对其他适应症的推广应用。通过对药物试验数据进行挖掘可能会发现意想不到一些成果，大大提高数据的应用效益。
如本例，我们使用数据挖掘的方法深入研究药物对于实验室指标的影响。探索和发现药物临床应用中的正负影响，可以通过观察病人用药前后的很多医学特征和生理指标来进行，而观察更加客观的各种实验室指标是很多药物研究的必备设计之一。下面是一个应用倍他乐克药物治疗冠心病的研究，我们应用了数据挖掘的有关技术分析了倍他乐克的血药浓度的变化对病人各个实验室指标的影响，如下图二，显示了部分实验室指标的影响结果。

以上结果需要与临床医务人员以及药物研究人员共同探讨。在刨去了各种人为因素以及业务系统客观影响因素之后，我们可以发现先前未知的倍他乐克对病人生理指标的影响，其中有些影响在医学上可能是积极的，而有些影响在医学上可能是反面的。
3.5 统计分析设计
虚拟药物临床试验分析系统的统计分析模块，包含了药物研发中常用的统计分析方法，如T检验、方差分析、相关分析、回归分析、非参数检验等，设计思路按照统计学思维，首先对数据进行验证，根据验证结果选择统计分析方法。下面我们以重复测量设计为例进行说明。
本研究的疾病为动脉硬化心脏病，处理因素为药物应用倍他乐克，观察指标为我们从数据挖掘中发现有影响的血钾指标。我们可以使用3.3提供的模块对筛选的样本进行提取和分析，也可以从本模块直接选取所需的数据并分析。重复测量分析有两种方法，一个是Hotelling T2检验，另一个是方差分析，本系统提供了这两种统计检验方法。
部分样本数据如下图三所示：

这里，我们仅观察一下方差分析方法的结果输出，如下图四所示。

从图中我们可以看到，根据P值得到：处理因素“倍他乐克”药物对血钾起作用，测量时间对血钾有影响，处理因素和测量时间有交互影响。从而验证了我们应用数据挖掘得到的结果。
4. 数据挖掘在中药研发上的应用
以上内容，我们重点是以西药的研究应用为例来说明以数据挖掘为特色的虚拟医药研究的方法。其实，数据挖掘和虚拟药物研究还非常适合于中医中药的研究工作，因为中医学本身是一个经过几千年不断摸索、积累和验证的、知识体系庞大的、具有完整理论体系的医学科学，但我们还需要应用现代知识不断地深入理解、挖掘、提高和应用，以便与现代科学能更好地融合。而数据挖掘正是探索和解释中医学奥秘的有力工具！
国内许多单位也开展一些中医中药数据挖掘的局部性的尝试。现在，我们就将这些数据挖掘在中医中药研究中的尝试加以汇总，分列如下： 1、中药配方中的文本数据挖掘； 2、对“药理”起关键作用的“有效成分”——单体或化学成分的挖掘； 3、中药方剂配伍规律的数据挖掘与研究； 4、方剂配伍物质基础与药效如(证侯、症状)关系的数据挖掘； 5、方剂配伍的用量与方剂效用级别间的关系(量效关系及模型) 挖掘； 6、中药药性理论与中药有效成份的关系挖掘； 7、方剂中各药味间的相关性挖掘； 8、相似病症的隐含相似关系挖掘； 9、同种疾病不同药方的相似性和差异性的挖掘和研究。 10、数据挖掘用于不确切病症的分类和研究。

C. 数据挖掘的算法及技术的应用的研究论文

数据挖掘的算法及技术的应用的研究论文

摘要： 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现隐含的、规律性的、人们事先未知的, 但又是潜在有用的并且最终可被理解的信息和知识的非平凡过程。任何有数据管理和知识发现需求的地方都可以借助数据挖掘技术来解决问题。本文对数据挖掘的算法以及数据挖掘技术的应用展开研究, 论文对数据挖掘技术的应用做了有益的研究。

关键词： 数据挖掘; 技术; 应用;

引言: 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的, 然后发展到可对数据库进行查询和访问, 进而发展到对数据库的即时遍历。数尺念据挖掘使数据库技术进入了一个更高级的阶段, 它不仅能对过去的数据进行查询和遍历, 并且能够找出过去数据之间的潜在联系, 从而促进信息的传递。

一、数据挖掘概述

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现隐含的、规律性的、人们事先未知的, 但又是潜在有用的并且最终可被理解的信息和知识的非平凡过程。

二、数据挖掘的基本过程

(1) 数据选择:选择与目标相关的数据进行数据挖掘。根据不同的数据挖掘目标, 对数据进行处理, 不仅可以排除不必要的数据干扰, 还可以极大地提高数据挖掘的效率。 (2) 数据预处理:主要进行数据清理、数据集成和变换、数据归约、离散化和概念分层生成。 (3) 模式发现:从数据中发现用户感兴趣的模式的过程.是知识发现的主要的处理过程。 (4) 模式评估:通过某种度量得出真正代表知识的模式。一般来说企业进行数据挖掘主要遵循以下流程——准备数据, 即收集数据并进行积累, 此时企业就需要知道其所需要的是什么样的数据, 并通过分类、编辑、清洗、预处理得到客观明确的目标数据。数据挖掘这是最为关键的步骤, 主要是针对预处理后的数据进行进一步的挖掘, 取得更加客观准确的数据, 方能引入决策之中, 不同的企业可能采取的数据挖掘技术不同, 但在当前来看暂时脱离不了上述的挖掘方法。当然随着技术的进步, 大数据必定会进一步成为企业的立身之本, 在当前已经在很多领域得以应用。如市场营销, 这是数据挖掘应用最早的领域, 旨在挖掘用户消费习惯, 分析用户消费特征进而进行精准营销。就以令人深恶痛绝的弹窗广告来说, 当消费者有网购习惯并在网络上搜索喜爱的产品, 当再一次进行搜索时, 就会弹出很多针对消费者消费习惯的商品。

三、数据挖掘方法

1、聚集发现。

聚集是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显.而同一个群之间的数据尽量相似.聚集在电子商务上的典型应用是帮助市场分析人员从客户基本库中发现不同的客户群, 并且用购买模式来刻画不同客户群的特征。此外聚类分析可以作为其它算法 (如特征和分类等) 的预处理步骤, 这些算法再在生成的簇上进行处理。与分类不同, 在开始聚集之前你不知道要把数据分成几组, 也不知道怎么分 (依照哪几个变量) .因此在聚集之后要有一个对业务很熟悉的人来解释这样分群的意义。很多情况下一次聚集你得到的分群对你的业务来说可能并不好, 这时你需要删除或陵裂困增加变量以影响分群的方式, 经过几次反复之后才能最终得到一个理想的结果.聚类方法主要有两类, 包括统计方法和神经网络方法.自组织神经网络方法和K-均值是比较常用的`聚集算法。

2、决策树。

这在解决归类与预测上能力极强, 通过一系列的问题组成法则并表达出来, 然后经过不断询问问题导出所需的结果。典型的决策树顶端是一个树根, 底部拥有许多树叶, 记录分解成不同的子集, 每个子集可能包含一个简单法则。

四、数据挖掘的应用领域

4.1市场营销

市场销售数据采掘在销售业上的应用可分为两类:数据库销售和篮子数据分析。前者的任务是通过交互式查询、数据分割和模型预测等方法源旦来选择潜在的顾客以便向它们推销产品, 而不是像以前那样盲目地选择顾客推销;后者的任务是分析市场销售数据以识别顾客的购买行为模式, 从而帮助确定商店货架的布局排放以促销某些商品。

4.2金融投资

典型的金融分析领域有投资评估和股票交易市场预测, 分析方法一般采用模型预测法。这方面的系统有Fidelity Stock Selector, LBS Capital Management。前者的任务是使用神经网络模型选择投资, 后者则使用了专家系统、神经网络和基因算法技术辅助管理多达6亿美元的有价证券。

结论:数据挖掘是一种新兴的智能信息处理技术。随着相关信息技术的迅猛发展, 数据挖掘的应用领域不断地拓宽和深入, 特别是在电信、军事、生物工程和商业智能等方面的应用将成为新的研究热点。同时, 数据挖掘应用也面临着许多技术上的挑战, 如何对复杂类型的数据进行挖掘, 数据挖掘与数据库、数据仓库和Web技术等技术的集成问题, 以及数据挖掘的可视化和数据质量等问题都有待于进一步研究和探索。

参考文献

[1]孟强, 李海晨.Web数据挖掘技术及应用研究[J].电脑与信息技术, 2017, 25 (1) :59-62.

[2]高海峰.智能交通系统中数据挖掘技术的应用研究[J].数字技术与应用, 2016 (5) :108-108.

;

D. 2021年CCF科学技术奖：清华大学获自然科学一等奖

清华大学牛，荣获中国计算机学会2021年度CCF科学技术奖自然科学一等奖！ 以下为中国计算机学会公布的2021年度“CCF科学技术奖”全部获奖项目名单。

1、大规模异构计算系统并行编程模型与优化理论

完成单位：清华大学

2、高精度智能化的软件分析与测试方法

完成单位：中国科学院软件研究所、中国人民大学

3、基于图的网络性能优化理论与方法

完成单位：上海交通大学

1、安卓操作系统安全防护的理论与方法

完成单位：复旦大学

2、面向高维数据的集成学习算法

完成单位：华南理工大学

3、复杂软件系统的网络化解析与优化理论及方法

完成单位：武汉大学

4、开放系统量子计算理论及新型量子计算原理

完成单位：中国科学院数学与系统科学研究院

5、基因组组装与模式挖掘的基础理论与算法

完成单位：中稿早南大学

1、大规模智能云网络关键技术及平台

完成单位：阿里云计算有限公司、浙江升敬世大学、上海交通大学

2、面向工业领域的软件形式化建模与自动化测试关键技术及工具国产化应用

完成单位：华东师范大学、上海工业控制安全创新科技有限公司、卡斯柯信号有限公司、工业和信息化部电子第五研究所

3、专用处理器芯片自动设计技术与应用

完成单位：中国科学院计算技术研究所、中科驭数科技有限公司、中科物栖科技有限公司

1、数据自治开放技术

完成单位：复旦大学

2、多源异构大数据智能挖掘与性能优化

完成单位：湖南大学、中国人民解放军国防科技大学、哈尔滨工业大学（深圳）

3、水滴形柔性屏技术及可折叠产品

完成单位：联想研究院

1、蚂蚁反欺诈智能风险感知与响应系统关键技术和应用

完成单位：蚂蚁集团

2、AtlasGraph大规模图数据分析平台

完成单位：北京海致星图科技有限公司、清华大学、北京海致科技集团有限公司

3、虚拟存储环境关键技术与应用

完成单位：中国人民解放军国防科技大学、厦门大学、国家超级计算天津中心

1、全浸没液冷云计算数据中心技术创新及产业化

完成单位：吵肢阿里云计算有限公司

2、基于云架构的能源监测与分析平台的研制及产业化

完成单位：福州大学、国网信通亿力科技有限责任公司

3、智能城市操作系统

完成单位：京东城市（北京）数字科技有限公司

4、物联网低代码开发平台及应用

完成单位：浙江大学、阿里云计算有限公司

5、ZoomAI——基于人工智能的视频修复及增强系统

完成单位：北京爱奇艺科技有限公司

6、智能化手术系统的关键技术及产业化应用

完成单位：中国石油大学（华东）、青岛海信医疗设备股份有限公司、大连东软教育科技集团

1、基于网络空间的态势感知与防御云安全平台

完成单位：杭州安恒信息技术股份有限公司

2、面向智能生产决策的求解引擎及应用

完成单位：联想研究院

3、基于可信执行环境的区块链数据隐私保护技术

完成单位：蚂蚁区块链（上海）科技有限公司

4、医学影像智能分割关键技术与应用

完成单位：浙江大学

E. 大数据的关键技术有哪些_大数据处理的关键技术有哪些

大数据处理关键技术一般包括：大数据采集、大数据预处理、大数据存储及管理、大数据分早李烂析及挖掘、大数据展现和应用（大数据检索、大数据可视化、大数据应用、大数据安全等）。

一、大数据采集技术

数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方扰帆式获得的各种类型的结构化、半结构化（或称之为弱结构化）及非结构化的海量数据，是大数据知识服务模型的根本。

二、大数据预处理技术

主要完成对已接收数据的辨析、抽取、清洗等操作。1）抽取：因获取的数据可能具有多种结构和类型，数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型，以达到快速分析处理的目的。2）清洗：对于大数据，并不全是有价值的，有些数据陆漏并不是我们所关心的内容，而另一些数据则是完全错误的干扰项，因此要对数据通过过滤“去噪”从而提取出有效数据。

三、大数据存储及管理技术

大数据存储与管理要用存储器把采集到的数据存储起来，建立相应的数据库，并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。

四、大数据分析及挖掘技术

大数据分析技术。改进已有数据挖掘和机器学习技术；开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术；突破基于对象的数据连接、相似性连接等大数据融合技术；突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

六、大数据展现与应用技术

大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来，为人类的社会经济活动提供依据，从而提高各个领域的运行效率，大大提高整个社会经济的集约化程度。在我国，大数据将重点应用于以下三大领域：商业智能、政府决策、公共服务。例如：商业智能技术，政府决策技术，电信数据信息处理与挖掘技术，电网数据信息处理与挖掘技术，气象信息分析技术，环境监测技术，警务云应用系统（道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统）本回答根据网络文库资料整理，原文请参见《大数据关键技术》

F. 合肥工业大学有大数据专业吗研究生

合肥工业大学研究生有大数据专业。根据参考合肥工业大学2022年9月11日发表的合肥工业大学2023年硕士研究生招生目录中可以得知，信息与通信工程学院招收计算机科学与技术专业共招收全日制65人，其中有大数据方向的研究，专业名称为数据挖掘与智能计算。

G. 大数据挖掘技术涉及哪些内容

大数据挖掘技术涉及的主要内容有：模式跟踪，数据清理和准备，基于分类的数据挖掘技术，异常值检测，关联，聚类。
基于大环境下的数据特点，挖掘技术与对应：
1.数据来源多, 大数据挖掘的研究对象往往不只涉及一个业务系统, 肯定是多个系统的融合分析, 因此,需要强大的ETL技术, 将多个系统的数据整合到一起, 并且, 多个系统的数据可能标准不同, 需要清洗。
2.数据的维度高, 整合起来的数据就不只传统数据挖掘的那一些维度了, 可能成百上千维, 这需要降维技术了。
3.大数据量的计算, 在单台服务器上是计算不了的, 这就需要用分布式计算, 所以要掌握各种分布式计算框架, 像hadoop, spark之类, 需要掌握机器学习算法的分布式实现。
数据挖掘：目前，还需要改进已有数据挖掘和机器学习技术；开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术；突破基于对象的数据连接、相似性连接等大数据融合技术；突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

想了解更多大数据挖掘技术，请关注CDA数据分析课程。CDA（Certified Data Analyst），即“CDA 数据分析”，是在数字经济大背景和人工智能时代趋势下，面向全行业的专业权威国际资格认证，旨在提升全民数字技能，助力企业数字化转型，推动行业数字化发展。国家发展战略的要求，岗位人才的缺口以及市场规模的带动，都从不同方面体现了数据分析师职业的重要性。大数据挖掘技术的学习，有利于提高人在职场的信誉度，增加职场竞争力，提高自己的经济地位。点击预约免费试听课。

H. 什么是指如何把大数据智能化的潜力挖掘出来

数据挖掘是指人们从事先不知道的大量不完整、杂乱、模糊和随机数据中提取潜在隐藏的有用信息和知识的过程。下面说下我们在挖掘大数据的时候，都会用到的几种方法：
方法1、(可视化分析)无论是日志数据分析专家还是普通用户，数据可视化都是数据分析工具的最基本要求。可视化可以直观地显示数据，让数据自己说话，让听众看到结果。
方法2、(数据挖掘算法)如果说可视化用于人们观看，那么数据挖掘就是给机器看的。集群、分割、孤立点分析和其他算法使我们能够深入挖掘数据并挖掘价值。这些算法不仅要处理大量数据，还必须尽量缩减处理大数据的速度。
方法3、(预测分析能力)数据挖掘使分析师可以更好地理解数据，而预测分析则使分析师可以根据可视化分析和数据挖掘的结果做出一些预测性判断。

I. 如何利用大数据、人工智能等技术，实现企业数据的收集、分析和挖掘，为决策提供智能支持

利用大数据、云计算、人工智能等技术，实现企业数据的收集、分析和挖掘，为决策提供智能支持，企业可以考虑以下几个方面：
1)?????? 建立高效的数据采集和整合机制，通过各种手段获取各类数据，并对数据进行清洗、整合和存储。
2)?????? 利用云计算技术提供弹性的计知兆算资源和存储空间，并实现数据的安全保护和随时访问。
3)?????? 利用人工智能技术进行数据分析和挖掘，以提取有价值的信息，并利用机器学习、深度学习等方法进行数据预测和优化。
4)?????? 利用可视化技术颤数将分析结果呈搭洞租现给决策者，并提供智能化的建议和方案。
对于上述解决方案来说使用用友YonSuite可以帮助企业解决问题。YonSuite是基于YonBIP云原生架构，为成长型企业提供“营销、制造、采购、财务、供应链、税务、人力、办公、平台”融合一体，支持企业全球化经营、社会化商业的云服务包。它可以为企业提供全面、灵活、安全的大数据解决方案。用友YonSuite从以下几个方面来帮助解决：
1)?????? 实现多源异构数据的快速接入、清洗、转换和加载；
2)?????? 提供海量并行处理（MPP）数据库服务，支持多种类型的查询语言；
3)?????? 提供多种类型的大数据分析服务，如流式分析、批量分析、交互式分析等；
4)?????? 提供多种类型的人工智能服务，如图像识别、语音识别、自然语言处理等；
5)?????? 提供多种类型的可视化服务，如报表制作、仪表盘展示、图形绘制等

导航:首页 > 网络数据 > 大数据智能挖掘技术研究

大数据智能挖掘技术研究

与大数据智能挖掘技术研究相关的资料

友情链接