当前位置: 首页 > 范文大全 > 办公范文

数据挖掘论文(6篇)

时间:

数据挖掘论文篇1

1.1结果优化中遗传算法的应用遗传算法由达尔文进化论与孟德尔遗传变异论进行模拟后得到,该算法所采用的算法因子具有随机性,故设备故障的出现往往不会受到常规故障规则的限制,但是遗传算法在实际应用过程中,其对故障的整合分析,并不是盲目式的,而是针对机械设备状态运行情况,以设备最优化为基本原则进行不断完善计算进行的。若设备状态监测和故障诊断当中,直接采用了与设备情况相应的参数进行适值计算,但又不需要对优化参数进行明确计算,在针对部分无法明确计算得到的设备参数时,即可采用遗传算法对结果进行优化。遗传算法的智能性与并行性较强,利用该方法,可以对设备故障当中还未得到有效解决的部分复杂问题进行妥善处理。目前,遗传算法在设备运行函数的优化、设备模式的识别以及设备运行信号的整合处理等相关工作当中有着较为全面的应用,在将复杂的运行数据进行优化时,遗传算法具有较为良好的性能。综合其相关特点,在建立设备状态监测和故障诊断的模型时,可采用该技术使得模型更为合理化,使得设备状态监测与故障诊断的结果更为准确。以滚动轴承的状态监测与故障诊断为例。在实际工作当中,运用各类运算符集,对滚动轴承的原始性特征向量进行测量后,采取最优的组合方式获得新型向量,配合采用遗传算法得到最终的滚动轴承参数,并利用分类法,对各项间距进行了调整,使得滚动轴承的诊断参数更为准确。此外,利用该方法,还有效区分了滚动轴承的不同工作状态,测量结果较为全面,效果显著。

1.2模糊集理论的应用要点该方法通过模糊集合与模糊推理两种方法,其研究测试的对象是各类不确定性因素,属于传统集合理论的创新。模糊集理论在设备状态监测和故障诊断中的应用,主要包含了两个方面。一方面,是在相关数据概念的形成时,采用不准确和较为模糊的语言变量,根据人们习惯,对设备状态的变化及变量变化状态进行描述。具有较强的直观性,且相关人员在接受该类概念时,也可以更方便的理解接受;另一方面,该方法通过提炼模糊性规则,在建模时模糊化,使得机械设备的控制、预测以及故障诊断等过程拥有更为广阔的空间。

1.3基于实例分析的方案优化及调整该种方法拥有较为简单的思路,在对设备未来运行情况进行预测时,系统会匹配与设备目前情况相似的实际案例,并从以往的解决方法中选出最佳的解决方案,再结合设备实际情况进行相应调整。此类方法的应用范围较广,且得到的计算结果也相对准确,但同时也具有一定缺陷,即无法全面整合以往设备数据及解决规律,缺乏充足的继承性。该方法进行故障诊断的基本理念是,在选红枣解决方法的过程中,利用历史诊断方法成功案例为奠基,进行全面的推理工作,并采用类比和联想法,较为全面的对故障进行诊断。

1.4多种数据挖掘法的联合应用除上述几种数据挖掘技术外,实际工作中还涵盖了以传统数据统计为基础的统计分析方法、人工神经网络元技术、等多种方法,考虑到每一种方法或多或少具有局限性,故为了有效提高各类方法的应用效果,可以将各类方法进行配合使用,代表性的算法组合类型如表1所示。

以遗传算法和模糊集理论的配合采用为例。由于模糊算法,主要是利用了最大隶属原理和阀值原理,故可以按照不同故障的发生原因以及故障征兆的相互联系,在综合考虑的基础上对机械设备故障的可能原因进行全面分析。而该方法在运用的过程中,会对各类故障征兆进行约简化从而得到较为普遍的规律,但是所得到的规律也可能存在不可靠问题。故在实际应用模糊集理论的同时,配合采用遗传算法,通过对模糊集理论所得到的结论及规则进行全面优化,使得诊断的结果更为准确与高效。上述案例方法在涡轮机故障诊断过程中进行应用时,可先建立完善的涡轮机故障集,在此基础上采用模糊集理论对涡轮机故障进行诊断,配合遗传算法对涡轮机故障规律进行优化,使得最终故障诊断结果更为准确。除遗传算法与模糊集理论课进行配合使用外,其他各类方法也可以根据设备实际情况进行搭配,使得最终诊断结果更为准确有效。

2结束语

数据挖掘论文篇2

网络舆情分析模型架构如图1所示,其中网络数据抽取与预处理是基础,舆情分析引擎是关键,该引擎主要利用数据挖掘技术来实现,包括分类、聚类、关联规则和异常检测,最终能够实现热点识别、话题追踪和舆情预警的功能。

1.1网络数据采集与预处理网络上存在海量的各种异构资源,例如文本、图片、音频、视频等。舆情分析的第一步就是将各种数据采集来,可以利用开源的网络数据抓取软件进行,例如WebDataExtractor等。采集来的数据不规范,需要做进一步处理,例如聚集、抽样、特征创建、特征子集选择和变量变换等。预处理后的数据将会写入数据中心,以便舆情分析引擎调用。

1.2数据挖掘数据挖掘可以从收集的大量数据集中发现有价值的信息,包括:分类、聚类、关联规则和异常检测等。舆情分析引擎的设计主要依托数据挖掘技术。分类又称为监督学习,是指从给定的训练数据中学习到一个分类模型。分类法包括:基于规则的分类法、决策树分类法、神经网络分类法、支持向量机、神经网络和朴素贝叶斯分类法等。分类方法的主要目标是建立具有很好泛化能力的模型。网络上的数据是以主题形式进行组织,常见主题有:政治、财经、体育、娱乐、军事等。根据已有数据,利用分类技术,能学习生产一个判别模型,该模型能实现对新的网页自动分类,这在新闻推送方面具有重要应用价值。聚类分析[9](ClusterAnalysis)是一个无监督的学习过程,在发现数据分析和模式中起着十分重要的作用,其形式化描述为:给定数据集合D={x1,x2,…,xn},其中xi为数据对象,根据数据对象之间的相似度将数据集合划分成k个不同的子集:C1,C2,…,Ck(k≤n),则对于坌i,j∈[1,k],且为正整数,使得Ci≠覫,Ui=1kCi=D,且Ci∩Cj=覫成立。物以类聚,人以群分是对聚类技术的直观解释。各种社交网络中,存在着微博“大V”,也称为“意见领袖”。这些“大V”用户拥有很多粉丝,他们的言行会对网络舆论空间产生重大的影响,甚至左右舆论方向。

科学合理地分析这些“意见领袖”的内容,就抓住了社会网络分析的主要方面。而聚类技术能够快速识别出设计社会网络中的意见领袖。关联规则是描述数据库中属性之间存在的潜在关系的规则,形式为XY,其中,X称为规则前件(an-tecedent),Y称为规则后件(consequent)。项目集间的关联规则的含义为:如果X出现在一条交易中,那么Y在这条交易中同时出现的可能性比较高。每条规则都对应两个指标最小支持度(minsupport)和最小置信度(minconfidence),用来衡量它的兴趣度。异常检测的目标是发现与大部分数据不同的对象,也称为离群点检测(outlierdetection)、偏差检测(deviationdetection)。异常检测的方法主要有基于模型的技术、基于近邻度的技术和基于密度的技术。论坛中,各网民都是针对特定主题进行发帖、回复或转发的。如何发现一个新的帖子,与已有帖子内容的相似度极小,则该帖子为异常点。需要对该帖子格外关注,做进一步的语义分析。

2网络舆情展现

网络上,用户经常会针对某一事件展开讨论,有大量用户参与讨论的事件和话题称为热点话题。根据数据中心的内容,例如网页的关键词,回帖的数目,转发的数量等,借用数据挖掘技术可以计算出各话题的热度值。网络上有海量信息,用户没有精力一一关注。本网络舆情分析模型可以挑选出热度值较高的话题反馈给用户。网络空间是真实社会空间的缩影,舆情分析模型中也引入社会网络分析(SocialNetworkAnalysis)的方法。话题追踪就是根据特定主题,利用相关技术,把该主题相关后续信息都搜集起来的方法。为实现话题追踪,应先建立话题模型,常用的话题模型是向量空间模型(VectorSpaceModel)。在计算各话题间的相似度,常用的相似度有欧几里得距离、闵可夫斯基距离等。

3结语

数据挖掘论文篇3

对于风电功率的预估,本文提出了一种短期的用于一至十五分钟内的预测方法。其中输入数据来自风力发电机的历史寄存器,数据种类有电压、电流、有功功率等。并且对两种预测方法进行了比较。预测出的风力数据作为风力涡轮机预测模型的输入值。风力发电机模型是参考了空气力学、传动系统、感应发电机等参数,并通过唯像模型建立的。风力涡轮模型则建立于一种现象学模型,这种模型将风的空气动力学、传动系统和感应发电机的参数都考虑了进来。另一种预测风电功率方法是使用数据挖掘技术来进行预测。风电发电系统中的数据库就应用到了这些技术。为了提高算法的效率,使用了风速估计器,以估计空气分子的布朗运动。并与没有用风速估计器时平均发电功率进行比较。

二、风功率预测模型和现象学模型

(一)人工神经网络

每一个人工神经网络模型都有架构、处理单元和训练方面的特性。在时间序列预测的人工神经网络模型中,其中很重要的一种是集中延时神经网络。它属于动态神经网络的一般类型,在这种神经网络中,动态只出现于静态的、有多个层级的前馈神经网络的输入层中。集中延时神经网络的一个显著特征是它不要求有动态反向传播来计算神经网络的梯度,原因是抽头延迟线只在神经网络输入数据时才出现。由于这个原因,这种神经网络比其他动态网络的训练进行得更快。

(二)随机时序

风功率模型和现象模型是使用最多的预测方法。如果假设预测变量Xt是已知值的线性组合,那么自回归模型则能用于预测未知值。通过查看自相关函数和偏自相关函数,用于找到模型的顺序和结构,从而确定模型适当的结构和式子顺序。根据赤池信息准则,施瓦茨准则或贝叶斯信息标准以及校正后的决定系数,我们就能选出最好的模型。

三、算例分析

(一)提出的预处理方法

在考虑风速的复杂动态的情况下,为了更好地描述ARMA模型,本文提出了一种新的数据预处理方法。这种方法是以模型的形式呈现的,我们将这种模型称之为函数的ARMA。

(二)实例仿真

利用SVM工具箱在matlab7.1平台上完成回归模型建立的工作,利用我国某风电场连续100个数据(每10s取一个数值)的实测风能功率输出值,建立训练和预测样本。尽管神经网络在预测风速时误差已经很小,但由风力涡轮机模型和函数的ARMA模型组成的复合模型在各方面性能更好。导致这一结果的原因是焦点延时神经网络(以下简称FTDNN)预测曲线的高度非线性。

四、结论

数据挖掘论文篇4

在熔炼机组优化运行的过程中,机组的运行性能指标与人员的操作水平、负荷及运行参数之间有着复杂的相互关系,这种关系在大量的生产历史数据中与机组各数据项之间关联,因此可以通过数据挖掘的方式把其中的关联关系定量的反映出来,最终反馈到实际运行中。本文结合工厂的实际情况,分析由工厂的DCS系统采集的实时运行数据,来得到用户期望的相关参数间定量的关联规则。

2交互式关联规则挖掘算法

关联规则挖掘算法在数据库的记录或对象中抽取关联性,展示了数据间位置依赖关系,其目的是寻找在大量的数据项中隐藏着的联系或相关性。其优越性在于能将用户的定制信息整合到挖掘过程中,以一种友好的方式引入约束,使挖掘出更加符合用户需要的信息,并且提高了挖掘的效率和有效性。

2.1目标数据库的确定

数据挖掘应熟悉对象的背景知识,明确挖掘的目标,根据目标确定相关数据,以此作为目标数据库,来完成对数据的预处理、挖掘和规则评价。

2.2交互式关联规则挖掘算法

表示A成立则B成立,其中给出了可信度C和支持度S。可信度C是对关联规则准确度的衡量,即在出现A的情况下出现B的概率;支持度S是对关联规则重要性的衡量,即A和B同时出现的概率。

3熔炼机组数据挖掘的实现

本文采用的是冀某工厂于2013年5月运行的数据,采样频率为2~3秒/次,采样模式为实时监测值,得到7595组数据。在分析阶段,对影响机组的主要可控参数进行了提取及预处理,参数主要包括:转速、有功功率、主蒸汽压力、调节级压力、中压缸排汽压力。以机组转速设计值为3600r/min为例来分析。对各个可控参数数据进行曲线化处理,作为分析它们之间的关联规则的数据表。上述关联规则表示,在三种负荷工况下,工厂熔炼机组有功功率与主蒸汽压力、调节级压力、中压缸排汽压力三者之间最优变化区间的关联。经分析,在机组中应用关联规则的数据挖掘技术与传统方法相比,优点是其可以对不同的可测参数进行挖掘,方法简单有效、可操作性强;运用关联规则进行挖掘,对过程能够较灵活控制,处理后的目标值直观,便于操作指导和提高运行效率。

4结论

数据挖掘论文篇5

1.1安全技术资金不足

煤炭的持续开采会受到地质条件的直接影响,过去国家投入众多的设施,使用至今均已出现老化,并且维修量非常大。随着矿井的不断延深,矿压极度强化,巷道的维修任务更是不断的增加,矿井的供电以及通风、提升与排水等都不能适应生产的需要。

1.2安全管理模式传统

与西方发达产煤国家相比较,我国的煤矿使用技术研究起步很晚。并且人力、财力非常缺乏,某些重大的安全技术问题,比如冲击地压以及煤和瓦斯的突出、地热以及突水等灾害不能进行有效的预测和控制。且受到以往传统运营思想的直接作用与影响以及各个企业的经济实力的约束,我国的煤矿生产装备和安全监控设施相对落后。井巷的断面设计以及支护强度的确定、支护材料的型号选择较小。生产设施功率以及矿井的供风量等富余参数非常低,极易出现事故。绝大多数的煤炭企业还是利用以往传统的安全管理模式,各种报表计算仍是靠人工劳动并且精确度很低。信息传送的时间较长,且速度较慢,管理者的工作重复性很大,资料查询十分困难,并且工作效率很低。安全检查以及等级鉴定等总是凭借主观意念以及相关的经验。

1.3安全信息管理体制不健全

安全信息可以说是安全管理工作的重要依据,它主要包括事故和职业伤害的有效记录与分析统计,职业的安全卫生设施的相关研究与设计、生产以及检验技术,法律法规以及相应技术标准和其变化的动态,教育培训以及宣传和社会活动,国内的新型技术动态以及隐患评估与技术经济类分析和咨询、决策的体系。信息体制的健全是安全体制工程以及计算机技术的有效结合,可促使安全工作转型为定性和定量的超前预测,不过大多数矿井还是处于起步与摸索阶段,并未呈现出健全的体制,真正的使用还有待进一步的发展。

2空间数据挖掘技术

数据挖掘研究行业的持续进展,开始由起初的关系数据以及事务数据挖掘,发展至对空间数据库的不断挖掘。空间的信息还在逐渐地呈现各类信息体制的主体与基础。空间数据是一项非常关键的数据,具有比普通关系数据库和事务数据库更丰富、复杂的相关语义信息,且蕴含了更丰富的知识。所以,虽说数据的挖掘最初是出现在关系数据挖掘以及事务的数据库,不过因为空间数据库中的发掘知识,这就很快引起了各个研究者的关注与重视。很多的数据挖掘类研究工作都是从关系型以及事务型数据库拓展至空间数据库的。在地学领域中,随着卫星以及遥感技术的不断使用,逐渐丰富的空间以及非空间的数据采集与储存在较大空间数据库中,大量的地理数据已经算是超过了人们的处理能力,并且传统的地学分析很难在这些数据中萃取并发现地学知识,这也就给现阶段的GIS带来了很大的挑战,急切的需要强化GIS相应的分析功能,提升GIS处理地学实际状况的能力。数据挖掘以及知识发现的产生能满足地球空间的数据处理要求,并推进了传统地学空间分析的不断发展。依据地学空间数据的特性,把数据挖掘的方式融进GIS技术中,呈现地学空间数据挖掘和知识发展的新地学数据分析理念与依据。

3煤矿安全管理水平的提升

3.1建设评价指标体制库

评价指标体制库是矿井的自然灾害危害存在的具体参数式的知识库。模型的组建务必要根据矿井的瓦斯以及水害等自然灾害危害呈现的不同指标体制和其临界值构建一定的指标体制库,危害的警报识别参数关键是采掘工程的平面图动态开采面以及相应的巷道。各种瓦斯的危害以及水害隐患和通风隐患均呈现一定的评价指标库。

3.2构建专业的分析模型库

依据瓦斯以及水害等诸多不同的矿井自然灾害类别构建相关的专业性模型库,比如瓦斯的灾害预测,应根据矿井的地质条件以及煤层所赋存的状况构建瓦斯的地质区分图,再根据采掘工程的平面图动态呈现的采掘信息以及相应的瓦斯分区构建关联并实行相应的比较分析,确定可以采集区域未来的可采区域是不是高瓦斯区域。

3.3构建以GIS空间分析为基础的方法库

GIS空间分析可以说是矿井自然灾害的隐患高度识别的关键性方式,并且还是安全故障警报的主要路径。比如断层的防水层的有效划分,关键是根据断层的保安煤柱来实行可靠的确定。断层的保安煤柱确定可以利用GIS缓冲区域的分析得到。空间的统计分析以及多源信息有效拟合和数据挖掘亦是瓦斯和水害等安全隐患监测经常使用GIS空间分析方式,如物探水文的异常区域确定以及瓦斯突出相应的危险区域确定。

3.4决策支持体制与煤矿管理水平

评价指标体制库以及模型库、方式库与图形库均是矿井的自然灾害隐患识别和决策的最基础。利用矿井的自然灾害隐患识别决策来支持体系具体的功能呈现矿井的自然灾害隐患识别以及决策分析,在根源处提高煤矿的安全管理水平。分类构建矿井的自然灾害实时监控体系,进行动态跟踪相应的灾害实时数据,并事实呈现矿井的自然灾害数据或是信息和自然灾害的指标体系库以及模型库与知识库、空间数据库的合理化比较,并运用图形库的数据再通过GIS空间分析方式来确定安全隐患的,矿井自然灾害的隐患实时警报并进行决策分析,以提交空间数据的自然灾害隐患识别以及分析处理的决策性报告。

4结语

数据挖掘论文篇6

目前计算机网络教学的模式可以分为如下几种:

1)网络教学:包含异步学习模式与同步学习模式,泛指教师与学生都不用到传统的教室去上课,只要上网到网络教室中就可以进行许多教与学的活动。

2)远程教室:在各大专院校设立有许多远程教学同步视频教室。在该教室中建置了许多视频影音的设备,用来进行课程的实时转播工作。

3)网络同步教室:网络教学活动可以区分为异步与同步的教学活动,其区别在于是否实时。教师和同学在约定的同一时间,通过Inter-net网络进行在线实时的课程教授的教学环境,就可称之为网络同步教室。在网络同步教室中提供许多教学相关的辅助工具及互动相关的功能,以协助课程的进行。研究者希望通过数据挖掘的方法,来分析教师对于网络教学环境的观念,并提供教师在网络同步教室中类似传统教学环境的教学模式,以增加教师采用网络教学的意愿。本研究将先就“传统教学”、“远程教学”及“网络同步教学”的环境因素、教学方式、师生互动、学习成效等构面进行分析比较,来区分出这三种教学环境的优缺点及差异,并将依据目前教师在传统教学中的教学模式,实际应用在网络同步教室中来施行,让参与网络教学的教师可以了解如何运用网络同步教室来经营一门高质量的课程。首先将推行计算机网络教学遇到的问题,大致上区分成以下几个主要因素:

1)数字教材的制作或取得不易:学校对于数字教材的取得感到忧心,大多要求学校教师自行制作,对教师而言会增加额外的负担,导致教师对网络教学产生抗拒的心理。

2)教师对网络教学的成效产生质疑:教师普遍认为网络教学环境的教学效果没有办法像传统教学环境一样,可以和学生有高度的互动,不认为网络学习会比较有教学成效。

3)教师对参与网络教学的意愿低落:教师必须花费许多时间和学生互动,比往常还需要花费更多的时间去回答学生的问题、关心学生的学习状况,教师普遍认为网络学习对教师来说不会比较轻松。将此主要因素做成调查问卷,对数据进行聚类分析,则可以找到主要的影响因素,获得教师对于网络教学环境的态度,进而选择更加有效的授课形式,以此提供类似传统教学环境的教学模式,以提高教师采用网络教学的意愿。

二、总结