数学建模含义(6篇)
数学建模含义篇1
关键词:元数据;提取转换;查询引擎
中图分类号:TP
文献标识码:A
文章编号:1672-3198(2011)06-0255-01
1引言
在元数据标准CWM中,元数据定义为关于数据的数据,是描述数据及其环境的数据。
2系统元数据分析与模型建立
2.1科研项目元数据标准
通过对系统元数据的定义需求,确定本系统元数据库中元数据的定义标准:
(1)基本属性:包括元数据项名称、名称缩写、唯一标识、含义、类型、精度、计量单位、是否主键、所属元数据项标识、可否用于检索。
(2)数据映射及提取定义:包括元数据来源于哪个数据库,来源于指定数据库的那个对象,对象可以是表、视图、存储过程等。
2.2科研项目系统元数据建模
图1元数据库架构
科研项目元数据库建模包含两部分内容:元数据字典建模和元数据。
2.2.1元数据字典
元数据以科研项目元数据库中数据基本单元为单位,按一定顺序排列,对其内容作详细说明的数据集,元数据字典中存放着元数据库中所有数据的定义,即对所有元数据库对象结构的描述(名称、标识、含义、类型、数据大小、格式、度量单位、精度以及允许取值范围等),它提供了对科研项目元数据库数据描述的集中管理手段。
2.2.2元数据
科研项目管理系统中的元数据包括了面向查询统计领域的所有数据实体及实体构成元素项,元数据库中的数据并不是来源数据库数据的简单复制,是面向查询特定领域的按照业务元数据标准组织的,在确定这些实体及实体所包含的元素时,遵循了以下原则:
(1)编码屏蔽原则:由于该元数据库是面向查询的,因此在数据从来源数据库中提取转换到元数据库时,只保留编码代表的语义信息。
(2)元数据数据项为最终项原则:即元数据中的每一项数据都为最终结果,而不包括中间数据。
(3)对于需要汇总的数据,需在元数据库中进行定义,汇总结果在数据提取转换过程中完成,查询时只是取得一个汇总结果数据。
2.3元数据存储及提取与转换
在本系统中,科研项目元数据以数据库中表的形式存放,对应元数据的逻辑划分,在数据库中建立了相应的数据表以存放元数据。
确定了元数据的存储方式并建立相关表后,须将元数据从源头数据库中提取到元数据库中。在数据提取环节通过SQLServer的DTS工具组件完成了数据从源头库到元数据库的提取功能。建立了四个数据提取包即:项目数据提取包、奖励数据提取包、鉴定数据提取包、外事项目提取包,分别完成相关元数据的提取任务。
3基于元数据的科研项目定制查询引擎设计
3.1基于元数据的科研项目定制查询引擎设计
3.3.1查询定制器
定制处理器完成了查询的定义功能,它的定义功能是建立在元数据库基础上的,同时可将查询的定制数据记录到数据库表中。查询定制器从一个查询最基本的构成要素考虑,包含查询的范围(表集合)、表连接联系、筛选条件等方面的定义。
(1)查询的数据来源:即来源于哪些元数据体,元数据体的哪些元素。
(2)查询条件定义:查询条件是通过定义select语句的Where子句内容实现的,包括每一查询条件的数学运算与查询条件的逻辑运算。查询条件的数学运算主要指“等于”、“大于”、“小于”、“包含”、“匹配”五种运算的实现,当查询条件多于一个时彼此之间存在逻辑运算关系“and”和“or”,独立的查询条件通过逻辑运算关系组织进来,构成复合查询条件关系。
(3)元数据体之间的连接关系,实现了内连接、左外连接、右外连接、全外连接、矢量积连接等连接功能。
3.3.2数据访问处理
包括查询命令生成器、查询命令解析、查询命令执行器三部分。其中查询命令解析是实现查询器最重要的一部分,语法分析的正确与否直接关系到检索结果的内容是否能达到用户的要求。
DML语句包含的子句有SELECT,FROM,WHERE,GROUPBY,HAVING,ORDERBY等。通过查询命令执行器调用定制好的查询命令,在数据库中执行,并返回XML格式的数据文件。
数学建模含义篇2
关键词:模糊本体;用户偏好;学习对象;推荐
中图分类号:G434文献标志码:A文章编号:1673-8454(2017)03-0074-04
一、引言
由于科学技术的飞速发展,特别是网络技术的提高以及各种教学工具的应用,E-learning已经成为一种重要的教育教学的方法。E-learning是指主要通过网络进行的学习与教学活动,充分利用现代信息技术所提供的全新沟通机制与丰富的学习资源,实现一种全新学习的方式。[1]E-learning具有传统教学方式无可比拟的优势,给教师和学生提供一个全新的学习教学模式。在当前的环境下,如何利用E-learning推荐系统主动和学习者进行信息交互,分析学习者的个性需求,给他们提供感兴趣的学习内容,已经成为一个研究的热点问题。
Userprofile能够体现用户的偏好信息,是用户兴趣的描述文件,存储用户偏好的数据及其结构。Userprofile可以用语义网来存储信息,表达用户的喜好,促进信息的存储和检索过程,而语义网利用形式化本体来创建机器可识别的数据,本体在处理机器可识别的描述信息方面是非常优秀的,但在现实世界中本体的形式化概念在处理一般领域中的不精确、不确定和模糊的信息时就无能为力了。[2]为了能描述不精确、不确定和模糊信息引入模糊概念和模糊关系,把模糊理论扩展到本体上,形成模糊本体。模糊本体能够处理模糊知识,能描述和检索文本和多媒体对象中模糊信息。[3]
本文提出一种基于模糊本体的userprofile来提高E-learning推]系统的教学活动。主要目的是提高检索、分类和管理学习对象的性能,利用模糊逻辑来定义、执行和校验自动构建基于userprofile模糊本体的过程,并把它应用在推荐系统中。
二、模糊本体的构建
本体是共享概念模型的明确的形式化规范说明。[4]本体构建(又称本体学习)过程是对概念和概念间的关系组织。现实世界中信息的不精确和不确定,引入模糊逻辑对本体进行了模糊扩展,提出了能够表示模糊知识的模糊本体,这主要有两个优点:第一,通过本体提高了概念的形式化描述;第二,帮助描述和处理在许多应用领域里的模糊信息。自动化模糊本体的构建在没有人为参与的情况下从数据源中抽取有用的信息。
Nikravesh[5]提出了一种基于概念和web数据库的智能决策分析系统模型,利用该模型可以准确检索到相关信息。该模式采用基于术语相似度函数的概念潜在语义索引技术由文本文档集来自动构建本体。Calegari等人[6]描述了一种方法利用模糊本体提高语义文档的检索性能,阐述了基于模糊概念网络的信息检索算法。本文主要是自动化构建模糊本体,通过结合文本挖掘和计算机技术抽取更多的有关用户偏好的描述信息来提高自动构建模糊本体的过程。
三、基于模糊userprofile的推荐系统
根据Burke[7]的定义,推荐系统输出个性化的推荐内容,在可选空间中给用户提供感兴趣的个性化的有用的对象以便选择。本节主要介绍基于模糊本体的userprofile的组成部件和自动构建过程。UserProfile是用户兴趣的描述文件,是用户个性化需求的体现,由相关学习对象组成。
1.模糊userprofile
在E-learning背景下利用学习对象来描述userprofile,该方法中userprofile由两个组成元素来描述用户的偏好,表示为U(ζ,FO),其中ζ是描述用户偏好的概念集,FO是对应偏好的概念集的模糊本体。ζ集是一个概念ci的集合,wi对应概念的权重,来描述用户的偏好程度,如公式(1)所示。
该方法量化每个概念在学习对象集合里的权重:
(1)学习对象d中每个概念ci的权重是一个模糊值。首先根据FIS-CRM[8]模型(fis-crm(ci,d))计算每个概念基本权重值,其次根据这个概念在用户文档中的同义词和出现频率重新调整权重值。
(2)如果一个概念比其他概念在用户文档出现更加频繁,就认为这个概念和userprofile相关性高,也有例外情况。为了获得这个相关度,必须考虑userprofile中的学习对象所包含的每个概念的权重以及在学习对象中出现的频率。概念ci在userprofileu里的权重wu
i用公式(2)计算:
Wu
i=wij×
1+×Ln+1(2)
其中wij是利用FIS-CRM模型计算出来概念ci在学习对象dj中的相关度,docs(ci,u)是userprofile里出现概念ci的文件数目,|D|是userprofile中学习对象的总数目,|U|是在E-learning环境下userprofile的总数,U(ci)表示概念ci具有确定隶属度的userprofile的数目。
计算出来概念的权重,就可以确定所有概念之间相关性分布,标准化权重值应该分布在[0,1]之间。只有概念具有足够大的权重(w>0.5)才认为对提高E-learning的学习活动有用。
模糊本体是一个从学习对象抽取的概念间的矢量网络。因此,一个模糊本体可看成是有向图的集合,该有向图的每一个节点代表一个概念,边表示概念之间的联系。
2.建立和更新过程
自动构建模糊本体和模糊userprofile的方法由数据处理、发现和重新描述用户的偏好两个阶段组成。这个过程又可以分为下列步骤:语言预处理、术语索引(也称本体预处理)、userprofile构建和userprofile更新过程。
(1)语言预处理。这个阶段的主要目的是以个体术语的形式从与每个用户有关的学习对象中抽取文本信息。首先,对不同形式的文档进行转换处理;其次,把所有非文本信息,如数字、日期和标点符号从文档(词法分析)中剔除;最后,停用词表和词干提取这两种技术用来减少词汇数量,使描述的文本具有更丰富的含义。[9]
(2)术语索引。本阶段主要利用上阶段产生的所有有关术语的信息构建检索结构,也称预处理本体。预处理本体包含下面的术语特征――术语ID和出现这个术语的学习对象特性列表。由于每个学习对象都包含属性ID――最频繁出现的术语数和术语在学习对象中的位置。每个术语的位置由一个二元组表示(p,s),其中s表示术语位于的章节或者段落,p表示术语在相应部分的索引。
(3)Userprofile的构建。构建部件ζ和FO时利用预处理本体作为资源。首先是利用fis-crm(cid)计算权值,这个权值是构建概念集ζ和描述模糊本体网络图的关键来源。模糊本体包含有向图形式描述相关度,本体也可以用像OWL[10]的语义标记语言来描述。
(4)Userprofile更新过程。当由用户选择或创建新的学习对象时允许新知识加入到userprofile里。这个过程的第一步是为新的学习对象进行语言预处理和术语建立索引。接着重新计算参数,概念之间的相关度和更新后的userprofile里每个概念的相关度。
四、E-learning推荐系统实例
这部分主要对系统进行评估,推荐系统主要是提供给用户有用和有趣的学习对象。在评估这个系统方面主要的任务是利用存储在学习对象库中的学习对象来构建userprofile并进行评估。
1.实验
实验在MACE(MetadataforArchitecturalContentsinEurope)中进行,这个系统在领域本体构建方面支持以开放形式获取学习资源,特别是在高等教育方面。[11]MACE的基本部件能够分享和重用的对象,包括存储资源索引和元数据的知识库、在异构资源库网络上能支持透明检索的整合搜索引擎、整合其他资源、为网络用户查找和恢复功能的可视化的探测仪等。
实验中参与者必须上传多于20个基于英文pdf文件到MACE知识库中作为学习对象,因为文献的数量足够多才能建立好的userprofile。一组大约1800个学习对象是由11个MACE用户利用MACE的简单查询接口(SimpleQueryInterface,SQI)收集而来。SQI[12]提供每个用户之间的标准化交流,能实现联合查询。每个被选的学习对象都是从pdf文档抽取的文本内容并由此生成一个有关用户文档的集合。这个文档集合被分成两个部分,包含产生用户特征部分和测试推荐系统部分,每个用户就是一个学习对象的贡献者。
2.本体评估
利用上述方法得到每个用户的具有权重的术语集和模糊本体,这些术语集和描述用户特征本体集对学习对象的基本语义进行描述。首先,比较产生本体的所有关系,这些关系是从WordNet中抽取的四种语义关系――同义词、同位词、下位词和上位词。第二步用结构化类比和在概念网络中定义的相似度关系。用Precision和Recall来进行评价,Precision是指一个被选中的元素相关性概率,Recall表示一个相关的元素被选中的概率,F测试是Precision和Recall之间的调和平均数,计算以公式(3)、(4)、(5)来确定系统的性能。[13]
Precision=(3)
Recall=(4)
F-Measure=(5)
实验结果Recall和Precision都在1%到2%之间。因为用户本体由无分类的模糊关系和规则组成,这规则是句法和分类等级。另外,由于这些规则由大量的信息组成,故不能进行深层次的分析。而用舯咎灏含用户基本特征,尽力描述自己的特定的域。
3.推荐系统的评估
利用实验来验证第4章提出的推荐系统的Precision、Recall和F测试,本文中采用本体评价标准,这个过程其实是把一个本体作为标准和另一个本体进行比较的过程。[14]表1描述各种符号所代表的含义。
实验选取了11个用户,收集到504个不同领域的学习对象,是利用描述的MACE系统抽取的。数据集被分为训练集和测试集,11个userprofile利用训练集的329个学习对象建立,测试集包含剩余的175个学习对象。比较系统提供的推荐内容和从元数据(如果用户是学习对象的贡献者,这个学习对象就推荐给这个用户)抽取的内容,获得相关的Precision、Recall和F值。所有用户的实验数据如表2所示,实验结果如表3所示。平均的Precision、Recall和F值分别是87.7%、85.8%和86.4%,显示了本文提出的系统的良好性能,表明提出的系统具有灵活性,能自动产生基于userprofile提供的良好的推荐内容。
五、结论
模糊本体的灵活性支持广泛的信息检索和过滤问题,本文提出了一种利用模糊本体描述userprofile的方法,该方法可以有效地提高E-learning的学习行为,利用推荐系统提供用户感兴趣的学习对象。提出的userprofile结合一个相关的概念集和定义全面描述用户喜好的模糊本体,包含一个用户选择的或者创建的学习对象产生userprofile的过程。实验是在MACE项目上运行,结果显示提出的系统在术语的Precision和Recall方面是合理的有效的。
进一步的研究任务是要提高userprofile的质量,利用修剪过程避免不相关的概念提供给用户,要考虑由用户提供的反馈信息,利用一些混合筛选技术,增加更详细的相关性实验。
参考文献:
[1]何克抗.一场深刻的教育革命:E-learning与高等学校的教学改革[J].现代远程教育研究,2002(3):13-20.
[2]陈冬玲,王大玲,于戈.支持个性化检索的UserProfile研究概述[J].小型微型计算机系统,2008(10):1903-1907.
[3]ZhaiJ,ShenL,ZhouZ,etal.Fuzzyontologymodelforknowledgemanagement[C].Internationalconferenceonintelligentsystemsandknowledgeengineering(ISKE2007),Chengdu,China.Fuzzyontologyrepresentationmodel.2007.
[4]戴维民.语义网信息组织技术与方法[M].上海:学林出版社,2008.
[5]NikraveshM.Concept-basedsearchandquestionnairesystems[M].ForgingNewFrontiers:FuzzyPioneersI.SpringerBerlinHeidelberg,2007:193-215.
[6]CalegariS,SanchezE.Object\fuzzyconceptnetwork:Anenrichmentofontologiesinsemanticinformationretrieval[J].JournaloftheAmericanSocietyforInformationScienceandTechnology,2008,59(13):2171-2185.
[7]BurkeR.Hybridrecommendersystems:Surveyandexperiments[J].Usermodelinganduser-adaptedinteraction,2002,12(4):331-370.
[8]OlivasJA,GarcésPJ,RomeroFP.AnapplicationoftheFIS-CRMmodeltotheFISSmetasearcher:Usingfuzzysynonymyandfuzzygeneralityforrepresentingconceptsindocuments[J].Internationaljournalofapproximatereasoning,2003,34(2):201-219.
[9]HullDA.Stemmingalgorithms:acasestudyfordetailedevaluation[J].JASIS,1996,47(1):70-84.
[10]McGuinnessDL,VanHarmelenF.OWLwebontologylanguageoverview[J].W3Crecommendation,2004,10(2004-03):10.
[11]WolpersM,MemmelM,KlerkxJ,etal.BridgingrepositoriestoformtheMACEexperience[J].NewReviewofInformationNetworking,2009,14(2):102-116.
[12]VanAsscheF,DuvalE,MassartD,etal.Spinninginteroperableapplicationsforteaching&learningusingthesimplequeryinterface[J].EducationalTechnology&Society,2006,9(2):51-67.
[13]CaoY,LiY.Anintelligentfuzzy-basedrecommendationsystemforconsumerelectronicproducts[J].ExpertSystemswithApplications,2007,33(1):230-240.
数学建模含义篇3
关键词:计算机应用;中文信息处理;句法分析;模式匹配;句法树库
中图分类号:TP391文献标识码:A
1引言
基于语料库的统计概率模型是句法分析的重要研究方向,代表性的有概率型上下文无关模型(PCFG)基于历史的分析模型、分层渐近式句法分析模型、头驱动的统计句法分析模型等。统计方法实质是一个评价句法分析结果的概率评价函数,即对于一个输入句子s和它的句法分析结果t,给出一个条件概率P(t|s),并由此找出该句法分析模型认为概率最大的分析结果,即找到argmaxP(t|s),句法分析问题的样本空间为S×T,其中S为所有句子的集合,T为所有句法分析结果的集合。统计方法的主要问题是数据稀疏问题、忽略上下文结构信息、需要大量计算等。
基于语料库的另一种方法是面向数据的分析(DataOrientedParsing,DOP)技术,它从句法标注语料库中抽取所有任意大小规模和复杂结构的片段,通过对片段的组合操作来实现句法分析,然后考虑所有结果的概率大小,来选择最优结果。DOP模型较好地利用了语料库中蕴含的知识,体现了“语言分析依赖经验”的思想,缺点还是没有充分利用上下文信息(片段间相互独立),注重片段而忽略了整体,另外片段组合与概率计算的工作量也很大。我们的基于模式匹配的句法分析与DOP类似,都是建立在“语言分析依赖经验”的思想基础上,但在算法实现上不同,借鉴了文法转换中的部分理论和技术,并在句法分析中注重整体匹配、局部转换。
2基于模式匹配的句法分析
2.1基本思想
在计算机上输入汉语时,单个的汉字输入既慢又易出错,词组的输入则又快又准,究其原因是词组的重码率低,减少了歧义发生率,基于模式匹配的句法分析与此类似,模式即类似于词组,当然分析处理要复杂得多。在从句法标注语料库中获取了大量句法模式的基础上,不再如传统的概率模型,计算各种组合的最大概率,而是大处着眼,快速识别处理对象中包含的句法模式或隐含的近似句法模式。
模式匹配的句法分析方法与传统统计句法分析方法在处理方式上的不同,前者强调整体优先,在大块匹配的基础上,对局部没有能直接匹配上的部分做一定的转换处理,而后者是基于局部概率的计算,由点到线;前者是基于短语的(句法短语),后者是基于词的。基于模式匹配的句法分析是对人的处理方式的模仿(人做句法分析可以左看右看,把握整体,注重平衡,因而是二维的),可充分发挥大规模语料库蕴含的处理各类句法现象的能力。
2.2句法模式的定义
定义1:对于一个句法树,从左向右画一条只穿过树中节点的线,这条线上的节点如果满足以下约束条件,则其节点序列即为一个句法模式。
这条线上的节点是树上全部节点D的一个真子集C,并且(1)C中没有一个节点处在由C中其他节点开始的任何一条后继节点路径上;(2)D中没有其他节点可以加入c而不违背规则(1)。
如图1所示,虚线上的节点序列是句法树S(dj(np(n(奥里诺科河))vp(pp(p(在)np(r(哪儿))))))中的几种模式,其中(d)为非法模式,因为该序列中节点p是节点vp的子孙,不满足模式定义约束。按定义,该句法树中共包含25个模式。模式数量按几何级数增长,1个包含20个词的句子,其模式数约为500多万,故构建数据支撑平台是一个海量数据处理过程。
一个模式的规约是句法树中该模式与树根节点之间的部分,图1(c)中模式为(npp哪儿),对应的模式规约为S(dj(npvp(pp(pnp(r(哪儿)))))),如图2所示。从本质上讲,句法分析的过程是从叶子节点向根节点过渡的过程,而模式及其规约正是对句法树库标注过程的动态记录,基于此的句法分析规约速度快,处理效率高。
2.3模式的抽取
从句法树库的每一个树及其派生的子树中,抽取所有的句法模式,并记录对应的规约。该算法应用于后台处理,是构建数据支撑平台的基础。抽取算法基于句法解析函数及其链表表示,在算法中,结构树在内存中以中序优先的形式存储。模式抽取算
算法结束后List中的内容即为所求的句法结构s中包含的所有模式序列。
2.4模式匹配及其局部转换
定义2:设模式P=a1a2…ai…an,处理对象S=b1b2…bi…bm,其中a、b为节点(即词或词性标记),若m=n,且ai?=bi,i∈[1,m],则称模式P与S完全匹配。
判断待处理语句是否与模式库中的模式相匹配,则成立相应的模式规约即为句法分析结果;否则进而判断近似模式(即模式中有部分不匹配,近似模式匹配不同于多模式匹配,因为待处理语句和模式中任何部分之间都可能进行匹配)。
定义3:设模式P=a1a2…ai…an=P1P2…Pk,其中P1=a1a2…ai,P2=ai+1ai+2…,…,Pk=ai+1at+2…an,1≤i≤≤t;S=bi+1bi+2…bi…bn=S1S2…Sk,其中S1=b1b2…bi,S2=bi+1bi+2…,…,Sk=bt+1bt+2…bn,1≤i≤t,Pj与Sj不同时为空,若Pj=Si,则称其为P、S中的相同子模式,包含若干相同子模式的模式P,即为S的近似模式。
根据定义近似模式有多种取法,不同顺序不同取舍会得到不同的近似模式,例如P=nsnpvpunpvp,S=nsumpnpvpvp,P与S之间存在多种模式对齐方式,如下所示。
近似模式的取舍按最大匹配个数(长度)优先和分布平衡优先的原则,兼顾统计句型的判断(这里的句型是从语料库中统计出来的出现频率较高的句法结构,其叶子节点序列也是一个模式,我们称这样的模式为强模式,频率高,有较强的吸附性,即它是很多模式的上位模式)。近似模式的计算公式如下:
其中,Len(s,p)为计算处理对象s与模式p中的节点匹配度,N(s)为s中的节点数,N(p)为p中的节点数,N'(s,p)为s与p中共同出现的节点数目;Ord(s,p)为计算s与p中相同节点的顺序相似度,MaxRev(s,p)表示共同节点在p中的自然数序列的最大逆序数,Saq(s)表示共同节点对应在s中的位置构成的自然数序列,Rev(s,p)表示Seq(s)的逆序数,公式(2)反映出s与p中的共同节点的顺序越接近,则s与p越近似;Patt(p)给出句型p的频率,如果p不是句型,则Patt(p)=0;AP为所求的最优近似模式,P为模式集合,α1,α2,α3是对应的计算权重。
定义4:设模式P1=a11a12…a1i…a1n和模式P2=a21a22…a2j…a2m是同一棵句法树上模式,n<m,a1i或是P2中的某个节点,或是P2中某个或某些节点在句法树中的祖先,则称P1是P2的上位模式。如图2,模式nppp即为模式nppnp的上位模式。
定义5:设P是S的近似模式,P'是P的一个上位模式,局部转换是指对S中与P不同的部分进行一定的规约处理,得到S',使得S'=P'。
对近似模式中不匹配的部分进行特别的转换和归并处理的目的是得到一个完整的匹配模式,如图3所示,待处理对象S(a1a2a3'a4a5a6a7)与模式P(a1a2a3a4a5a6a7)中的a3不能匹配上,则试探包含a3的上位节点b,且与模式P距离最近的上位模式P'(a1a2ba5a6a7),若处理对象S中局部转换a3'a46成立,则模式P'即为所求完整模式。
2.5系统处理流程
模式匹配的句法分析是建立在大规模语料库包含的海量句法模式的基础上,其分析质量和处理性能,取决于整个句法分析系统的各个环节,可以分为数据和算法两大方面,数据是支撑,数据量愈大,句法模式涵盖面愈广,处理的精度和效率愈高,算法则是如何管理、调度大量数据,以及如何利用和发挥出模式库的句法分析能力。
图4是句法分析的系统结构图,其中数据支撑平台是后台实现的,处理的数据量较大,句法分析是实时处理,由于有后台大量的索引及其快速匹配算法,所以有较高的分析效率。
预处理主要是词法分析工作,模式匹配成功则直接进行模式规约处理,否则需要抽取最优的近似模式,进行局部转换处理,得到近似模式的上位模式。系统的复杂性涉及时间和空间两个方面,主要策略是以空间换时间,即建立大量多层次索引换取句法分析的高效率。
3实验结果及其分析
我们以TCT973树库作为实验的资源,从其中29000余句句法树中抽取所有不重复的句法模式,构建大规模的模式库及其相应的规约库,模式总数大约8百万条。从29000中分别随机抽取百科、学术、新闻、应用类100句,抽取长句(词个数大于40)和短句(词个数小于20)100句,做封闭测试,再从29000句以外的句子中抽取1000句做开放测试,计算机CPU为Pentium2.8G双核,内存1G.实验结果如表1所示。
实验的主要目的是检验基于大规模树库的模式匹配句法分析器的分析效率和分析结果的准确度。其中,对分析结果准确度的评估主要依据了以下几个性能指标:(1)标记正确率(LP);(2)括号召回率(LR);(3)交叉括号数(CBs);(4)没有括号交叉的情况(0CB);(5)最多有一个括号交叉的情况(1CB);(6)最多有两个括号交叉的情况(2CB)。有关它们的详细定义,请查阅PARSEVAL评估标准,句耗时指批平均每句耗费的分析时间,单位为秒。
总的实验结果令人满意,准确率召回率等各项指标较文献[11]公布的同类测试有明显的提高,尤其是分析效率,传统的一遍Chart分析的方法的时间复杂度为句子长度的三次方,采用基于模式匹配的句法分析方法,由于在后台建立了大量的多级模式索引库,且在匹配算法上采取了规约深度优先、规约总次数最少优先等原则,所以分析的效率非常高,平均句耗时为0.46秒。
从实验结果中可发现,短句的分析没有长句的好,这和模式匹配的算法有关,短的语句,一旦匹配上错误的模式,各项分析分析指标的得分就会很低;长的语句,分析单元之间的约束较强,其存在多种分析结果的可能性相对小,即使在局部可能存在分析错误,总体分析结果也不会太差,故反而能够取得较好的平均结果。模式匹配的句法分析也有歧义组合的问题,如对于“货币学派/n及其/c政策/n主张/n”,其词性序列是“ncnn”,在模式库中有两种规约与之对应,分别为np(np(ncn)n)和np(ncnp(nn)),目前对于一个模式多种规约的情况,采用概率优先,即同等情况取概率大的规约,以后将考虑不同规约与上下文的关系,进行语境相似度计算。
4结论
数学建模含义篇4
关键词:Elman神经网络;松散回潮;出口含水率;预测
中图分类号S572文献标识码A文章编号1007-7731(2016)08-118-03
1引言
在卷烟制造过程中,制叶丝的过程含水率控制是制丝生产中的关键参数,在烘丝前的含水率控制主要通过松散回潮工序中加水比例调节。不同的加水比例下松散回潮机的出口片烟含水率不同,最终将导致烘丝入口叶丝含水率的差异。因此,调节松散回潮加水比例控制松散回潮出口含水率在制丝过程中具有重要意义。董伟等[1]采用PID反馈控制修正加水量,曹正良[2]将反馈控制改进为前馈控制方式,二者均从控制的角度出发,优化控制算法,调节加水比例。李秀芳等[3-5]则采用过程参数优化的方式,通过过程参数优化,调节加水比例。以上2种方法均对松散回潮机出口片烟含水率的调节作出了一定优化,但2种方法均从内部角度考虑,而忽略了环境温湿度等外部条件对出口片烟含水率的影响。
为此,本研究通过对历史生产数据的分析,采用基于双隐含层的Elman神经网络建立松散回潮机加水比例预测模型,然后再获取当前环境温湿度下,通过大量模拟加水比例输入,找出相应输出中与设定出口含水率设定值最接近的加水比例作为生产过程参考加水比例,利用该加水比例进行生产,保障出口片烟含水率与设定值的误差得到改善。
2Elman神经网络算法
Elman神经网络是J.L.Elman于1990年首先提出来一种典型的局部回归网络[6]。Elman网络是一个具有局部记忆单元和局部反馈连接的前向神经网络。Elman神经网络的网络结构如图1所示,由输入层、中间层(隐含层)、承接层和输出层构成,其中输入层、中间层和输出层和传统BP神经网络相同,但Elman神经网络多了一个承接层,用于保存上次输入后中间层的状态连同输出数据[7-9]。增加承接层后,Elman网络比传统BP神经网络具有更复杂的动力学特性,因而具有更强的计算能力,稳定性也优于BP神经网络。隐层的传递函数仍为某种非线性函数,一般为Sigmoid函数,输出层为线性函数,承接层也为线性函数[10]。
3基于双隐含层Elman神经网络的松散回潮出口含水率控制预测模型
3.1网络参数选择以松散回潮加水比例、相应环境温湿度为输入,出口烟叶含水率为输出,设定训练目标0.05,训练速度0.01,最大训练步数100,以Sigmoid函数为传递函数,进行神经网络训练。对于Elman神经网络的神经元个数及隐含层个数的确定,首先通过对不同神经元个数分别进行10次运行,结果如表1,选取10次运行对应的决定系数平均值作为评价标准,从结果可知选取8个隐含节点的测试集决定系数平均值最大。再对不同层数的隐含层各进行10次运行,结果如表2,同样采用10次运行对应的决定系数平均值作为评价标准,从结果可知选取2个隐含层的测试集决定系数平均值最大。
3.2模型预测效果检验采用该神经网络对松散回潮机出口烟叶含水率进行预测,预测结果如图3。由图3可知,采用该神经网络模型预测120个样本的松散回潮机出口烟叶含水率预测曲线和实际数据曲线吻合度较高。且从误差数据计算可知,预测误差为0.149%。所有预测结果误差均控制在0.5%以内,准确预测(误差在±0.3%)比例为89.171%,能满足松散回潮工序出口含水率为(设定值±0.5)%的允差要求。
3.3与多元回归分析拟合模型相比较图4为采用多元回归分析方法建立的松散回潮机出口片烟含水率线性模型,用于预测的效果。预测误差为0.268%,大于本文方法的0.149%,存在个别预测误差大于0.5%,且准确预测比例为77.5%低于本方法的89.171%。
3.4松散回潮加水比例预估方法建立松散回潮出口含水率预测模型后,由于神经网络模型为非显性模型,因此可以考虑采用逼近法,不断尝试不同加水比例输入,比较输出与设定值的误差,取满足要求的加水比例作为加水比例预测结果即可,方法如图5。
4结论
采用基于Elman神经网络模型建立松散回潮机出口片烟含水率预测模型,该方法建立的预测模型预测效果优于传统多元回归分析建立线性模型的预测效果。再通过逼近法给出了当前环境温湿度下,指定松散回潮机出口含水率所对应的加水比例预测值。采用该方法所确定的松散回潮加水比例生产,提高了松散回潮机片烟出口含水率的控制效果。
参考文献
[1]董伟,李坤,王健,等.HAUNI松散回潮滚筒含水率控制系统的改进[J].烟草科技,2012(11):20-22.
[2]曹正良.片烟松散回潮含水率控制方式的改进[C]//2010年中国烟草学会工业专业委员会烟草工艺学术研讨会论文集,2010.
[3]李秀芳.烟片松散回潮关键工艺参数过程控制系统的优化设计[J].中国烟草学报,2015(3):34-41.
[4]俞仁皓,宋家海,王建,等.松散回潮工序回风温度PID控制参数的优化[J].烟草科技,2010(7):8-10.
[5]赵国庆,米强,钟青,等.因素筛选试验在松散回潮和筛分加料工序质量评价中的应用[J].烟草科技,2007(11):24-27.
[6]王俊松.基于Elman神经网络的网络流量建模及预测[J].计算机工程,2009,35(9):190-191.
[7]钱家忠,吕纯,赵卫东,等.Elman与BP神经网络在矿井水源判别中的应用[J].系统工程理论与实践,2010,30(1):145-150.
[8]周云龙,陈飞,刘川,等.基于图像处理和Elman神经网络的气液两相流流型识别[J].中国电机工程学报,2007,27(29):108-112.
[9]王宏伟,杨先一,金文标,等.基于Elman网络的时延预测及其改进[J].计算机工程与应用,2008,44(6):136-138.
[10]范燕,申东日,陈义俊,等.基于改进Elman神经网络的非线性预测控制[J].河南科技大学学报(自然科学版),2007,28(1):41-45.
数学建模含义篇5
【关键词】汉语第二语言教学;双音节复合词;语义激活扩散模型;含相同语素
一、语义激活扩散理论
1.语义激活扩散理论的提出。激活扩散模型(SpreadungActiationModllins)是Collins和的Loftus(1975)提出的,它也是一个概念网络模型,但与层次网络模型不同。它放弃了概念的层次结构,而以语义的网状联系表示它们的联系。
下图的图中方框为网络的节点,代表一个概念。概念之间的连线表示它们的联系,连线的长短表示联系的紧密程度。连线愈短,表明联系愈紧密,概念之间有愈多的共同特征;两个节点之间通过其共同特征有愈多的连线,则两个概念的联系愈紧密。从图中可以看出,各种机动车通过其共同特征而紧密联系起来。围绕各种颜色的关联也是这样。
图1:激活扩散模型片断
2.语义激活扩散模型的加工过程。激活扩散模型的加工过程是很有特色的。它假定,当一个概念被加工或受到刺激,在该概念节点就产生激活,然后激活沿该节点的各个连线,同时向四周扩散,先扩散到与之直接相连的节点,再扩散到其它节点。此外还假定,激活是特定源的激活,虽有扩散,但可追踪出产生激活的原点。此外还假定,概念间连线的另一个重要特征:强弱。前面提到概念间连线按语义联系紧密程度而有长短之分,现在连线则又有强弱之别。连线的不同强度依赖于其使用频率高低,使用频率高的连线有较高强度。同样,当连线的强度高时,激活扩散的越快。
二、含相同语素的复合词群落的语义激活扩散模型的构建
1.激活汉字显义功能,理解含同一语素的复合词语义网络
由于汉字与汉语单音词的关系是十分密切的,这样在单音词指向复音词的组词过程中,汉字在复合词中具有显义作用。一般说来,一个汉字是一个语素,语素是有意义的,它是音义结合在一起形成的最小的单位。汉字字形对语素义的表现也能起到显义的作用。人们一看到字形,就会联想到仅仅从语音形式上想不到,或不能那么迅速联想到的东西。
例如,看到“海潮”两个字就似乎看到了汹涌澎湃,惊涛骇浪的飞动,而听到“haichao”则难以达到这种效果。汉字字形字势溶入单音词之中,它将单音词的意义特征形象而又概括地反映在字形上,使人们一看到是字形,就将意念活动直接指向客观对象,进而指向一组符号。如上面所说的“海潮”的那种效果。
在汉语第二语言词汇教学中,如何运用汉字的这一优势,帮助学习者构建汉语复合词的认知模式?要掌握大量的词语,不能主要靠汉字的视觉效果,还要依靠理解一个语素义,进而理解复合词群落。前面已经提到:看到“海潮”两个字就似乎看到汹涌澎湃,惊涛骇浪的飞动。同时我们还应该搞清楚,“海”指大洋靠近陆地的部分,有的大湖也叫海。“潮”指海水因为受了日月的引力而定时涨落的现象。那么,来看一下以“海”为“节点”的双音节复合词群落的语义网络。
图2:“海”的双音节复合词群落的语义网络的片断
如上图所示,“海”与“岸”二者的语义关系是修饰与被修饰的关系,意思为“邻接海洋边缘的陆地”;“海岛”的语义关系是同样的修饰与被修饰,意思为“海洋中的岛屿”;“海路”指“海上运输的航线”;“海轮”指专在海岸上航行的轮船。“人海”与“火海”中的“海”是比喻义,即“比喻数量多的人或事物”。以上是以“海”为“节点”的双音节复合词群落中复合词的图示。这些含有“海”这个语素的复合词,如果有一个被激活,学生应该想到有关的另一个,这样才能保证他们不写别字。所以,含有一个汉字的词语群落中各个单词都可以通过这个字被激活,汉字具有显义功能,具有显示词语群落的功能。
2.激活汉字对含同音语素复合词的区别作用。符号是什么?在认识活动中,人们常常用甲事物代表乙事物,这代表乙事物的甲事物就是乙事物的符号,即符号是事物的代表,是指代他种事物的标记。
符号是由形式和内容两个部分构成的结合体,形式是人的感觉器官可以感知的,内容则是形式所表达的意义。像红绿灯、旗语、手势、文字等是视觉可以感知的,是视觉符号,汽笛、军号是听觉符号。语言是听觉符号系统。这些可以感知的形式都是和意义结合在一起的。汉语中“人”的语音形式“r閚”,是听觉可以感知的声音,它的意义是指所有的人,概括起来可以说是“用两条腿走路、会说话、会干活的动物”,“ren”这个形式和人的意义结合成汉语中的人的符号,代表着客观世界中的人这种事物。
在所有的符号中,语言符号是最重要、最复杂的一种。语言中最小的符号是语素,汉语中的“黑”、“板”、“人”、“民”、“朋”、“友”等都是符号。语素是语言中音义结合的最小单位。人们自然地感觉到语言中的单位是词,而不是语素。有些词由一个语素构成,如“人”、“水”、“火”、“土”,有些词包含不止一个语素,如“黑板”、“人民”、“朋友”。
汉字这一符号,对含同音语素的复合词具有区别作用。具体表现为:汉语中的同音字,是语音上的相同,声音上的这种相同常常会造成字形上的混淆。因为学生感知到了声音,但并不明确所指是什么,这时,应将这些同音字书写出来,通过字形形式来辨别。
例如:(说明:画#号的词有同音词;不加#号的,括号内的字大多是别字;画*号的有异形词,括弧外的词形是规范词形。)
#得到(道)#势力(视)#主意(义)#过虑(滤)#公用(功)
究竟(竞)避免(勉)汇报(会)年纪(记)导致(制)
访问(仿)习惯(贯)经常(长)篮球(蓝)立刻(克)
*订婚(定)*精彩(采)*身分(份)*计划(画)*图像(象)
少数民族中学生汉语教学中,如果引导学习者利用汉字对含同音语素的区别作用构建复合词认知模式,这样可以预防或避免别字现象。
那么,如何引导少数民族中学生构建含相同语素并含同音语素的复合词的认知模式呢?在前面谈到了语义记忆的激活扩散模型。这里我们就运用该理论,激活汉字对含同音语素的复合词的区别作用,有利于引导学生构建同一个语素组成的复合词群落语义记忆的激活扩散模型。
3.激活汉字对同音复合词的区别作用。汉语的音节数量少,复音节的词增加了组合的类型,减少了相同的机遇,但两个音节的复合词同音的机会仍高于西方语言的多音单音词和多音词。同音词多,这无疑对汉语第二语言学习者带来了极大的困难。对此应该试图利用“汉字对同音复合词的区别作用”来构建汉语复合词词汇的语义网络解除这一困难。
汉语复合词语音相同率高的现象仍有赖于汉字的参与,凭借着汉字形体的显示,才可以将同音复合词清楚地分辨出来。
少数民族学生因同音而书写别字的现象普遍存在。这是因为音近的语素语义系统相混淆而造成的。解决这一问题的有效途径是帮助他们构建语素的语义系统。上面这些就是他们经常混淆的词。这里就不能通过声音记忆汉字,而要通过语义并强调字形来记忆汉字,这样才能避免别字现象的出现。含相同语素复合词群落的记忆与激活,是以汉字作为节点的,应该注意对含同一汉字的复合词群落的讲析。
运用上述认知心理学研究成果,帮助少数民族学生逐步构建起语素和相应复合词的语义层次网络模型,引导汉语第二语言学习者在学习的过程中逐步完善复合词心理认知模式,使他们在较短时间内,能够正确理解、记忆、书写汉语复合词,牢固地掌握现代汉语书面语词汇,是解决少数民族学生写错别字的科学途径之一,并对国内汉语第二语言具有重要的理论价值和现实意义。
参考文献:
[1]王甦,汪安圣.认知心理学[M].北京:北京大学出版社,2001:175-182.
数学建模含义篇6
关键词:数据挖掘;流量;SQLServer2005
中图分类号:TP311文献标识码:A文章编号:1007-9599(2011)13-0000-02
UseDataMiningToolstoAnalyzeInternetTraffic
ZhangJun
(YangzhouHongquanHospital,Jiangdu225200,China)
Abstract:ThispaperuseSQLServer2005Dataminingtoolsforaunittoaccessexternalnetworktrafficandrelatedinformationwereanalyzed.Throughtheuseofclustering,decisiontrees,NaïveBayes,etc.thataffectthetrafficmodelobtainedseveralkeyattributes.Accordingtotheminingresults,timeandnetworkadministratorscansegmentintermsoftraffictocertainadjustments,sothatthenetworkresourcesinthemostefficientuse.
Keywords:Datamining;Flow;SQLServer2005
一、主要技术和实现方法
(一)主要技术
1.数据挖掘
(1)数据挖掘的概念[1]。数据挖掘(DataMining)从技术角度上讲就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
(2)数据挖掘特点。数据挖掘技术具有以下特点:
处理的数据规模十分庞大,达到GB、TB数量级,甚至更大。
查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求,需要靠系统本身寻找其可能感兴趣的东西。
在一些应用(如商业投资等)中,由于数据变化迅速,因此要求数据挖掘能快速做出相应反应以随时提供决策支持。
数据挖掘中,规则的发现基于统计规律。因此,所发现的规则不必适用于所有数据,而是当达到某一临界值时,即认为有效。因此,利用数据挖掘技术可能会发现大量的规则。
数据挖掘所发现的规则是动态的,它只反映了当前状态的数据库具有的规则,随着不断地向数据库中加入新数据,需要随时对其进行更新。
(3)数据挖掘的主要算法。最初的数据挖掘分类应用大多都是在这些方法及基于内存基础上所构造的算法。目前数据挖掘方法都要求具有基于外存以处理大规模数据集合能力且具有可扩展能力。主要的算法有:
决策树
KNN法(K-NearestNeighbor)
Bayes法
二、利用SQLServer2005进行数据挖掘
(一)SSAS简介
SSAS是Microsoft公司的产品。MicrosoftSQLServer2005AnalysisServices(SSAS)为商业智能应用程序提供联机分析处理(OLAP)和数据挖掘功能。AnalysisServices允许用户设计、创建和管理包含从其他数据源(如关系数据库)聚合的数据的多维结构,以实现对OLAP的支持。而对于数据挖掘应用程序,AnalysisServices允许用户设计、创建和可视化处理那些通过使用各种行业标准的数据挖掘算法和根据其他数据源构造出来的数据挖掘模型。SSAS是通过服务器和客户端技术的组合来提供OLAP和数据挖掘功能的[2]。
SSAS提供了用于数据挖掘的工具,用户可以借助这些工具识别出数据中的规则和模式,SSAS创建数据挖掘解决方案时,首先要创建描述业务问题的模型,然后通过生成数据的数学模型的算法运行数据,此过程称作“定型模型”。接着依据该算法直观地浏览挖掘模型或创建预测查询。AnalysisServices可以使用来自关系数据库和OLAP数据库的数据集。
SSAS是基于SQLServer的一种数据挖掘工具。其实SQLServer2005已经为用户提供了从数据库、数据仓库、OLTP、OLAP、数据挖掘和商业智能等一整套的数据服务功能。
用SSAS进行数据挖掘的步骤
一个重要的概念就是生成挖掘模型是大型过程的一部分,此过程包括从定义模型要解决的基本问题到将模型部署到工作环境的所有事情。此过程可以使用下列六个基本步骤进行定义:
定义问题;准备数据;浏览数据;生成模型;浏览和验证模型;部署和更新模型
尽管过程是一个循环过程,但是每个步骤并不需要直接执行到下一个步骤。创建数据挖掘模型是一个动态、交互的过程。浏览完数据之后,您可能会发现数据不足,无法创建适当的挖掘模型,因此必须查找更多的数据。您可以生成数个模型,但可能会发现这些模型无法回答定义问题时所设定的问题,因此必须重新定义问题。您可能必须在部署模型之后对其进行更新,因为又出现了更多的可用数据。因此,了解创建数据挖掘模型是一个过程,并且为了创建一个完美的模型,此过程中的每个步骤可能需要重复多次是非常重要的。
SQLServer2005提供用于创建和使用数据挖掘模型的集成环境,称为BusinessIntelligenceDevelopmentStudio。该环境包括数据挖掘算法和工具,使用这些算法和工具更易于生成用于各种项目的综合解决方案。
(二)定义问题
数据挖掘过程的第一步就是明确定义业务问题。
该步骤包括分析业务需求,定义问题的范围,定义计算模型所使用的度量,以及定义数据挖掘项目的最终目标。
(三)准备数据
数据挖掘过程的第二步就是合并和清除定义问题步骤中标识的数据。
MicrosoftSQLServer2005IntegrationServices(SSIS)包含完成该步骤所需的所有工具,步骤内容包括转换到自动执行数据清除和合并。
数据可以分散在公司的各个部门并以不同的格式存储,或者可能包含缺陷项或缺少项之类的不一致性。
(四)浏览数据
数据挖掘过程的第三步就是浏览已准备的数据。
您必须了解数据,以便在创建模型时做出正确的决策。浏览技术包括计算最大值和最小值,计算平均偏差和标准偏差,以及查看数据的分布。浏览完数据之后,便可确定数据集是否包含缺陷数据,然后制订纠正这些问题的策略。
BIDevelopmentStudio中的数据源视图设计器包含数种可用于浏览数据的工具。
(五)成模型
数据挖掘过程的第四步就是生成挖掘模型[3]。
在生成模型之前,必须随机将已准备的数据分离到单独的定型数据集和测试数据集。您使用定型数据集生成模型,并通过创建预测查询来使用测试数据集测试模型的准确性。您可以使用IntegrationServices中的百分比抽样转换来拆分数据集。
您将使用从浏览数据步骤中获得的知识来帮助定义和创建挖掘模型。模型通常包含多个输入列、一个标识列以及一个可预测列。然后可使用数据挖掘扩展插件(DMX)语言,或BIDevelopmentStudio中的数据挖掘向导,在新的模型内定义这些列。有关如何使用DMX的详细信息,请参阅数据挖掘扩展插件(DMX)参考。有关如何使用数据挖掘向导的详细信息,请参阅数据挖掘向导。
定义完挖掘模型的结构之后,需要对其进行处理,使用说明模型的模式来填充空结构。这称为“定型”模型。模式通过利用数学算法计算原始数据而得。SQLServer2005针对可生成的每种模型包含一种不同的算法。您可以使用参数调整每种算法。
挖掘模型由一个数据挖掘结构对象、一个数据挖掘模型对象以及一种数据挖掘算法定义。
MicrosoftSQLServer2005AnalysisServices(SSAS)包括以下算法:
Microsoft决策树算法
Microsoft聚类分析算法
MicrosoftNaiveBayes算法
Microsoft关联算法
Microsoft顺序分析和聚类分析算法
Microsoft时序算法
Microsoft神经网络算法(SSAS)
Microsoft逻辑回归算法
Microsoft线性回归算法
(六)浏览和验证模型
数据挖掘过程的第五步就是浏览您已经生成的模型并测试其有效性。
您不希望在事先没有测试模型性能的情况下将模型部署到生产环境。同样,您也许已经创建了数个模型,并且必须确定性能最佳的模型。如果您在创建模型步骤中创建的所有模型都无法正常工作,则必须返回到此过程的上一个步骤,重新定义问题或重新调查原始数据集中的数据。
可以使用BIDevelopmentStudio中数据挖掘设计器内的查看器来浏览算法发现的趋势和模式。还可以使用该设计器中的工具(如,提升图和分类矩阵)来测试模型创建预测的性能。这些工具要求使用您在模型生成步骤中从原始数据集内分离的测试数据。
(七)部署和更新模型
数据挖掘过程的最后一步就是将性能最佳的模型部署到生产环境。
当生产环境中部署了挖掘模型之后,便可根据您的需求执行许多任务。下面是一些可以执行的任务:
使用模型创建预测,然后可以使用这些预测做出业务决策。SQLServer提供可用于创建预测查询的DMX语言,同时还提供有助于生成查询的预测查询生成器。
直接将数据挖掘功能嵌入到应用程序。您可以包括分析管理对象(AMO)或一个包含一组对象(应用程序可使用这组对象创建、更改、处理以及删除挖掘结构和挖掘模型)的程序集。另外,可以直接将XMLforAnalysis(XMLA)消息发送到AnalysisServices实例。
更新模型是部署策略的一部分。随着单位传入的数据不断增多,必须重新处理模型,以便提高效用。
三、具体实现
(一)建立数据库
首先建立数据库,在数据库中建立了一个数据表,将初始数据导入数据库中。
(二)数据预处理
对登录记录清单表中的数据进行了预处理,主要包括:
1.为提高数据分析和挖掘的效率,将内容为零的属性进行了删除
由于需要分析的是流量与其他属性的关系,所以流量为零以及使用时长为零的记录没有分析价值,将这些记录进行了删除。
2.增加LogID作为记录的唯一标识
由于使用时长对使用流量有很大的影响,为排除这一干扰因素,增加了平均流量这一属性,且属性值通过使用流量/使用时长获得。
添加了人员类别、网段、登录月、登录日等属性,对影响因素进行了分类。属性值分别由账号、IP地址、登录时间等相关属性值计算获得。
(三)利用聚类分析得出平均流量的分类
由于平均流量是一个连续值,所以要对它进行离散化。要进行离散化就要先进行分类,这里利用了SSAS中的聚类模型对平均流量进行分析(如图),得出了这样一个分类:
类别ID平均流量值
00.0-1.9
11.9-4.9
24.9-15.2
3>15.2
在登录记录清单表中增加一属性平均流量类别(AvgFluxLevel),根据平均流量的值写入平均流量的类别值。这样平均流量就被转换成一个离散的值平均流量类别进行分析。
(四)利用决策树、NaïveBayes模型得出影响流量的因素
再次导入更新后的数据源,并利用决策树和NaïveBayes模型进行分析。这两个模型中,LogID为Key,AvgFluxLevel为预测量,LogMonth、NetSegment等为输入量。
(五)得到的结果
(1)通过决策树模型的分析,我们可以得到上网时间、网段、人员类别等属性对流量的影响。
(2)通过NaïveBayes模型,我们可以得到各个属性之间的相关性。通过将链接强弱的滑块向下移动,我们可以得知,对平均流量级别影响最大的因素是人员登录的月份。
四、讨论和评价
通过对上网记录数据的挖掘,我们得到了网段、登录时间、人员类别等主要因素对于流量的影响。通过这些结果,网络管理人员可对网络流量的设置进行一定的调整,使得网络资源的利用更加有效。
预想的获得流量与在线时间之间的关系还挖掘的不够。希望以后在增加相关数据的基础上,能对数据挖掘技术进行进一步的研究,能够等到更加实用的模型。
参考文献:
[1]JiaweiHanMichelineKamber.数据挖掘概念与技术(第一版)[M].机械工业出版社,2001
[2]W.H.Inmon,王志海.数据仓库(第2版)[M].机械工业出版社,2000