计算机研究生推荐方向(6篇)
计算机研究生推荐方向篇1
[关键词]电子商务推荐系统协同过滤
一、引言
随着互联网的广泛普及,电子商务对传统的商务交易产生了革命性的变化,产生从以商品为中心到以用户为中心的商业模式的转变。新的商业环境在为企业提供新的商机的同时,也对企业提出了新的挑战。围绕用户进行服务,为用户提供所需要的商品,所以对每个用户提供个性化的服务成为必要。电子商务推荐系统成为解决问题的重要途径。而协同过滤推荐是目前研究最多、应用最广的电子商务推荐技术。
二、电子商务推荐系统
电子商务推荐系统定义为:利用电子商务网站向用户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。它是一个基于用户网上购物的以商品为推荐对象的个性化推荐系统,为用户推荐符合兴趣爱好的商品。分析用户的消费偏向,向每个用户具有针对性地推荐的产品,帮助用户从庞大的商品目录中挑选真正适合自己需要的商品。电子商务推荐系统在帮助了用户的同时也提高了用户对商务活动的满意度,换来对电子商务站点的进一步支持。
三、协同过滤推荐技术
1.基于用户的协同过滤,基于用户的协同过滤推荐技术是推荐系统中应用最为广泛的方法之一,它是基于邻居用户的兴趣爱好预测目标用户的兴趣偏好。算法先使用统计技术寻找与目标用户有相同喜好的邻居,然后根据目标用户的邻居的偏好产生向目标用户的推荐。它能够通过用户间的相互协助、根据用户对项目的评价的相似性对用户进行分类,其次,在基于用户的系统过滤系统中,所有用户都能从邻居用户的反馈评价中得益,当然,基于用户的协同过滤系统容易挖掘出目标用户潜在的新兴趣。
2.基于项目的协同过滤,基于项目的协同过滤通过先计算已评价项目和待预测项目的相似度,以相似度作为权重,加权各已评价项目的评价分,得到预测项目的预测值,基于项目的协同过滤推荐根据用户对相似项目的评分预测该用户对目标项目的评分,它基于这样一个假设:如果大部分用户对一些项目的评分比较相似,则当前用户对这些项目的评分也比较相似。
3.基于混合推荐的协同过滤,综合考虑了用户和项目这两个属性。一种是先根据项目来预测,然后用基于用户的协同过虑产生推荐;另外一种是先根据用户来预测,然后用基于项目的协同过虑产生推荐;还是一种就是分别根据基于用户和基于项目的协同过虑来加权平均产生推荐。
4.基于聚类的协同过滤,聚类技术是根据用户的兴趣类似性来进行聚类,聚类产生之后,根据聚类中其他用户对项目的评价预测目标用户对该项目的评价。有学者提出通过对服务器日志进行事务聚类和关联规则超图分割聚类获取用户的共同浏览特征,然后扫描所有的数据集合产生个性化的推荐。也有学者提出对项目进行聚类,然后在对应的聚类中搜索目标用户的最近邻居,由于每个聚类中的用户数量并不是随着项目数量的减少而线性减少,所以这种方法在用户对多个聚类中的商品均有评分的情况下效果并不理想。
5.基于关联规则的协同过滤,关联规则技术在零售业得到了很大的发展。关联规则挖掘可以发现不同商品在销售过程中的相关性。系统根据生成的关联规则模型和用户当前的购买行为向用户产生推荐。关联规则模型的生成可以离线进行,因此可以保证系统的实时性要求。
四、待解决的问题
1矩阵稀疏性。电子商务网站通常拥有大量商品,而每个用户购买或作评价的只是其中很小的一部分通常不到1%,例如亚马逊网站系统,数据的稀疏会导致算法准确率降低。在一般的协同过滤系统中,如果两个用户没有对相同的商品进行打分,即使这两个用户的兴趣爱好都相同,系统也无法得出他们之间的相似度,算法甚至找不到任何商品可作推荐。
2.冷启动问题。冷启动问题有新商品问题和新用户问题两类。新商品问题是指一个新商品刚加入的时候,没有人或很少人评价,则这个商品很难被推荐出去,这就需要推荐系统引入一些新机制来激励用户多作评价。新用户问题是指推荐系统中对用户的分类是依据目标用户与其他用户的比较,这种比较主要基于不断累积的用户评价。如果一个新用户从未对系统中的项目进行评价,则系统无法获知他的兴趣点,也就无法对他进行推荐。
3.可扩展性。随着用户和项目数量急剧增加,在整个用户空间上搜索目标用户的最近邻居比较耗时,难以满足推荐系统的实时性要求。主要由于基于用户或项目的协同过滤算法需要扫描整个数据库来计算相似度,因此随着数据库中记录的增加,其计算复杂度呈指数级别增长,导致推荐系统性能急剧下降。一种可能的方法就是用聚类分两阶段来解决问题。离线阶段对用户或项目进行分类,在线阶段就可以直接到规模小很多的聚类中心找到最近邻居并产生推荐。
4.隐私保持问题。协同过滤中隐私保持问题近年来也引起了越来越多学者的研究兴趣。数据挖掘中隐私保持是近年来学术界的一个研究热点,已在很多协同过滤中取得了成果。有基于加密的技术和随机扰乱技术解决方案。也有用对等网络结构的协同过滤推荐隐私保持问题的技术方案。
五、总结
电子商务推荐系统,一方面有助于电子商务网站内容和结构自适应性的实现,另一方面在帮助用户快速定位感兴趣的商品的同时也为企业实现了增值。而协同过滤与其他推荐方法比较有许多不可替代的优化,本文对协同过滤推荐技术进行了介绍,并对存在的问题进行了概述。目前,国内的电子商务网站在这方面的实践处在快速发展的阶段,因此还需要继续研究出更智能、更优化的协同过滤推荐技术。
参考文献:
计算机研究生推荐方向篇2
Abstract:Thispaperaimsatcollegelearningresourcesinformationsurplusproblemandfailureinpersonalizedresourcesrecommendationforlearners.Inviewoftheresearchenlightenmentofe-commercepersonalizedrecommendationmodel,thispapertriestoapplycollaborativefilteringtechnologytocollegelearningresourcesforpersonalizedrecommendationtechnologyresearch.Thispaperanalyzesthetypesofcollaborativefilteringtechnologypersonalizedrecommendationsystemandtheproject-basedrecommendationsystemmodelprocess,andfinallyanalyzestheapplicationprocessofcollaborativefilteringtechnologyinthecollegelearningresourcescombinedwithcaseanalysisandproposestheimprovementmethodinviewoftheproblemsexistingincollaborativefilteringalgorithm.
关键词:学习资源;协同过滤算法;个性推荐
Keywords:learningresources;collaborativefilteringalgorithm;recommendation
0引言
随着大数据时代到来,信息无限膨胀,目前高校网络学习资源平台不断完善以及使用系统读者越来越多,海量数据资源,使得高校师生在平台搜索资源效率急剧下降,面对大量的搜索结果信息常常无法快速而精准选择到有用信息。目前用户在学习资源平台查找学习资料主要通过搜索技术,最经常使用的是关键字搜索,这种被动式搜索无法根据用户偏好特征主动推送客户感兴趣学习资源,影响客户选择价值资源效率。个性化推荐技术应用正解决了传统被动式检索问题,个性化推荐系统正是一种崭新的智能个性化信息服务方式,它以客户需求为导向,或通过对用户个性特征、行为习惯、个人偏好的等个性化特征分析,精准地向用户推送感兴趣的信息和服务的推荐技术。鉴于此,文章系统描述了个性推荐系统技术以及其工作原理。
1协同过滤推荐技术概述
2协同过滤推荐技术算法实现过程
针对高校学习资源,比较适合采用基于项目协同过滤技术,基于项目之间相似度计算可以离线进行,这个提升了用户对系统响应速度。而且不同客户共同购买的商品数比较小,所以商品之间计算相似度,速度会更快。协同过滤个性推荐系统实现过程主要包括三个不部分,第一是收集数据源,第二是计算产品或用户相似推荐算法,第三是推荐用户或推荐产品。推荐系统把用户模型中兴趣需求信息和推荐对象模型中的特征信息匹配,同时使用相应的推荐算法进行计算筛选,找到用户可能感兴趣的推荐对象,然后推荐给用户。如图1所示。
2.1信息源收集
高校学习资源,主要包括图书,文献,杂志,论文等,图书馆保存有学生和教师借阅图书和文献记录,则可以筛选字段学生id和书名或者图书id等信息,用户对图书资源评分,转换如表1,0表示未借阅,1表示已借阅。
2.2计算产品推荐相似度
计算相似度是协同过滤技术最核心步骤,计算产品与产品之间相似度,是通过用户i对产品j,共同评分所有资源集合,即获得用户-资源评分矩阵表。然后通过余弦相似度相似性度量方法来计算产品相似度。
将向量根据坐标值,绘制到向量空间中。求得他们的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征,这两个向量的相似性。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。
计算机操作系统:Cos12=0.67;Cos13=0.67;Cos14=0;
2.3获得项目-项目相似表
通过两表差集,过滤重复条目,得出以下结果,如表2。
选择余弦值相似度比较高设置过滤余弦相似度小于0.6的条目,则最后得到满足条件是2条,如表3。
2.4关联原表对读者产生推荐
3协同过滤算法缺陷以及解决方法
3.1数据稀缺问题
由于图书资源数量比较多,而且读者是比较少的,对资源评分只是一小部分,那么会导致读者-资源评分矩阵数据将会是稀疏的。数据稀疏,难以产生产品相似集。针对稀缺矩阵问题,在实践中可以采用多种方法解决,方法一,可以通过标签系统方式,把未评分的图书给它打上标签。而这个标签是可以参考已有评分资源的。方法二,可以通过人为的,专家打分。方法三,可以设置默认缺省值来代替(可以取资源评分的均值)。方法四,可以通过项目评分预测法,通过计算资源条目之间的相似性,读者对相似项目评分来预测读者对未评分项目的评分[8]。
3.2冷启动问题
对于新读者而言,由于他没有借阅过任何图书,系统中没有该读者任何访问或者借阅记录,所以系统无法为其找相似邻居集,而不进行推荐。对新的资源也是如此,无任何用户对该资源进行评分,无资源评分记录,就无法被协同过滤算法进行推荐。针对冷启动问题,可以将新资源属性与其他有评分资源进行聚类分析,新资源所属的类的特征以及评分值大小,可以将类中评分值设置为新资源评分。
4结语
协同过滤个性化推荐系统应用在高校学习资源平台进行,对于高校师生高效积累学习资源和提升学习效果具有重要意义。
①实现了精准推荐服务不仅可以提高学习个体学习兴趣,还可以提供服务质量,可以有效的保留用户,提高对平台应用忠诚度,有助于学习资源平台发展优化建立人气。②如果高校学习平台具有电子商务功能提高电子商务网站的交叉销售能力,并将且在的浏览者转化购买者。比如在平台中增加二手图书购买,若借用个性推荐系统,不仅提升用户体验满意度而且促进购买。
参考文献:
[4]邓爱林.电子商务推荐系统关键技术研究[D].上海:复旦大学,2003.
[5]王永固,邱飞岳,赵建龙,刘晖.基于协同过滤技术的学习资源个性化推荐研究[J].远程教育杂志,2011,3.
计算机研究生推荐方向篇3
【关键词】协同过滤信任度相似度电影推荐
一、引言
随着互联网的发展,人们很难再海量的数据中快速找到自己需要的资源,很多网站想挖掘用户的偏好向用户推荐他们感兴趣的物品,协同过滤是最常用的推荐技术[1]。推荐技术主要有基于物品的推荐与基于用户的推荐及混合推荐三种。许多研究人员提出了不同的算法来提高推荐可靠性,如采用不同聚类方法的协同过滤[2]。本文采用基于用户的推荐方法,最后实验表明改进后的方法比传统协同过滤算法更可靠。
二、传统协同过滤推荐算法
传统的协同过滤的一般过程是根据用户评分对用户进行相似度的计算,根据相似度找到用户的邻居用户,然后由邻居用户的喜好来预测评分进行推荐[3]。
用户相似度的计算是产生邻居用户并根据邻居用户进行个性化推荐的重要步骤,Person相似度算法是常用的相似度计算方法。设用户u和v共同评分过的物品集合为Iuv,则相似性sim(u,v)为:
3.1相似度的修正
3.2引入信任度
传统的协同过滤算法在预测用户关于物品的评分时,只考虑了两个用户间的相似度,而忽视了该评分或该用户是否可信。景民昌等人提出“专家信任度”的概念[4],用来衡量用户向其他用户提供可靠信息的能力。用户u关于物品i的评价可信度为
4.1数据集和评价标准
本文采用MovieLens站点提供的ml-100k公开数据集,对提出的算法优化并传统的协同过滤算法进行了对比实验。该数据集包含了943个用户对1682部电影的100000条评分,评分范围是1到5分。
进行实验时,将实验数据的20%用户划为测试集,其它80%用户为训练集。利用训练集用户对测试集用户进行推荐。
采用均方根误差RMSE(RootMeanSquaredError)来衡量预测结果与用户真实评分之间的误差。
4.2实验结果
本文通过实验来比较传统协同过滤算法与综合改进的协同过滤算法的性能,在邻居数为50的情况下,传统协同过滤算法得到的RMSE为1.15,改进的算法RMSE为0.93,改进的协同过滤方法有较小的误差。由此可知,与传统的相似性度量方法相比,本文提出的改进可以显著地提高推荐系统的推荐质量。
五、结语
本文介绍了协同过滤的基本原理,提出了一种改进的协同过滤算法,一定程度上提高了推荐准确度和可靠性,但实验中仍存在一些问题,有待进一步研究。
参考文献
[1]项亮.推荐系统实践[M].北京:人民邮电出版社,2012:3-4.
[2]王国霞,刘贺平.个性化推荐系统综述[J].计算机工程与应用,2012,48(7):66-76.
计算机研究生推荐方向篇4
关键字协同过滤;个性化推荐;稀疏性
中图分类号TP39文献标识码A文章编号1674-6708(2013)97-0232-02
0引言
随着网络和电子商务的迅猛发展,用户可以在网上随意寻找自己感兴趣的商品,但随着信息爆炸式增长,用户在这过程中浪费了很多时间,个性化推荐系统对电子商务网站的业绩有很深的影响,其主要作用表现在以下几方面:可以把随意浏览网站的潜在客户转变为实际购买者;提升电子商务网站交叉销售能力;提升客户对网站的忠诚度。其中协同过滤技术是目前运用最广泛的个性化推荐技术。
1协同过滤算法
协同过滤技术是通过收集整理过去用户产生的数据来寻找邻居用户,其基本原理是根据相似用户的兴趣来推荐当前用户没有参与但是很有可能会感兴趣的项目,所基于的假设是如果两个用户兴趣类似,那么很有可能当前用户会喜欢另一个用户所喜欢的项目。协同过滤推荐技术分为3个阶段:评分数据表示;最近邻居形成;推荐项目集产生
1)评分数据表示:将用户对于项目的评分收集整理后描述成一个的用户-项评分矩阵,其中m表述用户数,n表式项目数。矩阵中元素表述用户对项目的评分;
2)最近邻居形成:指根据项目评分矩阵来发现目标用户的最近邻居。协同过滤技术是通过计算用户之间的相似性来找到目标用户的最近邻,所以算法的关键就在于如何准确找到目标用户的最近邻。常用的用户之间的相似度算法有Pearson相关系数和余弦相似性;
3)推荐项目集产生:目标用户的最近邻居集产生后,可以得出目标用户对未评分项的预测分,将分值按照高低排列,产生TOP-N的推荐项目集合;
这就导致了协同过滤技术过分依赖于用户评分,但目前电子商务网站的用户和商品数量一直在上升,同时用户对商品项的评分却非常稀少,通常在1%以下,使得用户-项目评分矩阵过于稀疏,导致个性化推荐质量下降:
1)评分矩阵稀疏使得寻找最近邻的准确度降低;
2)冷启动(cold-start)问题,此问题是稀疏性的极端情况,指当新用户或新项目进入到推荐系统中时,由于没有历史数据,导致无法产生推荐集。
针对评分矩阵稀疏性问题许多研究人员对协同过滤算法提出了改进,本文系统的归纳和分析了各算法的研究情况,同时为协同过滤算法提供了几点研究方向。
2改进的协同过滤算法综述
2.1结合项目相似性和时间函数的协同过滤算法
刘芳先等分析传统协同过滤算法的局限于以下三点:
1)传统算法对于用户之间的相似度是通过两用户共同给予的项目评分来计算的,却没有考虑项目是否相关,如一用户对于某书籍的兴趣可能跟他看过的书有关,而跟他评价过的服装没关系;2)随着时间变化用户的兴趣也会变化的,这点传统算法却没有考虑到;3)传统的协同过滤算法在计算项目间相似性,没能将项目特征考虑在内,导致相似性度量不够准确。
在此基础上刘芳先提出来改进算法,其主要思想是将项目的相关性引入到用户相似性的计算公式中,同时在预测新目标项的得分时引入了时间加权函数,时间加权函数能反映出用户对最近点击的项目兴趣较大,新数据对于预测得分影响大,而旧数据体现的是用户之前的兴趣,所以在预测上占权重较小。
这种改进算法在计算用户相似性的时候引入项目相似度,这样可以在一定程度上减少不相关的项目对于推荐结果的影响,同时将时间函数引入了预测得分的公式中,一定程度上反映出随用户趣变化得到推荐集也不同。但是这算法依然对用户-项目评分矩阵依赖性太大,不利于解决数据稀疏性问题。
刘勇在分析了计算项目相似度时碰到的问题:当两项目只有很少用户给予评分,同时给予评分的用户所关注的项目特征可能不是目标用户所关注的特征,这会导致推荐质量下降。基于这类问题,刘勇提出了改进的相似度计算公式:
Mutual_num表示对于项目i、j都评分的用户数目,item_num表示对项目i,j中任何一个有评分的用户集合数目。
2.2降维处理
文献[7]为了降低项目评分矩阵的稀疏性,提升推荐精度,提出了一种基于主成分降维技术和K-means聚类的混合协同过滤新算法。算法先对用户-项目矩阵进行缺失值填充,然后运用主成分分析技术提取主成分因子,在降低矩阵的维数同时保证大部分信息没有损失,在降维后的向量空间上进行K-means聚类,找到目标用户的最近邻,最后得到目标用户对于未评分项目的预测值,从而产生推荐集。该算法在一定程度上缓解超高维空间寻找最近邻问题。
文献[8]提出了基于项目聚类的协同过滤,算法主要思想是结合项目评分与项目属性的项目相似度,再对项进行聚类。聚类可以通过一些聚类算法将项和用户聚成若干子类,再在各小类中产生推荐集。张娜等先计算项目相似度再用k划分聚类算法进行项目聚类,产生k个用户-项目子矩阵,然后对已有的项目聚类结果用k划分算法进行客户聚类,最后在目标用户所在的几个矩阵中寻找最近邻。
2.3结合基于内容推荐的协同过滤算法
文献[10]在分析了传统协同过滤在处理新项目和新用户问题上的瓶颈提出了结合基于内容推荐的协同技术。协同过滤算法过分依赖于用户评分,而对于新项目和新用户没能产生评分数据,推荐集中就不会出现,但基于内容的推荐算法对于每个用户都有用户描述,其中记录了用户感兴趣的内容。可以根据用户喜好和项目的特征信息,推荐给与目标用户特征相似的项目,这就能较好的解决这一问题。
虽然这算法可以一定程度上解决“新项目”问题,但也存在一定的局限:用户或项目特征提取能力有限,目前只能进行简单的提取,对于项目特征不能做到准确的定位,基于内容的推荐现阶段只能对文本内容提取,而对于一些影像,图像很难做到提取特征。
2.4结合基于关联规则的协同过滤算法
文献[11]提出了一种结合关联规则和协同过滤的算法,其主要思想是:先通过关联规则在商品项中找到频繁项,再将这些频繁项捆绑在一起对目标用户进行推荐,这就可以更好更多的产生推荐集了。但是目前这方面算法研究还处于初级阶段,可以从以下几方面进行进一步的研究:1)如何将Web日志预处理更好的融入到协同过滤中去;2)面对数据快速更新速度,如何剔除无用的信息,保证推荐及时性和准确性;3)如何更好的将这一推荐技术应用到实践中。
2.5其他的一些改进算法
傅鹤岗[12]等在分析了传统协同过滤算法在用户数量快速增长的时代下所需要付出的代价很大,提出了基于模范用户的协同过滤算法。其主要思想是:用户的兴趣常集中在某几个特定区域,可以先对用户进行聚类,使得类内相似度高而类间相似度低,再在这基础上产生推荐集。施凤仙[13]等提出了结合项目区分用户兴趣度的协同过滤算法,其主要思想是在计算用户相似度时对于不同的项目所占的权重不同,因为用户对于很多大众流行产品评分很高但不能真正反映用户的兴趣度,
3总结与展望
随着电子商务迅速发展,用户及商品项都呈现爆炸式增长,同时用户对商品项的评分又过于稀少,导致数据过分稀疏,对于未来个性化推荐系统发展来说这是个瓶颈。本文总结了大量研究人员提出的改进算法,这些算法在一定程度上能解决数据稀疏性问题。但这一问题一直都存在,因此对该算法如何改进还需要进一步研究探讨,下一步的工作可以从以下几方面进行:
1)建立一套完善的评分激励制度。这可以从根本上解决数据稀疏性问题,完善的激励制度可以使得用户愿意客观的去给予商品项评分,通过这项制度,可以得到更多准确,可信度高的评分项,从而利于推荐系统产生推荐集;
2)与政府及企业部门共享客户资料。目前的政府和企业都有一套完善的管理系统,其中包含了很多个人信息,如果可以将这些信息和电子商务网站上的客户信息整合,那数据稀疏性问题可以得到一定程度的解决;
3)如何将新的评价替代旧的评价。用户的兴趣会随着时间变化,用户对于某商品项的评价也会改变,在推荐系统中如何快速有效的用新评价来替代旧评价有待于进一步的研究。
参考文献
[1]赵亮,胡乃静,张守志.个性化推荐算法设计[J].计算机研究与发展,2002,39(8):986-990.
[2]SarwarBM.Sparsity,scalability,anddistributioninrecommendersystems[D].Minneapolis,USA:UniversityofMinnesota,2001.
[3]ParkST,PennockD,MadaniO,etal.Na?vefilterbotsforobustcold-startrecommendations[A].In:Proceedingsofthe12thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining[C].NewYork,USA:ACMPress,2006:699-705.
[4]刘芳先,宋顺林.改进的协同过滤推荐算法[J].计算机工程与应用,2011,47(8):72-75.
[5]张丙奇.域知识的个性化推荐算法研究[J].计算机工程,2005,31(21):7-9.
[6]刘勇.基于项目相似度计算改进的协同过滤算法[J].商场现代化,2007,520:84-85.
[7]郁雪,李敏强.一种结合有效降维和K-means聚类的协同过滤推荐模型[J].计算机应用研究,2009,26(10):718-3720.
[8]鲁培.一种改进的基于项目聚类的协同过滤推荐算法[J].科技传播,2011,1:205-206.
[9]张娜,何建民.基于项目与客户聚类的协同过滤推荐方法[J].合肥工业大学学报,2007,30(9):1160-1162.
[10]AdomaviciusG,TuzhilinA.TowardtheNextGenerationofRecommenderSystems:ASurveyoftheState-of-the-artandPossibleExtensions[J].IEEETransactiononKnowledgeandDataEngineering,2005,17(6):734-749.
[11]裘立波,姜元春,林文龙.基于关联规则和协同过滤的网络商品捆绑方法研究[J].计算机与现代化,2009,9:169-172.
计算机研究生推荐方向篇5
关键词:
中图分类号:TP391.3文献标识码:B文章编号:2095-2163(2011)01-0051-05
0引言
词语相似度计算[1-2]研究的是采用怎样的方法来计算或比较两个词语的相似性。词语相似度计算在智能检索、文本聚类、文本分类、自动应答、机器翻译等领域都有广泛的应用。在不同的应用中,词语相似度有不同的用途,例如,在基于实例的机器翻译中,词语相似度能够表示文本中两个词语的可替换程度;在信息检索中,利用词语相似度能够提升信息检索的准确率和召回率;在问答系统中,答案和问句的符合程度可以通过计算两者含有词语之间的相似度来衡量。本文将研究词语相似度计算在英文辅助写作系统中的应用。
1英文辅助写作系统
英文辅助写作系统是一个英汉双语的例句检索系统,用户可以使用中英文双语检索自然语言处理领域英文论文中的地道例句,同时获得例句所属论文的相关信息(作者信息、论文题目、论文的来源),为写作英文学术论文的用户提供帮助。用户可以输入想要表达的中英文词组和短句,系统会为用户查找与输入相似的自然语言处理领域的文章中的地道的英文例句,用户可以通过观察和学习检索到的例句,组合出地道的、满足需要的英文表达。该英文辅助写作系统主要功能如下:
(1)英文短语搭配推荐生成
主要针对两个词的query输入,给出语义相似的搭配推荐。用户可以比较推荐的搭配和输入,选择出更地道的英文表达。系统短语搭配参考结果页面如图1所示。
(2)翻译推荐生成
建立中译英的统计机器翻译系统,其中语言模型的语料选用的是ACLAnthology抽取的共1716418句的语料,可以体现出更地道的英文表达。翻译模型的语料采用的是CNKI的摘要,这是个大规模的双语平行语料。对用户的每个中文查询词,后台的在线机器翻译系统进行翻译,返回前十的nbest的结果,以供用户选择。同时用户输入的中文query后返回的英文检索结果是按照评分最高的翻译进行检索获得的结果。系统翻译候选结果页面如图2所示。
(3)同义词推荐和单个输入的搭配推荐
①同义词推荐:利用WordNet生成单个词query的同义词推荐,包括其可能的四种词性的同义词推荐,分别为名词的、动词的、形容词的和副词的。
②单个输入的短语搭配推荐
与(1)的短语搭配参考类似,只是需要其短语搭配生成的步骤。这里短语搭配推荐可能有很多,不便于在页面全部显示,所以按照其在检索库中的精确匹配次数进行排序,只取前五个搭配在页面显示。同义词和短语搭配推荐的结果均按照其在检索库中的精确匹配次数排序后以降序的顺序显示。系统单个输入的同义词推荐和常用搭配推荐结果页面如图3所示。
(4)例句检索库:检索的语料来源于ACLAnthology[3]从1979年至今的所有论文中有相关信息(题目、作者等)的文章的句子。文章总数8173篇,总句子规模有1716418句。语料库特点是句子都是地道的英文表达。
用户在实际使用该系统时,输入的检索词往往不能准确地检索到所需的例句,因为用户初始是不知道地道的英文表达的,这就导致用户可能需要进行多次检索,才能检索到最理想的例句,也可能一直检索不到,这将影响到用户使用的满意度。因此,需要给用户提供查询的相关词提示功能,帮助用户更快更好地使用该系统。该检索系统的相关词提示功能有多种,包括同义词推荐,两个词相似搭配推荐、单个词常用搭配推荐等等。笔者在本文中主要研究在该系统背景下的同义词推荐生成方法。
在该检索系统的实际运行过程中,发现用户在使用同义词推荐功能时,主要关注同义词推荐的第一个词是否是在自然语言处理领域中与查询词最相似的词。考虑到这一用户需求,首先利用语义词典WordNet生成通用领域的同义词候选集,然后进行特定语境环境下的词语相似度计算,对同义词候选集进行排序,为用户提供高质量的同义词推荐功能。
2相关研究
2.1WordNet
英文WordNet[4]是普林斯顿大学认知科学实验室开发的一部在线词典数据库系统,是基于英文的词汇语义网络系统。WordNet本质上是一个词汇概念网络,描述的是概念间的各种语义关系,WordNet中也规定了动词、形容词和副词的语义知识表示规范,其核心都是synset(同义词集合)以及概念之间的各种关系。
2.2词语相似度研究现状
国内外对词语语义相似度的计算方法大体可分为两类:基于统计的词语语义相似度计算方法[5-6]和基于语义词典的词语相似度计算方法[7-9]。
基于统计的词语语义相似度计算方法是经验主义方法,是把词语相似度的研究建立在可观察的语言事实上,而不仅仅依赖于语言学家的直觉。这种计算方法是建立在两个词语语义相似当且仅当这两个词语语义处于相似的上下文环境中这一假设的基础上,通过利用大规模语料库,将词语的上下文信息作为语义相似度计算的参照依据。
基于语义词典的词语相似度计算方法是基于语言学的理性主义方法,是利用语义词典,依据概念之间的上下位关系和同义关系,通过计算两个概念在树状概念层次体系中的距离来得到词语间的相似度。
3同义词推荐的生成方法
首先通过语义词典WordNet生成用户查询词在通用环境下的同义词候选集,然后利用基于上下文向量的特定语境下的相似度计算方法,计算同义词候选集中每个词与目标词在自然语言处理领域语境下的相似度值,最后将同义词候选集按照相似度值以降序关系排列显示给用户。
3.1同义词候选集生成
WordNet是一个英语词汇及其词法关系的数据库,同时也是一个英语词典。由于WordNet包含了语义信息,所以有别于通常意义上的字典。WordNet根据词条的意义将其分组,每一个具有相同意义的字条组称为一个synset(同义词集合)。WordNet为每一个synset提供了简短、概要的定义,并记录不同synset之间的语义关系。WordNet的开发有两个目的:其既是一个字典,又是一个辞典,但比单纯的辞典或字典都更加易于使用,而且支持自动的文本分析以及人工智能应用。PyWordNet通过一些专门的工具方法将WordNet数据公开为一组Python数据结构。PyWordNet被组织成四个词典,分别对应WordNet2.0的四个部分――名词、动词、形容词和副词。词汇的单词形式是主键,每个记录都包括含义(sense)、同义词组(synonymset)、注释(glosse)和指针(pointer)。
本文通过pyWordNet提供的接口访问WordNet数据库,从而获得用户查询词的同义词候选集列表。此时获得的同义词候选集列表是通用环境下的同义词,而且被认为与查询词的相似度都是相同的。但在特定语境环境下,这些同义词与查询词的相似度会出现不同,考虑到在向用户推荐时,需要把与目标词相似度最高的词排在最前以供用户优先选择,因而需要计算这个同义词集在特定语境环境下与目标词的相似程度。
3.2特定语境环境下的相似度计算方法
3.2.1上下文词语同现向量(CWCV)
特定语境环境下语义相似度计算方法建立在两个词语语义相似当且仅当这两个词语语义处于相似的上下文环境中这一假设的基础上。为了计算两个词语之间的语义相似度,需要从语料中统计词语的上下文信息。在本文中,为每一个需要计算语义相似度的词语构造上下文词语同现向量(CWCV)。
CWCV的定义:一个词语的上下文环境中含有丰富的有关该词的语义信息,在不同的上下文中一个词语往往具有不同的语义,因而可以用在上下文环境中与目标词以某种关系同现的、所有词语构成的向量来表示目标词语,这个向量就是CWCV。
3.2.2词上下文向量的生成
(1)通过简单的浅层句法分析,将训练集中所有文本的每一个句子都分解为若干个句法组,删除不太重要的句法组后,标记其中的核心词和修饰词。
(2)以一个关键词为中心,以句子为共现单位,通过对训练集内该词语的上下文词语进行统计,得出该词语的词上下文向量。用同样的方法得到其它关键词的词上下文向量。
利用上述方法生成的词上下文向量矩阵为:TCV[i][j]=?邀Cij?妖,其中,i和j的取值范围为[1..n],Cij为小于1的实数,表示第i个词语ti与第j个词语tj之间的上下文关系;第i行的值集合(Ci1,Ci2,…,Cin)即为第i个词语ti的词上下文向量,表示训练集中的n-1个词语与ti之间的上下文关系,可以看作是ti在训练集中的语义描述。
词上下文向量生成算法的主要步骤如下:
步骤1:用浅层句法分析工具将训练集中所有文本的所有句子都分解为句法组,只保留名词句法组和动词句法组,每个保留下来的句法组内进一步删除名词、动词、形容词之外的其它类型的词语,并区分出其中的核心词和若干个修饰词。
步骤2:设置并初始化词上下文向量矩阵TCV[n][n]。
步骤3:生成矩阵,具体算法为:
for(i=0;i<训练集中的句子总数;i++)
for(j=0;j<句子中的词语个数;j++)
?邀
wij=第i个句子中的第j个词语;wik=第i个句子中的第k个词语;
if(wij和wik位于同一组且具有修饰关系或位于不同的句法组但都是核心词)
R=1;elseR=α;
noij=wij在向量空间特征集中的序号;noik=wik在向量空间特征集中的序号;
TCV[noij][noik]=TCV[noij][noik]+R;
?妖
步骤4:对TCV中每一个不为空的向量都进行规格化。
3.2.3基于词上下文向量的词语相似度计算
在上述词上下文向量矩阵的基础上计算任意两个词语之间的相似度,具体方法是:给定两个词语,从词上下文向量矩阵中分别提取各自对应的词上下文向量,直接计算这两个向量之间的余弦系数并将其作为词语之间的相似度值,计算结果保存到相似度矩阵中。词语相似度矩阵Sim的计算公式如下:
其中,Sim为下三角矩阵,i≥j,TCV[i]、TCV[j]分别为词语ti和tj的词上下文向量,Sim[i][j]为词语ti和tj之间的相似度,TCV[i][k]、TCV[j][k]分别为词语ti和tj的词上下文向量第k维的权值。
4系统相关实验
由于词语相似度是一个主观性很强的概念,现在还没有一个合适的词语相似度计算测试集,所以在本课题中的测试集来源于ACLAnthology随机选取的100个单词。文中通过人工观察的方法对这100个单词的同义词集相对于查询词进行排序,将该排序结果设定为参考排序,然后与系统排序进行比较。由于人工观察的方法主观性太强,同时用户在使用时主要关注与查询词最相似的词是否排在第一位,所以设定当人工观察排序结果中最相似词排在系统排序中的第一位且系统排序与人工排序最多有一个顺序不一致时,认为系统排序结果基本正确,并记录这100个单词的人工判定的最相似词在系统排序结果中的位置。
这里设定的baseline方法是只使用WordNet产生的同义词获选集的方法。
文中采用以下指标对算法进行评价:
(1)准确率(precision)的评测公式如下:
其中,N■表示的是测试的单词总数,当人工观察的最相似词排在系统排序中的第一位且系统排序与人工排序最多有一个顺序不一致,此时认为系统排序结果正确。Ncorrect为系统排序结果判定为正确的个数。
(2)排序倒数(ReciprocalRanking,RR)是算法返回结果中正确结果出现位置的倒数,平均排序倒数是多次计算的RR的结果的平均值,利用如下公式:
其中,N表示测试单词总数,ni表示对于第i个查询单词的人工判定的最相似词在系统排序结果中位置ni。
(3)查询输入在例句检索系统中精确匹配次数可以直接反映该输入在自然语言处理中常见程度。例如,单词“show”在该例句检索系统中精确匹配的次数是14539,而单词“give”在该例句检索系统中精确匹配的次数是6625。第一个词明显比第二个词在自然语言处理领域中更常见。因此可以自动地通过精确匹配次数来评价同义词候选集中的每个词的常见程度。由于用户主要关注同义词推荐的第一词,所以分别记录测试集中每个词的同义词推荐在使用本文方法的排序和使用baseline方法的排序中第一个词的精确匹配次数A和B,然后两两进行比较:当A>B时,本文方法的个数增加1;当B>A时,baseline方法的个数增加1;当A=B时,本文方法和baseline方法个数不变。最后计算这两种方法的获胜比例。暂称该方法为C评价方法。实验结果如表1所示。
通过表1的准确率可以看出,本文的方法相比于baseline方法可以很好地选择出查询词的最相似词。通过MRR值可以看出,本文的方法相比于baseline方法可以对相似词语与查询词的相似程度给出一个合理的排序,即可以给检索系统提供一个准确的待扩展词的相似度排序。通过C评价方法,发现在100个测试词中,本文方法的获胜比例为44%,而baseline的方法的获胜比例只有16%,这说明本文方法产生的同义词推荐中与目标词最相似词的常见程度远大于baseline的方法。
在ACLAnthology语境下的相似度排序举例说明,对查询词cite的动词形态在WordNet的相似度和本文相似度如表2所示。
单词cite的通用环境下的同义词为refer、name、mentio-n、advert,在WordNet的相似度计算下,其相似度均为1.0,不能区分出与目标词cite的最相似词和获得相似程度的排序。而本文相似度在这里得到了较好的效果,单词refer在该语境下是与单词cite最相似的词,大量观察下这符合ACLAnthology使用情况。同时观察出单词advert在ACLAnthology没有出现,这说明在通用领域下的同义词可能在特定语境环境下与目标词完全不相似,两者不可替换。
5结束语
词语相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有着重要的应用价值。本文将词语相似度计算的知识应用到英文辅助写作系统中,结合了语义词典WordNet和基于上下文的特定语境环境下的相似度计算的方法生成有序的同义词推荐。本文的方法在准确率、MRR以及本文设定的C评价这三个指标上远优于只使用WordNet的方法,同时本文的方法在准确率的评价中达到73%,基本满足用户的需求。
参考文献:
[1]TURNEYPD.SimilarityofSemanticRelations[J].Computation-alLinguisticsJournal,2006,32(3):379-416.
[2]秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].信息系统,2007,30(1):105-108.
[3]http://aclweb.org/anthology-new/.
[4]普林斯顿大学认知科学实验室.WordNet[EB/OL].http://wordnet.princeton.edu/.
[5]BROWNP,PIETRASD,PIETRAVD,etal.Wordsensedis-ambiguationusingstatisticalmethods[C]//Proceedingsofthe29thMeetingoftheAssociationforComputationalLinguistics(ACL-91),Berkley,C.A.,1991:264-270.
[6]DAGANI,LEEL.Similarity-basedmodelsofwordcooccurrenceprobabilities[J].MachineLearning.SpecialIssueonMachineL-earningandNaturalLanguage,1999.
[7]刘群,李素建.基于《知网》的词语语义相似度计算[J].Comput-ationalLinguisticsandChineseLanguageProcessing,2002,7(2):59-76.
计算机研究生推荐方向篇6
[关键词]Web日志数据挖掘电子商务关联规则聚类算法
Web数据挖掘是数据挖掘的一个重要分支,是随着数据库技术、人工智能技术和网络技术的发展而提出的。尤其是随着电子商务的不断运作,信息总量不断增加,更迫切需要有效的信息分析工具。
当今,电子商务正以其成本低廉、快捷、不受时空限制等优点而逐步全球流行。在这种新型的商务模式下,却遇到了网络信息量和基于Web的应用的一些阻碍。一方面,没有针对性地提供信息,访问者不能快捷地获得所需;另一方面,不能快捷地在站点上寻找到感兴趣的商品,用户容易转向访问其他站点,造成客户流失,这些对站点企业来说都是致命的。
基于上述原因,商务站点“个性化”营销孕育而生。而个性化所涵盖的内容中,针对用户的推荐服务是最为重要的,因为它能够改变这种“大众化”的方式,向用户提供个性化的信息。推荐系统模拟商店销售人员向用户提供商品推荐,帮助用户找到所需商品,从而顺利完成购买过程,因此可以有效保留用户,提高电子商务系统的销售;商家也可以通过推荐系统保持与客户的联系,重建客户关系。
本文将对电子商务推荐系统中的若干关键技术进行有益的探索和研究。
一、电子商务推荐算法及改进
电子商务推荐算法是整个推荐系统的核心,其推荐精度和推荐效率直接影响推荐系统的整体性能。目前典型的推荐算法有基于关联规则的推荐算法和基于用户的协同过滤推荐算法。
1.基于关联规则的推荐算法
基于关联规则的推荐算法可以分为离线的关联规则推荐模型建立阶段和在线的关联规则推荐模型应用阶段。离线阶段使用各种关联规则挖掘算法建立关联规则推荐模型,这一步比较费时,但可以离线周期进行;在线阶段根据建立的关联规则推荐模型和用户的购买行为向用户提供实时的推荐服务。
2.协同过滤推荐算法
协同过滤推荐是目前最成功的电子商务推荐技术,被应用到很多领域中。协同过滤根据用户的行为(如用户注册信息、用户评分数据、用户购买行为等)建立用户的行为模型,然后利用建立的行为模型向用户推荐有价值的商品。用户数据的收集在协同过滤推荐算法中占有重要地位,如何有效收集高质量的用户数据直接关系到推荐算法的推荐效果。
3.基于聚类的协同过滤算法概述
随着电子商务系统的进一步扩大,协同过滤推荐算法的实时性要求遇到了巨大挑战。在一个用户和商品均数以万计的系统中,同时为数以万计的用户提供实时的推荐服务越来越困难。
为了解决推荐系统中存在的上述问题,进行实时推荐,那么就需要提高推荐的速度。因此,提出了基于聚类的协同过滤推荐算法。将整个用户空间根据用户的购买习惯和评分特点划分为若干个不同的聚类,从而使得聚类内部用户对项的评分尽可能相似,而不同聚类间用户对商品的评分尽可能不同。根据每个聚类中用户对商品的评分信息生成一个虚拟用户,虚拟用户代表了该聚类中用户对商品的典型评分,将所有虚拟用户对商品的评分作为新的搜索空间,查询当前用户在虚拟用户空间中的最近邻居,产生对应的推荐结果。
4.改进的k-means聚类算法
(1)k-means聚类算法。k-means聚类算法是最简单同时也是非常有效的聚类算法。采用k-means聚类算法对整个用户空间进行聚类的主要步骤如下:
①随机选择k个用户作为初始的簇中心,将k个用户对项的评分数据作为初始的聚类中心。
②对剩余的用户集合,计算每个用户与k个聚类中心的相似性,将每个用户分配到相似性最高的聚类中。
③对新生成的聚类,计算聚类中所有用户对项的平均评分,生成新的聚类中心。
④重复以上2到3步,直到聚类不再发生改变为止。
(2)改进的k-means聚类算法。在k-means算法中,k个中心的选取一般为随机选取或依赖于领域知识。为了更好地选取k个中心以提高聚类的质量,需要对k-means算法进行改进。算法2-1给出了改进后的算法描述。
算法2-1改进k-means算法。定义:(推荐池T)设站点共有m个页面,共有n次用户的访问,由于采用协作推荐方法,那么推荐池T就是内存中的一个n×(m+l)的矩阵。其中每一行代表一个用户访问的页面集;在前m列中,每一列表示用户对该页面的访问时间长度;每一个矩阵项表示个用户在一个页面上的访问时间,即该用户对该页面的访问兴趣度大小。第m+l列表征该行被加入到推荐池中的时间,这是为了对该推荐池保持一个按时间新旧程度运行的替换策略。
输入:初始簇K,推荐池T
输出:推荐池的中心集合CenterSet
①k=[K/2];//起始时取「K/2值作为k-means算法的初始k值。
②将评分项为0的各项以某一均值(或者设定的值)θ代替;//避免出现大规模稀疏矩阵影响推荐质量。
③initialize(T,CenterSet,k);//随机选取k个初始的中心。
④WHILEk
⑤CenterSet=k-means(T,k,CenterSet);//进行聚类操作得到k个中心//找到一个新中心
⑥max=0;newcenter=null
⑦FOReachc∈TDOBEGIN
⑧d=0;
⑨FOReachc∈CenterSetDOBEGIN
⑩d=d+distance(T,t,c);
END
IFd>maxTHENBEGIN
max=d;
Newcenter=t;
END
END
CenterSet=CenterSet∪{newcenter}
k=k+1;
END
RETURNCenterSet;
5.对改进的k-means算法进行分析
在每一遍k-means算法执行后,选取一个距离各中心距离和最大的元素作为新的中心。该算法的改进之处有三点:
(1)改变了传统的k-means算法要求用户必须事先给出k(要生成的聚类数目)值,以及对于设定的不同k值导致不同聚类结果的缺点。
(2)避免了某些页面因为没有被访问得到评分为0而形成的大规模稀疏矩阵问题。
(3)改进的k-means算法由于在每一次算法执行后是选取一个距离各中心距离和最大的元素作为新的中心,这个元素来自原来的样本数据库,原来的距离矩阵数据仍然可以重用,因此不需要重新计算每一个对象与新的平均值点间的距离。
该算法的缺点是:只有当聚类数目远小于项数目时,计算目标项与聚类中心相似性的时间代价相对于最近邻查询才可以忽略不计,当聚类数目很大的时候,计算目标项与聚类中心相似性的代价并不能忽略不计。
二、电子商务推荐系统的实现
我们将系统分为三个模块:数据预处理模块、模式挖掘模块和模式分析及应用模块。
1.实现模型
由此,基于Web日志挖掘的电子商务推荐系统的结构分成在线和离线两个部分,三个模块。如图1所示:
图1电子商务推荐系统结构图
2.离线模块
一般情况下,推荐系统的离线部分主要针对的是注册用户,根据用户提供的关键信息对推荐集合进行净化,从而在推荐页面集合上体现精确的用户感兴趣的信息,如笔者参与设计的某搜饭网,对于注册用户“馋嘴鸭”,在注册过程中,提交的用户所在地关键字是“市南区”,那么一旦该用户登录系统,则直接将跟市南区有关的推荐页面展示在用户窗口,如图2所示:
图2地区来源是市南区的注册用户推荐页面
3.在线模块
在线模式下又分成两种情况,一是注册用户登录,二是随机非注册用户。对于注册用户来讲,可以任意变更兴趣项,而推荐系统会根据用户的选择,形成推荐集合并展示精确的推荐页面,如果变更的兴趣项不包含注册用户的关键信息,则推荐集合在原推荐集中产生,这样用户得到的推荐页面更加精确。
对于随机用户,推荐页面与用户兴趣关系密切,同时其精确程度很大程度上依赖用户的兴趣项的选取。即用户的兴趣项约束越多则推荐页面越精确,这种情况是以牺牲用户时间为代价的。经过用户的一系列选择后,推荐系统最后生成推荐页面,如某随机用户对菜品类别(咖啡)、地区(市南)进行选择后生成的推荐页面。如图3所示。
图3随机用户选择后的推荐页面
三、结论
目前Web数据挖掘己逐步成为网络研究、数据挖掘、知识发现、软件等领域的热点问题。研究日志挖掘,对于优化Web站点、电子商务、远程教育、信息检索等领域,都有着十分重要的意义。然而,如何将这些技术深入、完善,并尽快运用到Internet各种应用中,是摆在我们面前的新课题。
参考文献:
[1]邹显春等:电子商务与Web数据挖掘[J].计算机应用,2000.4
[2]P.Buono,M.F.Costabile,S.Guida,A.Piccinno,G.Tesoro,IntegratingUserDataandCollaborativeFilterinaWebRecommendationSystem,UM2001-Proc.ThirdWorkshoponAdaptiveHypertextHypermediaSonthofen,Germany,July2001,129-140
[3]FayyadU,Piatetsky-ShapiroG,andSmythP.Knowledgediscoveryanddatamining:Towardsaunifyingframework
[4]GrdonS.Linoff,MichaelJ.A.Berry著,沈均毅等译.Web数据挖掘:将客户数据转化为客户价值[M].电子工业出版社,2004.3