当前位置: 首页 > 范文大全 > 办公范文

医学知识图谱(精选8篇)

时间:

医学知识图谱篇1

医学知识图谱应用

8.1基于医学知识图谱的问答

医学知识图谱与问答系统的融合是目前极具挑战性的研究方向,同时也是典型的应用场景。基于知识图谱的医疗问答系统可以快速响应医患用户提出的问题,并给出准确、有效的解答。下面将从问答系统的实现方法、实际应用、关键挑战3个方面进行阐述分析。

(1)实现方法

本文参考了近3年的研究进展,总结出医疗领域基于知识图谱的问答系统主要有两种实现方法:检索式和生成式。其中,检索式主要面向系统构建的知识图谱,生成式主要面向系统收集的问答库数据,表8列出了可用于构建基于知识图谱的医疗问答系统的数据来源。

检索式方法就是将用户的问句转化为知识库的查询语句,再将查询的结果转化成自然语言返回给用户,其一般流程由语义提取、问题匹配以及答案查询3个部分组成,如图2所示。

语义提取指从用户提出的问句中提取出涉及的医学实体、关系等语义信息,主要包括实体识别和关系抽取两部分,可以采用词典匹配、传统机器学习、神经网络甚至平台工具(如哈尔滨工业大学语言云平台)等方法。参考文献[46]基于自定义词典的Jieba分词匹配获得问句中的实体。

参考文献[47]中的DIK-QA系统使用BiLSTM-CRF神经网络模型抽取问句中的医疗实体,并在该模型中引入注意力机制,以提高实体识别的准确度。参考文献[48]借助哈尔滨工业大学语言云平台的LTPParser接口进行句法分析,将结果与词库内的实体进行比对,从而获取比对成功的实体和关系。

问题匹配旨在识别问句的意图,将问题进行分类,匹配预先制定的问题模板,一般采用匹配算法、TextCNN分类算法、SVM分类器等方法。HuangMX等人[47]采用AC多模式匹配算法将问句匹配到不同的问题类型上。

参考文献[38]结合术语频率-逆文档频率(termfrequency–inversedocumentfrequency,TFIDF)算法和word2vec词向量生成句子向量,匹配最相似的问题模板,根据模板的语义及问题中的实体到知识图谱中检索答案。参考文献[49-50]均采用TextCNN分类算法实现问句类型的分类。谢刚等人[51]利用支持向量机模型对问题进行主题分类和意图识别。

答案查询即根据问题模板将问题转化成查询语句,然后在知识图谱中查询问题的答案,主要通过查询语句直接检索答案或者通过推理规则得出答案。曹明宇等人[38]使用Cypher语言在Neo4j图形数据库中查询答案。参考文献[48]根据问题模板生成完整的SPARQL语言,并在甲状腺知识图谱内进行查询。BoL等人[52]使用Elasticsearch查询语言,配合简单的辅助推理算法,给用户匹配相关症状,搜索可能的疾病,并推荐适当的诊断方法。

而生成式方法则利用相关模型,根据输入的问题生成答案或者直接检索问答库,其既需要医疗领域问答对语料数据,也需要知识图谱的实体及关系数据,主要采用神经网络进行模型训练。参考文献[53]使用基于LSTM的Seq2Seq模型构建答案生成模型。参考文献[54]将记忆神经网络作为智能问答的算法模型,将知识库的知识存储在模型中,可在网络中直接调用。

(2)实际应用

虽然我国医疗问答系统起步较晚,但国内已有不少科技公司在市面上推出自主研发的医疗问答系统。如诺华制药携手腾讯合作推出的“护心小爱(AI)”,该平台以微信小程序为载体,通过对话机器人为心衰患者提供针对常规医疗问题及日常生活问题的答疑解惑,以及科学的健康资讯。再如北京慧医明智科技有限公司旗下的“慧医大白”,其使用知识图谱、语义理解和对话管理等技术手段,通过与用户进行多轮问答,了解用户的具体病症,最终提供健康评估和健康行为建议。

而在问答系统起步较早的国外市场,最出名的面向医学领域的智能问答系统是IBM的“沃森医生(Dr.Watson)”,其学习了海量的医疗数据,包括领域内的顶尖文献、诊断报告、电子病历甚至医学影像等医疗信息,利用自身庞大的知识库为患者提出的医学问题提供最佳的答案。

(3)关键挑战

目前,国内医疗问答系统的研究发展仍然存在许多的挑战,下面列举了3个主要的关键挑战。

一是针对非医学专业人员的信息需求问题,由于他们的医学专业知识不强,无法准确描述具体问题,在获取答案时会存在一定程度的困难。

二是中文领域问答系统研究不足,主要体现在3个方面:

.缺乏高质量医学领域的语料资源;

.国内医学名词术语标准化还存在整体规划缺乏、权威术语标准数量不足以及更新不及时等问题;

.构建中文领域的医学智能问答系统的工具和方法不成熟。

三是医疗问答准确性问题,提高问答系统的准确性仍然是研究的热门方向。

8.2医疗用药推荐系统

(1)简介

医学上的用药推荐与一般的推荐算法不同,一般的推荐算法是根据用户的历史记录,利用数学算法推测出用户可能的需求,已被广泛应用于电商等互联网场景。而用药推荐则是基于循证医学的原则,结合患者的具体患病情况以及医学专业知识,推荐适合的用药方案。一般的推荐算法的推荐结果对准确率的容忍度较高,即使部分推荐结果与用户需求不符,也能够接受。但用药推荐在实际应用中要求达到百分之百的准确率,即药品一定能够起到作用,且不能产生不良反应或药品间的相互作用。

知识图谱能够更加清晰准确地表达疾病与药品之间的适应关系以及药品间的相互作用,基于知识图谱的用药推荐与其他人工智能方法相比,能够取得更好的效果。目前基于知识图谱的用药推荐研究进展与其他基线水平相比有所提升,但还无法达到实际应用的要求。

(2)方法

目前医疗用药推荐系统使用的方法主要有以下两种。

第一种是图卷积网络的方法,即在图上使用卷积神经网络。2018年ShangJY等人[55]通过一个存储模块将药物相互作用(drug-druginteraction,DDI)的知识图谱集成为一个图形卷积网络,并将纵向患者向量建模作为查询,该方法在所有有效性度量方面都优于所有基线方法,并且在现有电子健康记录(electronichealthrecord,EHR)数据中实现了3.60%的DDI率降低(即推荐药品之间有相互作用的概率降低3.6%)。2019年,WangSS等人[56]提出了一种针对药物组合预测(medicinecombinationprediction,MCP)的图卷积强化学习模型。其将MCP任务转换为无序马尔可夫决策过程(Markovdecisionprocess,MDP)问题,并设计了一个深度强化学习机制来学习药物之间的相关性和不良相互作用。相比于GAMENet,CompNet在Jaccard和F1分数标准上分别提高了3.74%、6.64%。2020年,KwakH等人[57]构造了一个药物疾病图谱,使用图神经网络学习节点表示,根据学习到的节点表示来预测药物节点和疾病节点是否具有药物不良反应(adversedrugreaction,ADR)关系。与其他算法相比,该模型的接受者工作特征曲线下的面积(areaundercurveofreceiveroperatingcharacteristic,AUROC)和精度召回率曲线下的面积(areaundercurveofprecisionrecallcurve,AUPRC)性能分别提高到0.795和0.775。

第二种是知识图谱嵌入的方法,包括将实体和关系转化为连续的向量空间,从而简化操作,同时保留知识图谱的原有的结构。2017年WangM等人[58]构建了患者疾病-药品图谱,将其嵌入低维空间后,进行用药推荐。首先构建疾病和药品图谱,通过EHR分别连接疾病和药品图谱,形成两个二分图,通过患者数据将两个二分图连接起来,并构建了一个高质量的异构图,该方法的预测准确度(即Jaccard系数)、药物相互作用发生率、冷启动(即没有患者数据时的使用)、临床专家评分均高于基线水平。2019年WangXY等人[59]构建了疾病-药品图谱,将其嵌入低维空间后,进行用药推荐,并提出一种基于知识图谱嵌入增强主题模型(knowledgegraphenhancedtopicmodel,KGETM)的中药推荐模型。在中药基准数据集上的实验结果表明,该方法优于当时最新的方法,中药知识图嵌入在中药推荐中有很好的应用前景。

(3)研究方向

医学知识图谱在用药推荐系统应用领域的未来研究方向主要有以下几方面。

.构建完整的医学知识图谱。人类对疾病与药品的认识是动态变化的,结合疾病、症状、药品、药品间的相互作用及患者的临床数据、患病的时间序列信息等,构建一个完整的医学动态知识图谱,确保知识的完整性、准确性和时效性。

.知识图谱嵌入学习是将实体和关系映射到低维连续向量空间的表示方法,在保留知识图谱结构信息的同时,还能够改善数据稀疏问题,提高计算效率,因此在进行后续用药推荐任务之前,先对知识图谱进行表示学习是很有必要的。

.考虑到构建动态医学知识图谱的必要性,而目前大多数知识嵌入表示研究建立在静态的知识图谱上,如何对动态知识图谱进行有效的知识表示是一个待解决的问题。将图时空网络与动态知识图谱相结合的知识嵌入表示用于用药推荐是一个颇具价值的研究方向。

医学知识图谱篇2

医学本体构建

网络上文本数据的爆炸式增长,以及对本体需求的增加,促进了语义网络的发展,使得基于文本的本体自动构建成为一个非常有前途的研究领域。文本本体学习是一种以机器可读形式(半)自动地从文本中提取和表示知识的过程。本体被认为是在语义网络上以更有意义的方式表示知识的主要基石之一。

2.1本体构建定义及任务

万维网联盟(WorldWideWebConsortium,W3C)将本体论定义为用于描述和表示知识领域的术语。本体是一个数据模型,它表示一组概念以及一个域中这些概念之间的关系。

本体构建可以定义为从头创建本体或重用现有本体以丰富或填充现有本体的迭代过程。构建本体的过程包括以下6个任务:

·指定一个域以创建定义良好的术语和概念;

·识别域中的关键术语、概念及其关系;

·建立或推断描述域结构属性的规则和公理;

·使用支持本体的表示语言(如资源描述框架(resourcedescriptionframework,RDF)、资源描述框架模式(resourcedescriptionframeworkschema,RDFS)或网络本体语言(Webontologylanguage,OWL))对构建的本体进行编码(表示);

·将构建的本体与现有本体结合(如果现有本体可用);

·通过使用通用和特定的评估度量来评估构建的本体[2]。

2.2医学本体构建难点及现有技术

随着对许多医学本体构建研究的深入,目前医学本体库的构建主要存在以下难点。

首先应该尽可能减少在本体构建过程中的人为干预。目前实现本体构建过程的完全自动化是不现实的,怎样减少人为干预是目前医学本体构建的一个难点和热点。2018年,MazenA等人[3]提出了一种新的本体自动生成框架,即链接开放数据项目授权的生物医学本体自动生成(linkedopendataapproachforautomaticbiomedicalontologygeneration,LOD-ABOG)方法。

与现有框架相比,参考文献[3]的评估结果显示,大多数本体生成任务的结果有所改善。该参考文献提出的LOD-ABOG框架表明,现有的LOD源和技术是一个很有前途的解决方案,可以在更大程度上实现生物医学本体生成和关系提取过程的自动化。另外,与现有的框架在本体开发过程中需要领域专家的参与不同,该参考文献提出的方法只要求领域专家在本体构建周期结束时参与到本体的改进中。

2019年,LytvynV等人[4]提出了从自然文本中提取知识的方法和算法(包括一个基于本体引入的概念、关系、谓词和规则的多层次过程),建立了一种基于本体的本体开发方法,该方法利用现有本体对文本文档进行分析,构建了命名和本体术语体系。这使得本体开发过程自动化成为可能。

再者,由于医学信息的特殊性,对医学信息的匿名化处理在本体构建过程中也是一个难点。2017年,PolsleyS等人[5]提出一种可识别被映射到本体论术语的受保护健康信息(protectedhealthinformation,PHI)的方法,临床专家使用数百份医学文献对该方法进行了评价,F1分数达98.8%,在后续处理中保留语义信息具有一定的前景。但该方法仍有较大的局限性,需要不断地进行优化。

医学知识图谱篇3

医学知识图谱应用

随着人们对健康问题的愈发重视,医疗保健费用、需求的增长与优质医疗资源不足之间的矛盾亟待解决。对此,由于近几年人工智能的飞速发展以及精准医疗、智慧医疗的提出,医学知识图谱应用正受到国内外企业、学界的广泛关注,有望带来更廉价、高效、精准的医疗建议和诊断。本文可以从已有的医学知识图谱的应用中一窥其巨大潜力。

2.1医疗信息搜索引擎

传统的医疗搜索引擎需要对百亿计的医疗相关网页进行检索、存储、处理,但难以理解用户的语义查询。而基于医学知识图谱的搜索,不仅提供用户网页间超链接的文档关系,还包括不同类型实体间丰富的语义关系。

知识图谱对于传统信息搜索的优化主要体现在查询扩展,从知识图谱中抽取与查询相关的若干实体及实体关系和属性进行扩展查询,以更好的理解用户的查询需求。Aronso等人较早将信息检索技术结合UMLS进行查询扩展,并应用于医学文献检索。Díazgaliano等人在生物医学信息搜索中加入了医学本体MeSH来进行查询扩展,包含同义、近似同义和密切相关概念的实体和关系,改进了信息检索的效果。Huang等人在医学本体的基础上,使用LSA自动挖掘实体间的语义关系,如药物诱导疾病关系、药物间相互作用关系等,对实体关系、实体-实体的查询进行了扩展。中国中医科学院的贾李蓉等于2002年开始研制中医药学语言系统,构建了包含12万多个概念、60余万术语以及127余万语义关系的中医药知识图谱。它通过在检索系统中嵌入“知识卡片”以及一个“知识地图”展示系统,将中医领域概念可视化,用户可以选择其中的概念开始构造查询或搜索。

目前,国外典型的医疗专用搜索引擎有WebMd8、OmniMedicalSearch9、Healthline10等。其中WebMd和OmniMedicalSearch分别属于全文索引和目录索引类型的传统搜索引擎,Healthline是一个基于知识库的医学信息搜索引擎,其知识库涵盖超850,000项医疗元数据和50,000条相互关联的概念。Google率先提出将知识图谱应用于搜索,在医疗搜索应用上,当用户搜索疾病或症状时,Google提供超过400种健康状况的数据,通过一张信息卡片,给出典型症状以及如是否严重、是否具有传染性、影响哪些年龄段的人等细节信息。而国内主流医疗搜索引擎有搜狗名医、360良医,这两者都是结合了元搜索索引方式和知识库的搜索引擎,聚合权威的知识、医疗、学术网站,为用户提供包括维基百科、知乎问答、国际前沿学术论文等权威、真实内容。

基于知识图谱的搜索引擎已成为现今搜索引擎的主要形式,其技术框架也在不断改进和完善。目前的医疗搜索引擎主要受限于医学知识图谱的知识数量和质量,构建完备的医学知识图谱是其关键。

2.2医疗问答系统

问答系统也是知识图谱的典型应用场景。目前在基于知识图谱的问答系统中采用的方法主要包括:基于信息提取的方法,利用问句信息结合知识库资源获取候选答案;基于语义解析的方法,将自然语言问句解析成一种逻辑表达形式,通过这种结构化表达从知识库中寻找答案;基于向量空间建模的方法,使用向量空间描述自然语言问句以及知识图谱中的实体和关系,通过机器学习、深度学习等方法生成问答模型进行回答。

早期的医疗问答系统的研究主要集中于信息检索、提取和摘要技术。知识图谱概念的提出,致使问答系统研究热点转移到基于知识图谱的问答系统研究。Terol等人使用了UMLS以及WordNet两种知识库,设置了10类医学问题类型,利用自然语言处理技术的应用来生成和处理问题的逻辑形式,从知识库中提取答案。Abacha等人对比了基于医学本体的医疗问答系统,结合医学本体、领域知识,NLP相关技术和语义关系,实现了一个医疗自动问答系统。华东理工大学阮彤、王昊奋等人与上海曙光医院合作构建了包括疾病库、证库、

症状库、中草药库和方剂库的中医药知识图谱,并基于该知识图谱进行中医药问答和辅助开药。该系统通过基于知识图谱的分词、模板匹配、模板的翻译执行来回答概念、实体、属性、属性值的模板组合问题,并将图谱中存储的数据自动转换成推理引擎适用的推理规则,再结合医生工作站传来的病人事实数据,辅助医生开方。

在医疗垂直领域的问答系统研究中,受限于现有医学知识图谱的推理能力,以及医学知识表示的复杂性,尚未出现重大的突破。而反观开放领域,对特定领域专业知识要求不高的情况下,IBM的Watson系统、微软的小冰都是融合传统问答系统和知识图谱的成功案例。

2.3医疗决策支持系统

借助医疗知识图谱,医疗决策支持系统可以根据患者症状描述及化验数据,给出智能诊断、治疗方案推荐及转诊指南,还可以针对医生的诊疗方案进行分析、查漏补缺,减少甚至避免误诊。

Ángel等人设计了一个本体驱动的,基于逻辑推理和概率统计优化的医学鉴别诊断系统ODDIN,系统的知识库框架包含一个逻辑规则知识库和一个医学本体知识库,在逻辑规则知识库中,定义了四种逻辑规则,而医学本体知识库则是综合了多个医学本体资源,支持多种本体表示形式,包括RDF、RDFS、OWL和SPARQL,诊断方法的核心是基于贝叶斯理论进行改进。Martnez-Romero等人[106]设计的iOSC3系统是一个基于本体针对急性心脏病进行智能监控和诊断的系统,该系统分析患者的状况并提供最佳治疗方案的建议,其知识库由OWL本体和表示专家知识的一组SWRL规则所构成。王昊奋、张金康等人通过搜集中文开放链接数据中的医疗信息(ICD9、ICD10等)和主流医学站点中的医疗知识(39健康网、寻医问药等)构建了医疗知识图谱,并将其应用于上海林康医疗信息技术有限公司的医疗质量与患者安全辅助监控系统和处方审核智能系统中,前者基于知识图谱来进行抗生素不合理使用的监控、危

急值预测,后者快速判断处方为合理、疑似不合理和不规范处方,从而促进用药的合理性。

将知识图谱应用于医疗决策是目前的研究热点。但是,在实际应用中,主要存在着两方面的问题:一是缺少完备的全科医学知识图谱,二是医疗决策的可靠性。对于前者,目前基于知识图谱实际应用的医疗决策系统,主要还是针对于特定疾病类型的决策,无法广泛应用,如IBM的WatsonHealth主要面向肿瘤和癌症的决策支持,基于巨大的知识库和强大的认知计算能力,为临床医师提供快速的、个性化的循证肿瘤治疗方案。对于后者,医疗决策是直接关系到使用者的身体健康问题,依靠人工智能进行医疗决策对结果的准确性和可靠性有更高的要求。现阶段,基于知识图谱的医疗决策只是扮演着支持和辅助的角色。

3挑战及研究展望

知识图谱是语义网与知识库的融合与升华。知识图谱的优势是具备强大的语义处理与开放互联能力。对医学领域而言,由于其专业性、规范性、术语有限性等特点,可以从医学词典、医学标准、电子病历等来源获取到高质量数据;另外在科教行业中,存在着知识管理、语义检索、商业分析、决策支持等需

求,医学知识图谱的研究能推进海量数据的智能处理,催生上层智能医学的应用。医学知识图谱是大数据与医学的结合,将成为知识图谱和大数据智能的前沿问题。

1)人工智能

人工智能,尤其是深度学习已经在计算机视觉、语音识别、机器翻译等领域超越了传统算法,而其在医学领域中的知识融合与推理等方面的研究潜力还有待挖掘。拥有强大学习能力的深度学习与有着丰富数据储备的知识库相结合,将逐步扩展认知能力,为大规模知识图谱找到更宽广的应用场景。

2)复杂多样的数据源(跨语言,开放域)

互联网和电子病例带来了医疗数据的爆炸性增长,然而这些数据在语种、主题、存储等方面都存在较大差异。现有的研究成果多集中在特定数据集上,普遍存在算法准确率低、限制条件多、扩展性差等问题,同时知识复用、实体消歧等问题也有待进一步研究。跨语言医学知识图谱成为当前的研究热点,我国的研究者更应发挥自身在中文信息处理方面的优势。

3)众包技术

众包反馈机制不仅可以有效提高数据质量,还能作为质量评估的重要补充。众包平台与知识库的有机结合,能够修正机器无法识别的错误,提高知识图谱的质量与性能。39健康网,寻医问药网的问答区都有专业人士在线解答问题;A+医百科中的药物信息由医学研究者共同编辑完成。而另一方面,如何评估和保障提交结果的质量,也开始受到国内外学者的关注。

4)可视化

知识图谱可视化的真正意义在于让人直观地了解推理的过程与结果。而医学知识图谱可视化站在医生或病人的立场,寻求最佳的知识展示方案:病人能够理解诊断结果,医生能够利用知识图谱的动态推理过程作出合理诊断。

医学知识图谱篇4

医学实体链接

6.1实体链接定义

由于语言表达的多样性、歧义性以及上下文关联,语言理解面临巨大的挑战。语言理解主要包括语法解析、语义解析和特定的知识表示或其中的某个片段。而在知识图谱中主要涉及的技术即实体理解或实体链接技术,将现实世界中的知识映射到现有知识图谱中的实体,进而用现有知识图谱进行表示,达到理解的目的。在实体链接任务中输入的是实体的指代和上下文以及待链接的知识库,输出的是指代所对应的知识库中的实体。

实体链接(或实体规范化、实体消歧)指将文本中的短语(提及范围)映射到结构化源(如知识库)中的概念。提及范围通常是一个词或短语,描述一个单一的、连贯的概念。

6.2医学实体链接的难点及现有技术

(1)联合在命名实体识别和实体链接中建模

在知识库构建中,实体识别是实体链接的前提,实体识别可为实体链接提供更多有效的信息。实体链接与实体识别联合学习可减少工作量。实体识别与实体链接任务联合解决既能提高命名实体识别的性能,也能提高实体链接的性能,是当前研究的重点和难点。

2017年,LouYX等人[29]提出了一种基于转换的联合疾病实体识别与规范化模型,将输出构造过程转化为一个渐进的状态转换过程,允许使用非局部特征。实验表明,与其他方法分开执行任务相比,联合框架实现了更高的性能。与其他先进的方法相比,该方法更具优势。

2019年,ZhaoSD等人[30]提出了一个新的具有显式反馈策略的深层神经多任务学习框架,用于联合实体识别和实体规范化建模。该方法利用多任务学习对两个任务进行一般表示,在保持任务之间相互支持的同时,成功地将跨体系结构的任务转换为并行的多任务设置。实验结果表明,在两个公开的医学文献数据集上,该方法比当时最先进的方法表现得更好。

2020年,LuoZH等人[31]开发了pyMeSHSim软件包,这是一个用于生物医学文本挖掘的集成、轻量级和数据丰富的Python包。作为第一个一站式医学主题词(medicalsubjectheading,MeSH)工具包,它集成了生物NER、规范化和比较功能。pyMeSHSim嵌入了一个自制的数据集,其中包含主标题(mainheading,MH)、补充概念记录(supplementaryconceptrecord,SCR)及其在MeSH中的关系。

基于该数据集,pyMeSHSim实现了4种基于信息内容的算法和一种基于图谱的算法,可用于度量两个网格术语之间的语义相似度。结果表明,使用pyMeSHSim识别的网络术语和以前手工识别的网络术语的语义相似度高达0.89~0.99。PyMeSHSim有望在生物信息学、计算生物学和生物医学研究中作为一种强大的工具得到广泛的应用。

(2)医学实体语义模糊

基于研究和医学文献分析发现,相同疾病名可能以多种不同的形式出现,比如同义词替换(如“脑中风”“脑卒中”)、疾病名称前的简短描述修饰语(如“大面积心脏病发作”),这些均会造成医学实体语义的复杂多变。近年来针对这个问题的实体链接研究较多。

2017年,ChoH等人[32]联合解析同义词和缩写词的领域特定词典及基于神经网络算法组合的大量未标注数据,该联合方法的精确度显著提高。

2018年,GorrellG等人[33]提出了一个新的系统Bio-YODIE。Bio-YODIE有两个主要的组成部分,首先,资源准备步骤将运行时所需的UMLS和其他信息资源处理为高效的形式,尽可能多地提前完成工作,以尽量减少运行时的处理;其次,流程本身对文档进行了注释,这些文档包括UMLS概念唯一标识符以及来自UMLS的其他相关信息。基于文本工程的通用结构(generalarchitecturefortextengineering,GATE),YODIE最初是一个通用的域系统,引用了DBpedia。BioYODIE是该系统的生物医学版本,它继承了一般领域的研究历史。与MetaMapLite的不同之处在于,消除歧义是Bio-YODIE中的优先事项。Bio-YODIE已被集成到CogStack中,并在大规模临床应用中得到广泛应用。

2019年,WrightD[34]提出了一个深度连贯模型NormCo,它考虑了实体提及的语义,以及单个文档中提及的主题连贯性。NormCo在两个疾病标准化语料库上的预测质量和效率方面优于当时最先进的基线方法,并且至少在准确性和标记文档的F1分数方面表现同样出色。

2019年,MondalI等人[35]提出了一种基于候选知识库条目与疾病描述相似度的排序方法,探讨了域内子词级信息处理疾病规范化任务的能力。该方法利用由疾病描述m、阳性候选qp、阴性候选qni组成的三元组(qp,m,qni)进行候选排序,引入了一个稳健的、可移植的候选生成方案,该方案不使用手工编制的规则。在标准基准NCBI疾病数据集上的实验结果表明,该系统在很大程度上优于先前的方法。

2020年,ZhuM等人[36]提出了一种潜在类型实体链接模型LATTE,该模型通过对实体提及和实体的潜在细粒度类型信息进行建模来改进实体链接。与以前直接在实体提及和实体之间执行实体链接的方法不同,LATTE在没有直接监督的情况下联合执行实体对齐和潜在的细粒度类型学习。大量的实验结果表明,该模型比几种先进的技术具有显著的性能改进。

(3)公开医学数据集较小

在医学领域,对数据进行标签标注是一项费时费力的大工程。因此目前所有的实体链接公开数据集都是小规模的,如何在小规模数据集上进行高质量的实体链接是目前研究的一个难点。

2017年,RajaniNF等人[37]提出使用精确聚焦的辅助特征来克服医学领域的这些挑战,这些辅助特征可以从少量数据中形成分类边界。该模型优于多个基线水平,并在多个医学数据集上更新了最优结果。

医学知识图谱篇5

医学实体关系抽取

4.1实体关系抽取定义

实体关系抽取是指从一个句子中抽取出关系三元组,主要目的是从文本中识别实体并抽取实体之间的语义关系。实体关系抽取解决了原始文本中目标实体之间的关系分类问题,它也是构建复杂知识库系统的重要步骤,如文本摘要、自动问答、机器翻译、搜索引擎、知识图谱等。随着近年来信息抽取的兴起,实体关系抽取进一步得到广泛的关注和深入的研究。

4.2医学实体关系抽取难点及现有技术

与一般的实体关系抽取相比,生物医学领域语料库的建设很复杂,且需要大量的人力、物力,对参与人员的专业背景要求高,因此使用仅有的医学知识来自动构建大规模的语料库对于医学实体关系的抽取十分重要。此外,医学实体之间普遍存在重叠关系,这给关系抽取的准确性带来较大的干扰。

现有的医学关系抽取方法大多需要复杂的特征工程,越来越多的学者采用深度学习方法进行关系的抽取,但大多采用的是流水线的方法,没有充分利用实体信息,且容易导致错误的传递。最后,医学关系的跨度较大,句子级的抽取不能满足要求。

为了自动构建大规模的语料库,2019年LiY等人[12]提出了一种全新的轻量级神经网络框架来解决远程监督关系抽取问题,以弥补以往选择的不足,使用《纽约时报》(NewYorkTimes,NYT)数据集进行实验,结果表明该方法在AUC和Top-n精度指标方面都达到了较先进的性能。2020年HeZQ等人[13]设计了一个新的状态表示形式,它考虑了句子嵌入、关系嵌入以及所选的正向实例的嵌入,该方法解决了远程监督方法中的错误标签问题,同时提升了词袋水平的关系提取效果。ChenDY等人[14]提出了通过多代理强化学习模型来重新标记噪声训练数据,并共同提取实体和关系的新方法。他们在两个真实的数据集上对该方法进行了评估,结果证明,该方法可以显著提高提取器的性能,并实现有效的学习。

针对医学实体间普遍存在重叠关系这一问题,2019年ZengDJ等人[15]重新研究了基于复制机制的关系抽取模型,提出了使用序列到序列(Seq2Seq)方法共同提取实体和关系的多任务学习复制模型(copymechanismformulti-tasklearning,CopyMTL)。该模型利用多任务的学习框架来识别多词实体,通过提高实体识别精度来提升关系抽取的效果,从而达到了较理想的效果。

2020年NayakT等人[16]提出了使用编码器-解码器体系结构共同提取实体和关系的方法。该方法使用一种用于关系元组的表示方案,使解码器能够像机器翻译模型那样一次生成一个单词,并且仍然可以找到句子中存在的所有元组,它们具有不同长度的完整实体名称,并且具有重叠的实体。对NYT数据集进行的实验表明,该方法明显优于所有以前的模型。

为了减少深度学习方法关系抽取中错误的传递,2019年EbertsM等人[17]提出了一种混合模型,包括基于转换器的编码层、LSTM实体检测模块、基于强化学习的关系分类模块。实验结果表明,与基线方法相比,该混合模型在关系和实体提取方面表现更好。

2019年BansalT等人[18]提出了一个新的模型——同时神经实体-关系连接器(simultaneousneuralentityrelationlinker,SNERL)。首先使用自注意力机制来捕获文本中每个实体提及的上下文表示;然后使用这些上下文表示来预测提及水平的实体分布和提及对水平的关系分布;最后针对每个提及对,将这些预测概率进行组合,并合并到文档级别,以获得预测关系三元组的最终概率。

实验结果表明,SNERL模型在CDT和CDR这两个生物医学数据集上的表现达到了最优的效果,并且可以大大改善系统的整体召回率,同时避免了级联错误。

针对医学关系跨度大的问题,2020年NanGS等人[18]提出潜在结构优化(latentstructurerefinement,LSR)模型,以端到端的方式构造一个文档级图谱来推理句间关系,通过迭代优化策略,模型能够动态构建潜在结构,以改善整个文档中的信息聚合。该模型在生物医学领域的两个文档级关系抽取数据集上取得了较好的效果。

4.3医学实体关系抽取常用数据集

医学实体关系抽取较常用的数据集主要有以下几种,见表3。

4.4挑战及未来研究方向

(1)加强语料库建设

相对于无监督学习方法,有监督学习方法有更好的准确性和稳定性,而构建良好的语料库是有监督学习方法得以开展的关键前提。

(2)利用联合学习方法更好地提取文本中的关系

现有的联合学习方法大多存在不同的问题,例如不能很好地识别医学文本中的重叠嵌套关系,但是联合学习方法可以充分利用实体与关系之间的交互信息,且普遍证明比流水线方法更有效,因此应该着力提升联合学习方法中识别重叠嵌套关系的能力,使联合学习方法更有效。

(3)实现跨句子或文档级关系抽取

医学文本中的关系往往不在一个句子中,而是跨句子的,因此关系抽取模型不应该仅仅满足于句子级的抽取,应该进行更广范围的关系抽取。

(4)解决远程监督学习的问题,提升远程监督的效果

医学领域语料库较小,远程监督方可以有效地解决这个问题,但是远程监督方法中存在错误标签等问题,会影响模型效果。未来可以着重解决远程监督中的错误标签问题,使用远程监督方法可以省去人工标注数据的工作。

医学知识图谱篇6

知识图谱(KnowledgeGraph)的概念由谷歌2012年正式提出,旨在实现更智能的搜索引擎,并且于2013年以后开始在学术界和业界普及,并在智能问答、情报分析、反欺诈等应用中发挥重要作用。

知识图谱本质上是一种叫做语义网络(semanticnetwork)的知识库,即具有有向图结构的一个知识库;图的结点代表实体(entity)或者概念(concept),而图的边代表实体/概念之间的各种语义关系,比如说两个实体之间的相似关系。

目前而言,知识图谱领域我们更能够看到和接触到的内容中,做的比较好的是医疗领域的UMLS(统一医学建模语言),可以作为我们构建知识图谱的时候,一个比较好的参考。统一医学语言系统(UnifiedMedicalLanguageSystem,UMLS)是美国国立医学图书馆(NationalLibraryofMedicine,NLM)于1986年开始建设的一体化医学知识语言,具有集成性、跨领域和工具化的特点。UMLS在信息检索(InformationRetrieval)、自然语言处理(NaturalLanguageProcessing)、电子病历(ElectronicPatientRecords)、健康数据标准(HealthDataStandards)等方面得到了广泛的研究和应用。NLM应用UMLS的系统和项目主要有PubMed,提供对Medline和其他相关数据库的免费检索;NLMGateway,提供对NLM多个系统的集成检索,包括Medline、OLDMedline、LocatorPlus、PubMed、AIDSMeetings、HSRProj和MedlinePlus等。

UMLS中对于语义类型、语义关系、本体对象的定义和表示,可以作为我们非常好的参考,对于医学领域是一个很好的行业标准,对于其他领域,是一个很好的跨域参考标准。

关于知识图谱的存储,首先明确一个原则,没有图数据库之前,知识型的内容,同样有处理办法,因此图数据库只是知识图谱存储的方式之一。任何一种问题,都有不止一个解决方案,只是方案之间有着不同的优势而已。知识图谱的存储方式,在不同时期,不同场景下有不同的技术方案,有着明显的时间特征和场景特征。常用的知识图谱的方式包括:关系型数据(RDBMS)、三元组(RDF)和图数据库(GraphDB)。

图数据库之间各有优劣,Neo4j可视操作,文档支持,企业服务支持做的比较好,是无绝对开发能力团队的首选,同时因为社区版本的免费,特别适合新手学习。Titan是基于分布式存储模式提交下的开源系统,适合存储体量比较大需求场景,但是已经很久没有更新,适合技术团队能力比较强的组织采用。

医学知识图谱篇7

医学知识的特点

1、医学术语多样性:不同知识源对同一个概念采用了不同术语进行表达。比如:糖尿病又可称为消渴症、消渴、DM等。

2、精度要求高:医学知识专业性强,医学应用场景容错率低,因此医学知识图谱的精准度要求高。

3、复杂度高:医学是经验总结的科学,医学概念的内涵往往比较丰富,且有些医学知识复杂很难用简单三元组表达。

深度应用驱动的医学知识图谱构建

医学知识图谱模型建立

1、数研院医学知识图谱Schema主要参考了UMLS语义网络相关数据涉及四大领域:疾病、药品、手术操作、检验检查。当然我们在知识图谱的构建过程中,会根据抽取和应用的实际情况,不断完善和优化Schema。数研院医学知识图谱于2019年8月首次发布Schema,目前包含72种语义类型、493种语义关系。

2、Schema分别用于指导“七巧板”医学本体术语集和“汇知”医学知识图谱的构建,完善医学知识表达的体系。我们之所以在一个模型指导下构建两个知识库,是为了解决不同的问题。“七巧板”采用本体解决与逻辑定义(即内涵定义)相关的关系,以及层次关系。“汇知”采用语义网络解决可能性、经验性的关系,并且无层次关系。

医学知识图谱篇8

背景技术:

知识图谱是一种图结构的知识库,属于知识工程的范畴。不同于普通知识库,知识图谱融合所有学科,将不同来源、不同类型、不同结构的知识单元通过链接关联成图,基于各学科的元数据,为用户提供更广度、更深度的知识体系并不断扩充。其本质上是将领域知识数据体系化、关系化,并以图的方式将知识可视化。简单来说,知识图谱是基于信息系统建立的知识体系,通过数据采集、数据挖掘、信息处理、知识计量和图形绘制等技术把复杂的知识领域系统地显示出来,揭示知识领域的动态发展规律。

目前临床医学领域中的病症、疾病即诊疗手段之间通常存在着错综复杂的关系,而现有的关系模型的数据存储模式固定,形式单一,缺乏直观性和灵活性,不适用于规模数量大或具有结构化层次的医学知识的表达,不便于医学知识体系内容的扩充,也不能为医护人员提供直观的参考。

技术实现要素:

有鉴于此,本发明的目的在于提供一种精准医学知识图谱构建方法和装置,便于大规模数量的医学知识的表达,为医学人员提供更直观的参考,从而减少医疗事故的发生,提高医疗服务质量。

第一方面,本发明实施例提供一种精准医学知识图谱构建方法,包括:

确定构建精准医学知识图谱需要的至少一个基础元素;

针对确定的每个所述基础元素,基于预设的基础元素、子元素、医学属性信息的映射关系,确定该基础元素的数据框架,所述数据框架包括与基础元素相关的至少一个子元素和与每个子元素相关的医学属性信息;

根据确定的各个基础元素的数据框架,从预设的精准医学知识库提取各个基础元素的数据框架之间的关系信息;

根据确定各个所述数据框架、各个基础元素的数据框架之间的关系信息,基于预设的循证精准医学知识库,确定至少一个循证临床注释模型,所述循证临床注释模型为对相关数据框架的临床注释,所述循证数据库表征数据框架、各个基础元素的数据框架之间的关系信息以及循证临床注释之间的映射关系;

根据各个基础元素的数据框架、各个基础元素的数据框架之间的关系信息以及各个循证临床注释模型,构建精准医学知识图谱。

可选地,所述针对确定的每个所述基础元素,基于预设的基础元素与子元素的映射关系、子元素与医学属性信息的映射关系,确定该基础元素的数据框架,包括:

针对确定的每个所述基础元素,基于预设的基础元素和子元素的映射关系,确定与该基础元素匹配的至少一个子元素;

针对确定的每个子元素,基于预设的子元素与医学属性信息的映射关系,确定该子元素的医学属性信息;

根据所述基础元素、确定的所述至少一个子元素和各个子元素的医学属性信息,针对每个基础元素,确定该基础元素的数据框架。

可选地,还包括:

将确定的各基础元素的数据框架以及循证临床注释模型以二维表的形式存储。

可选地,所述根据各个基础元素的数据框架、各个数据框架之间的关系信息以及各个循证临床注释模型,构建精准医学知识图谱,包括:

将存储的包括各基础元素的数据框架以及循证临床注释模型的二维表转化为图数据;

根据所述图数据构建所述精准医学图谱。

可选地,所述根据各个基础元素的数据框架、各个基础元素的数据框架之间的关系信息以及各个循证临床注释模型,构建精准医学知识图谱,包括:

根据确定的各个基础元素的数据框架、各个基础元素的数据框架之间的关系信息以及各个循证临床注释模型,以各个基础元素的数据框架的标识或各个循证临床注释模型的标识作为节点,以各个基础元素的数据框架之间的关系信息作为有向线段,构建精准医学知识图谱。

第二方面,本发明的实施例提供一种精准医学知识图谱构建装置,包括:

第一确定单元,用于确定构建精准医学知识图谱需要的至少一个基础元素;

第二确定单元,用于针对确定的每个所述基础元素,基于预设的基础元素、子元素、医学属性信息的映射关系,确定该基础元素的数据框架,所述数据框架包括与基础元素相关的至少一个子元素和与每个子元素相关的医学属性信息;

提取单元,用于根据确定的各个基础元素的数据框架,从预设的精准医学知识库提取各个基础元素的数据框架之间的关系信息;

第三确定单元,用于根据确定各个所述数据框架、各个基础元素的数据框架之间的关系信息,基于预设的循证精准医学知识库,确定至少一个循证临床注释模型,所述循证临床注释模型为对相关数据框架的临床注释,所述循证数据库表征数据框架、各个基础元素的数据框架之间的关系信息以及循证临床注释之间的映射关系;

第四确定单元,用于根据各个基础元素的数据框架、各个基础元素的数据框架之间的关系信息以及各个循证临床注释模型,构建精准医学知识图谱。

可选地,所述第二确定单元具体用于:

针对确定的每个所述基础元素,基于预设的基础元素和子元素的映射关系,确定与该基础元素匹配的至少一个子元素;

针对确定的每个子元素,基于预设的子元素与医学属性信息的映射关系,确定该子元素的医学属性信息;

根据所述基础元素、确定的所述至少一个子元素和各个子元素的医学属性信息,针对每个基础元素,确定该基础元素的数据框架。

可选地,所述第二确定单元还用于,将确定的各基础元素的数据框架以二维表的形式存储;

第三确定单元还用于将循证临床注释模型以二维表的形式存储。

可选地,所述第四确定单元具体用于:

将存储的包括各基础元素的数据框架以及循证临床注释模型的二维表转化为图数据;

根据所述图数据构建所述精准医学图谱。

可选地,所述第四确定单元具体用于:

根据确定的各个基础元素的数据框架、各个基础元素的数据框架之间的关系信息以及各个循证临床注释模型,以各个基础元素的数据框架的标识或各个循证临床注释模型的标识作为节点,以各个基础元素的数据框架之间的关系信息作为有向线段,构建精准医学知识图谱。

根据本发明的技术方案,确定构建精准医学知识图谱所需要的至少一个基础元素,确定各基础元素的数据框架,构建循证临床注释模型,最终建立精准医学知识图谱,使得大规模医学知识的表达更加直观,提高医护人员的效率,减少医疗事故的发生,提高医疗服务质量。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种精准医学知识图谱构建方法的流程图;

图2为本发明实施例提供的一种精准精准医学知识库结构的示意图;

图3为本发明实施例提供的一种精准医学知识图谱构建装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明实施例提供的一种精准医学知识图谱构建方法的流程图。如图1所示,该方法始于步骤s110。

在步骤s110中,确定构建精准医学知识图谱需要的至少一个基础元素。

在步骤s120中,针对确定的每个所述基础元素,基于预设的基础元素、子元素、医学属性信息的映射关系,确定该基础元素的数据框架,所述数据框架包括与基础元素相关的至少一个子元素和与每个子元素相关的医学属性信息。

在步骤s130中,根据确定的各个基础元素的数据框架,从预设的精准医学知识库提取各个基础元素的数据框架之间的关系信息。

在步骤s140中,根据确定各个所述数据框架、各个基础元素的数据框架之间的关系信息,基于预设的循证精准医学知识库,确定至少一个循证临床注释模型,所述循证临床注释模型为对相关数据框架的临床注释,所述循证数据库表征数据框架、各个基础元素的数据框架之间的关系信息以及循证临床注释之间的映射关系。

在步骤s150中,根据各个基础元素的数据框架、各个基础元素的数据框架之间的关系信息以及各个循证临床注释模型,构建精准医学知识图谱。

可选地,根据预设的筛选标准,从精准医学知识结构中,确定构建精准医学知识图谱需要的至少一个基础元素。

在执行步骤s110时,可通过对精准医学知识结构的构成特征进行分析研究,基础元素在临床层面或组学层面的指标影响因素,确定四个基础元素。

可选地,所述基础元素至少包括疾病元素、药物元素、生物标记物元素、组学变异元素。

可选地,在执行步骤s120时,所述针对确定的每个所述基础元素,基于预设的基础元素与子元素的映射关系、子元素与医学属性信息的映射关系,确定该基础元素的数据框架,包括:

针对确定的每个所述基础元素,基于预设的基础元素和子元素的映射关系,确定与该基础元素匹配的至少一个子元素;

针对确定的每个子元素,基于预设的子元素与医学属性信息的映射关系,确定该子元素的医学属性信息;

根据所述基础元素、确定的所述至少一个子元素和各个子元素的医学属性信息,针对每个基础元素,确定该基础元素的数据框架。

精准医学的本质是通过基因组、蛋白质组等组学技术和医学前沿技术,对于大样本人群与特定疾病类型进行生物标记物的分析与鉴定、验证与应用,从而精确寻找到疾病的原因和治疗的靶点,并对一种疾病不同状态和过程进行精确分类,最终实现对于疾病和特定患者进行个体化精准治疗的目的,提高疾病诊治与预防的效益。

具体地,以肺癌为例说明,不同的肺癌类型对药物的响应、临床诊疗方法都存在差异。而在组学方面,癌基因和抑癌基因作为多数靶向药物的靶标,其不同组学层面的变异,如脱氧核糖核酸(dna)层面的单核苷酸变异、插入缺失、拷贝数变化、甲基化等,核糖核酸(rna)层面的表达水平变化和融合变异等,蛋白层面的表达变化,都会影响患者对靶向药物的敏感性、化疗药物的药效、以及预后效果;另外药物代谢酶类、药物转运体、和药物靶标相关基因的胚系多态性变异,也会造成不同患者个体在药物代谢快慢、所需药物剂量、不良反应、及药效等方面的差异。为了正确刻画不同的变异对不同的肺癌类型、不同药物的临床影响,实现对患者个体组学变异的正确临床解读,整合肺癌相关科研文献研究结果、监管机构的审批结果、临床指南等信息,构建结构化循证肺癌精准精准医学知识库,形成肺癌的精准医学知识图谱,实现自动化的肺癌患者个体组学变异数据的循证临床解读。以下进行详细叙述。

具体地,参考图2,在建立疾病元素的数据框架时,以肺癌为例进行说明,参照mesh对不同类型肺癌的命名与分类,采用层级树状分类法确定每个框架间的从属关系,构成肺癌疾病的框架网络。不同类型的肺癌(如小细胞肺癌)由其对应的框架来存储相关医学属性信息,框架名即该疾病名称。每种肺癌类型的医学属性信息为医学主题词表标识(meshid)、别名、症状、常见病因描述、常见诊断方法描述及对应的数据类型限制等,即确立相对应的槽及侧面。槽值、侧面值等内容的填充参考医学主题词表(mesh)、在线《人类孟德尔遗传》(omim)、疾病本体(diseaseontology)、国家癌症研究词典(ncithesaurus)等数据库,按照该产品开发标准作业程序(sop)进行格式化、标准化,并以自己的语言进行中英双语表述。在线《人类孟德尔遗传》(omim)用于持续更新的关于人类基因和遗传紊乱的数据库。

在建立药物元素的数据框架时,参考药物库(drugbank)进行药物命名填充,药物的相关结构化描述(槽及侧面)为参考药物库标识(drugbankid)、别名、靶标、类型、作用机制、副作用等及对应的数据类型限制等。槽值、侧面值等属性内容填充参考药物库(drugbank)、丙氨酸氨基转移酶(act)等数据库,按照产品开发sop进行格式化、标准化,并以自己的语言进行中英双语表述,以储存肺癌相关的药物的信息知识,框架名即药物名。

在建立生物标记物(biomarker)元素的数据框架时,用以储存收录的生物标记物相关信息知识。肺癌相关生物标记物的命名采用国际人类基因命名委员会(humangenenomenclaturecommittee,hgnc)和人类染色体命名符号与核型式(iscn)标准,包括基因、假基因、信使rna(mrna)、非编码rna、蛋白、核型等类型。框架名即生物标记物名,生物标记物的医学属性信息(槽及侧面)为美国国家生物技术信息中心在线资源检索器标识(entrezid)、别名、生物标记物类型、基因类型、所处染色体、在染色体上的物理位置、所处dna链(正链/负链)、参考基因组版本、功能类别、简述、机制描述等。槽值、侧面值等属性信息内容填充参考美国国立生物技术信息中心(nationalcenterforbiotechnologyinformation,ncbi)、英国韦尔科姆基因会桑格研究所基金会及欧洲分子生物学实验室所属分部欧洲生物信息学研究所共同协作运营的生物信息数据库(ensemble)、科研文献等的相关内容,按照产品开发sop进行格式化、标准化,并以自己的语言进行中英双语表述。

在建立组学变异(variation)数据框架时,用以存储收录的组学变异相关信息。每个组学变异关联变异所处的生物标记物,并根据变异的组学层级及其类型的不同、采用层级树状分类确立框架间的从属关系,如组学变异分为dna、rna、蛋白三个水平,其中,dna水平上的组学变异有单核苷酸变异、插入缺失、基因拷贝数变异(copynumbervariations,cnv)、结构性变异、甲基化等,rna水平上的组学变异有差异表达、融合等,蛋白水平上的组学变异有差异表达等。组学变异的医学属性信息(槽值)为关联的生物标记物、dna链、所处染色体、变异的物理位置、参考基因组版本及变异的分子机制描述。不同水平不同类型的组学变异因其特征不同,其框架内定义的槽和侧面也不同。以单核苷酸变异为例,其定义的槽和侧面包括转录本、参考序列、变异后序列、编码序列变化、氨基酸变化、所处/相邻外显子、单核苷酸多态性参考文献(refsnp)等描述,而多态性单核苷酸变异还包括变异在不同人群中的发生率;融合变异模型还包括5’基因和3’基因的转录本、观察到的外显子、插入序列、断点位置等。槽值、侧面值等内容的填充根据所收录循证文献提及的组学变异,选择相适配的框架,从ncbi、ensembl、单核苷酸多态性数据库(dbsnp)、癌症体细胞变异目录(cosmic)、遗传药理学和基因组药理学数据库(thepharmacogenetics&pharmacogenomicsknowledgebase,pharmgkb)等公共组学数据库中抽取整合相关属性信息填入槽中,槽值、侧面值等皆通过为朔开发的算法、依照hgvs组学变异命名标准对其进行了错误校正和标准化、归一化处理。

参考文献(reference)框架一般用以储存收录的参考文献相关信息。框架名即参考文献名,参考文献的医学属性信息(槽及侧面)为:文献的题目、作者、年代、出版社、证据等级、美国公共医学数据库标识(pubmedid)、文献研究的疾病、人群、关键词、文献链接、文献简介、在知识库中所关联的框架等。槽值、侧面值等属性信息内容填充参考美国国立生物技术信息中心(ncbi)、ensemble、相关文献等内容,按照产品开发sop进行格式化、标准化,并以自己的语言进行中英双语表述。

建立治疗方案(treatment)数据框架时,用以存储收录的治疗方案相关信息。主要有美国食品药品管理局(fda)、中国国家食品药品监督管理总局(cfda)已审批通过的方案、美国国立综合癌症网络(nationalcomprehensivecancernetwork,nccn)指南中的方案、专家共识及处于临床研究阶段但已有显著效果的治疗方案的相关信息。治疗方案包括靶向治疗、内分泌疗法等生物疗法,以及与生物疗法联合生物疗法、生物疗法联合化疗等的联合方案。框架名为治疗方案名,治疗方案的结构化属性描述(槽及侧面)为适应症、疾病分期、应用患者、客观响应率等相关信息。按照产品开发sop进行格式化、标准化,并以自己的语言进行中英双语表述。

建立联合组学变异(combinedvariation)数据框架时,用以存储组学变异的联合关系。多个组学变异的发生对临床的联合影响包括并发协同(“与”关系)和替代相似(“或”关系)两种联合类型,如,一个同一生物标记物上多个位点的单核苷酸变异都有相同的表型影响,则这些变异为”或”关系。构建的联合变异框架网络兼容“与”和“或”两种类型,包括同一层次、同一类型的联合变异;同一层次不同类型的联合变异;不同层次的联合变异及药物基因组学的星型基因型表示法。可通过转换可将受检者个体的组学变异转换为药物基因组学的星型基因型,并与知识库中收录的联合组学变异名进行匹配。

建立循证临床医学注释(annotation)模型时,依据循证精准医学知识库,存储组学变异对临床表型(如生物体外在表现出来的功能等)的影响信息。根据对肺癌进行分子检测的临床应用环境的不同,肺癌相关组学变异对临床表型的影响包括组学变异对生物疗法(包括靶向药物、内分泌药物、免疫疗法等)的易感性、药物代谢动力学、药效动力学、预后的影响四种类型。

基于不同类型的影响,构建相适配的临床注释模型,关联循证依据(相关文献、指南等)中证实的疾病、药物和具体的组学变异。对循证注释的结构化属性描述(槽及侧面)包括循证医学证据等级(临床试验、队列研究、病例对照等)、样本量、样本人群、临床指标等。

生物疗法的易感性注释模型包括dna组织来源、对药物的敏感、可能敏感、可能耐药、耐药的等级划分、包括总生存期、客观缓解率、无进展生存期等指标在内的循证依据结果描述。

药物代谢动力学注释模型包括预先设置的证据等级、遗传药理学和基因组药理学数据库(pharmgkb)中临床注释等级、代谢类型(超快代谢、快代谢、正常代谢、中间代谢、慢代谢)划分、药物剂量升高或降低的划分、包括剂量、血药浓度等指标在内的药代动力学描述。

药效动力学注释模型包括证据等级、pharmgkb中临床注释等级、药物效率提高或降低的划分、不良反应风险增加或降低的等级划分、包括抗性风险、不良反应、生存期等指标在内的药效动力学描述。

预后注释模型包括预后好或坏的等级划分、包括总生存期、客观缓解率、无进展生存期等指标在内的循证依据结果描述。

信息来源包括美国国立综合癌症网络(nccn)、临床药物基因组学实施联盟(clinicalproblemsindexofcomplexity,cpic)、荷兰遗传药理工作组(dpwg)指南和生物医学文献期刊等,通过自然语言处理工具可自动化搜索、定位、分类美国公共医学数据库(pubmed)中的文献,遵循“引用>试验设计*>样本大小>杂志影响因子>杂志”的文献选取原则和sop结构化抽取循证证据,进行标准化、归一化,并以相应的语言进行中英双语表述。对于研究结果相矛盾的文献,采取在循证依据结果描述中同时呈现的原则。

基于上述基础要素框架、基础要素的联合框架、关联基础要素的循证临床注释模型,根据其名称(框架名、槽名、侧面名)、内容(槽值和侧面值)的相互关联整合形成循证结构化精准医学知识图谱。每个实体具有唯一确定的标示符,每个框架刻画实体内在属性,循证关系连接实体,刻画它们的关联。并提供时态数据刻画知识图谱的时态信息,包括知识的生成时间、在特定时间的状态和版本等。

可选地,该方法还包括:

将确定的各基础元素的数据框架以及循证临床注释模型以二维表的形式存储。

可选地,所述根据各个基础元素的数据框架、各个数据框架之间的关系信息以及各个循证临床注释模型,构建精准医学知识图谱,包括:

将存储的包括各基础元素的数据框架以及循证临床注释模型的二维表转化为图数据;

根据所述图数据构建所述精准医学图谱。

可选地,所述根据各个基础元素的数据框架、各个基础元素的数据框架之间的关系信息以及各个循证临床注释模型,构建精准医学知识图谱,包括:

根据确定的各个基础元素的数据框架、各个基础元素的数据框架之间的关系信息以及各个循证临床注释模型,以各个基础元素的数据框架的标识或各个循证临床注释模型的标识作为节点,以各个基础元素的数据框架之间的关系信息作为有向线段,构建精准医学知识图谱。通过上述方式构建的精准医学知识图谱,采用非关系型数据存储模式,为医护人员提供更直观的参考,从而降低医疗事故的发生。

图3为本发明实施例提供的一种精准医学知识图谱构建装置的结构示意图。如图3所示,该装置包括:第一确定单元310、第二确定单元320、提取单元330、第三确定单元340、第四确定单元350。

第一确定单元310,用于确定构建精准医学知识图谱需要的至少一个基础元素。

第二确定单元320,用于针对确定的每个所述基础元素,基于预设的基础元素、子元素、医学属性信息的映射关系,确定该基础元素的数据框架,所述数据框架包括与基础元素相关的至少一个子元素和与每个子元素相关的医学属性信息。

提取单元330,用于根据确定的各个基础元素的数据框架,从预设的精准医学知识库提取各个基础元素的数据框架之间的关系信息。

第三确定单元340,用于根据确定各个所述数据框架、各个基础元素的数据框架之间的关系信息,基于预设的循证精准医学知识库,确定至少一个循证临床注释模型,所述循证临床注释模型为对相关数据框架的临床注释,所述循证数据库表征数据框架、各个基础元素的数据框架之间的关系信息以及循证临床注释之间的映射关系。

第四确定单元350,用于根据各个基础元素的数据框架、各个基础元素的数据框架之间的关系信息以及各个循证临床注释模型,构建精准医学知识图谱。

可选地,所述第二确定单元320具体用于:

针对确定的每个所述基础元素,基于预设的基础元素和子元素的映射关系,确定与该基础元素匹配的至少一个子元素;

针对确定的每个子元素,基于预设的子元素与医学属性信息的映射关系,确定该子元素的医学属性信息;

根据所述基础元素、确定的所述至少一个子元素和各个子元素的医学属性信息,针对每个基础元素,确定该基础元素的数据框架。

可选地,所述第二确定单元320还用于,将确定的各基础元素的数据框架以二维表的形式存储;

第三确定单元340还用于将循证临床注释模型以二维表的形式存储。

可选地,所述第四确定单元350具体用于:

将存储的包括各基础元素的数据框架以及循证临床注释模型的二维表转化为图数据;

根据所述图数据构建所述精准医学图谱。

可选地,所述第四确定单元350具体用于:

根据确定的各个基础元素的数据框架、各个基础元素的数据框架之间的关系信息以及各个循证临床注释模型,以各个基础元素的数据框架的标识或各个循证临床注释模型的标识作为节点,以各个基础元素的数据框架之间的关系信息作为有向线段,构建精准医学知识图谱。

本发明实施例所提供一种精准医学知识图谱构建装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。

在本发明所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

以上就是医学知识图谱的全部相关内容了,医学知识图谱的出现,不仅仅是医疗行业的一次技术革新,更是推动人工智能与医学深度融合的重要里程碑。在未来,随着医疗大数据的不断积累,医学知识图谱将会变得越来越完善和精准,成为医生们的得力助手,为人类健康事业的发展注入新的活力。