如何构建知识图谱,知识图谱构建
构建知识图谱需要掌握一些工具,比如爬虫、neo4j等等,掌握了工具,构建知识图并不困难,难在大数据源。一类是开放域的知识图谱,另一类是垂直领域的知识图谱。目前的知识图谱分为两类。这些都是知识图谱的构成。数据是阻碍构建图谱的***绊脚石,只要有了数据,利用neo4j或其他一些工具就能比较简单的构建出图谱。
知识图谱是什么?
在人工智能时代,大家都在讨论机器学习、深度学习等技术,但如果你持续关注人工智能,你会发现知识图谱这个概念也在被越来越多的人重拾。而知识图谱也确实是人工智能发展到一定广度之后,向深度发展的重要依托工具。传统的搜索方式是基于关键词,给出密密麻麻的网址排序,这种搜索方式并没有真正理解我们的搜索意图。而结合了知识图谱的搜索方式,其关键点在于“知识”,它集合于互联网上的知识于一身,试图去了解世界的真实含义,从信息检索的层次转变为知识积累,因此知识图谱建立认知的过程被看成是最能体现人工智能的方式之一,很像我们人类大脑学习思考的过程,即由点及线,由线到面,一步步理清知识之间的逻辑。
以百度这个全球***的中文知识图谱为力,其优点可以简单总结出以下三点:1)提供了一种新的搜索方式。例如我们在搜索“地球质量”的时候,百度内涵的知识图谱直接就显示给我们答案,而不是以往那些隔靴搔痒的网页。2)以实体为中心建立丰富的联系。例如我们搜索“杨幂”,既能直接返回给我们杨幂个人信息,也能在右侧推荐出跟杨幂相关的其他实体,并能显示出实体与实体之间建立联系的逻辑,即下图中的推荐实体下方的推荐理由。
1)能够依据知识之间的逻辑进行简单的推理,简单的举例如下图所示。基于逻辑的人工智能是AI的经典想法,就是因为我们发现世界上的知识无法用逻辑真理描述,而且存在很多自相矛盾的情况,后来机器学习(Learning from Data)成了AI的主流,到了今天,我们发现机器学习也有一定的瓶颈,尤其是在问题三的逻辑推理。
如何构建知识图谱?
目前的知识图谱分为两类。一类是开放域的知识图谱,另一类是垂直领域的知识图谱。首先就是要先处理数据互联网上的数据基本上都是结构化的,非结构化的和半结构化的。结构数据一般就是公司的业务数据。这些数据都存储到数据库里,从库里面抽取出来做一些简单的预处理就可以拿来使用。半结构化数据和非结构化数据,比如对商品的描述,或是标题,可能是一段文本或是一张图片,这就是一些非结构化数据了。
但它里面是存储了一些信息的,反映到的是知识图谱里的一些属性。所以需要对它里面进行一个抽取,这是构建知识图谱中比较费时费力的一个工作。从数据里需要抽取的其实就是之前所提到的实体、属性、关系这些信息。对于实体的提取就是NLP里面的命名实体识别。这里相关的技术都比较成熟了,从之前传统的人工词典规则的方法,到现在机器学习的方法,还有深度学习的一些使用另外还需要做的是实体对齐和实体消歧。
关于实体对齐。举例来说,比尔盖茨这四个字是中文名称,Bill Gates是他的英文名称,但其实这两个指的是同一个人。由于文本的不一样,开始的时候导致这是两个实体。这就需要我们对它进行实体对齐,把它统一化。另外是实体消歧。举例来说,苹果是一种水果,但是在某些上下文里面,它可能指的是苹果公司。这就是一个实体歧义,我们需要根据上下文对它进行实体消歧。
其次,在完成了以上步骤之后,接下来就是本体抽取。比如说公司是一个机构,它是有这种上下流的关系的。对于平级的也需要计算一个他们的相识度,比如比尔盖茨和乔布斯在实体层面,他们是比较相似的。他们都属于人这个实体。他们跟公司的差别还是挺大的,所以需要一个相似度的计算。在以上步骤完成之后需要对知识库进行质量评估。
如何构建健康知识图谱?
可将医学知识图谱构建技术归纳为五部分,即医疗知识的表示、抽取、融合、推理以及质量评估。通过从大量的结构化或非结构化的医学数据中提取出实体、关系、属性等知识图谱的组成元素,选择合理高效的方式存入知识库。1)医学知识表示。知识表示是为描述世界所做的一组约定,是知识符号化、 形式化、模式化的过程,主要研究计算机存储知识的方法, 其表示方式影响系统的知识获取、存储及运用的效率。
在医疗领域,实体维度包括疾病、症状、检查、检验、体征、药品等等医学名词,甚至医生、科室、医院也可以纳入范畴。关系是指实体间的关系,比如,针对疾病和症状,关系可有“包含关系”,“不包含关系”,甚至“金标准关系”(比如,所有炎症都会带来发热,这就是金标准)。疾病和医生可以定义“医生擅长治疗疾病”,医生和医院可以定义“归属于关系”等等。
这些都是知识图谱的构成。2)医学知识融合。在医疗领域,Dieng-Kuntz 等人将医疗数据库转换为医疗本体,然后对其他文本语料使用半自动的语言工具进行语义提取,在人工控制下对本体进行扩展和补全,并用启发式规则自动建立知识的概念层次。Baorto 等人将数据源添加到临床信息系统时先确定数据的控制术语是否已经存在,然后将新术语添加到 MED( Medical Entities Dictionary),同时建立审计流程以保证引入数据的一致性。
3)医学知识推理。医学知识图谱必须处理大量重复矛盾的信息,这就增加了构建医学推理模型的复杂性。 传统的知识推理方法有基于描述逻辑(Description Logic, DL)推理,基于规则推理(Rule-based Reasoning,CBR)与基于案例推理(Case-based Reasoning,CBR)等等。
Bousquet C 等人使用基于 DAML OIL 描述逻辑执行术语推理来改进药 物警戒系统中信号检测;Chen R 等人采用 RBR 方法开发出糖尿病诊断系统以提供用药建议;CARE-PARNER 系统则是基于CBR给出诊断结果与治疗方案等等。4)质量评估。医学领域,本体评估方法因应用场景而异:Clarke 等人使用基于任务评估方法来分析基因本体的从 2004 至 2012 年的性能;Bright 等使用本体设计原则和领域专家审查意见 作为指标来评估本体在抗生素决策支持系统中的效果;Gordon 等通过将电子病历,诊断案例和临床实践等来构造“黄金标准”来评估,改进传染疾病本体 BCIDO等。
为方便用户进行本体评估和加快本体评估自动化进程,本体评估工具封装了评估方法。不同的工具从不同的视角对本体的不同指标进行评估。针对评估的侧重点,选择合适的工具才能对本体作出 符合应用要求的评估。 比较常用的本体评估工具有:ODEval,OOPS,OntoManager,Core等。除了医学本体,医学知识图谱还涵盖其他复杂多样的信息,因此,质量评估还包括对数据质量, 专家信息,知识库等方面进行评估。
中文知识图谱的构建思路是什么?
首先,你需要收集数据,一般来说,知识图谱都用在相对应的领域内,比如说医疗知识图。数据是阻碍构建图谱的***绊脚石,只要有了数据,利用neo4j或其他一些工具就能比较简单的构建出图谱。数据一般有两种获取方式,如果你是研究人员,在你的研究领域内对应的结构化大数据就是主要的数据来源;如果只是兴趣,找到你想要构建的图谱的领域的相关网站,利用爬虫工具对数据进行爬取,清洗,整理成比较干净的数据形式,可以存放在关系数据库、.csv、.txt等文件中,再利用图数据库工具建立知识图谱。
区块链技术如何打破知识图谱构建的瓶颈问题?
数据的严重缺乏,是目前人工智能领域发展面临的***的障碍。区块链用技术作为支撑为知识图谱的搭建提供了一种全新的商业化路径,将知识图谱的搭建任务泛化到更多更广泛的人群,从而弥补阻碍人工智能发展的“***一块短板”。常识获取虽然已成为当前知识库构建面临的瓶颈问题,但也不是真的一点办法也没有。只是常识体系知识数量的浩大、构建所需的知识粒度之小、工作量之繁杂和琐屑,决定了任何单个中心化的机构都是很难完成的。
然而区块链技术的诞生为这个瓶颈问题的突破带来了曙光,区块链技术的去中心化、开放性、透明性、激励机制等基本特征为我们提供了一套全新的、可实现的数据搭建方案。区块链不依赖于中心的管理节点,能够实现数据的分布式记录、存储和更新。去中心化,意味着多中心化;分布式记账,就是多节点。既然单个中心化的机构无法完成全工程量浩大又琐屑的知识图谱的搭建,那么鼓励更多人群、特别是那些具有专业领域知识的人共同来参与知识图谱的搭建,这个任务是不是就容易多了?去中心化就意味着,任何节点都可以实现数据的贡献、存储和更新;同时任何节点也都可以被替代。
这是中心化机制无法实现的。既然分布式多节点的共同搭建,那么贡献度追溯以及版权保护的问题对于知识贡献者来讲就非常重要了。这个问题解决不好,非常容易引发生态内的不良激励。透明性解决的就是信任、以及可追溯这样一个基础问题。区块链内产生的每一笔交易都是透明、可查询的。并且所记录的数据不可逆,也不可篡改。每笔交易都可以层层追溯到源头,从而判断交易是否合规,也就解决了版权经过多层转让后归属不清的问题。
从事知识图谱构建研究领域有哪些经验值得分享?
构建知识图谱是一个和数据打交道的过程,无论是有现成的结构化数据,还是爬取网页上的非结构化数据。知识图谱本质就是个图数据库,与传统关系数据库相比,可以让我们更直观的“看到”数据之间的关联,因此,和构建关系数据库道理大同小异。如果你对数据不感兴趣,就会感到比较枯燥。构建知识图谱需要掌握一些工具,比如爬虫、neo4j等等,掌握了工具,构建知识图并不困难,难在大数据源。
本文地址:https://www.55jiaoyu.com/show-736935.html
本文由合作方发布,不代表展全思梦立场,转载联系作者并注明出处:展全思梦
推荐文档
- 11.安徽建筑工程学院,安徽建筑工程学院是几本
- 12.动物科学专业;动物科学专业考公务员考什么职位
- 13.养老金入市;养老金入市***消息
- 14.童话世界里的奇妙冒险
- 15.天津快板台词—天津快板台词短的
- 16.广东科技技术职业学院、广东科学技术职业学院代码
- 17.大连理工学院;大连理工学院盘锦校区
- 18.南京工程学院,南京工程学院录取分数线预测(数据为往年仅供参考)预测2023
- 19.小学教育专业-小学教育专业出来当什么老师
- 20.夫子庙小学;夫子庙小学学区
- 21.奥鹏学生登陆(奥鹏学生登录平台登录不了)
- 22.新乡医学院教务处-新乡医学院教务处网络管理系统
- 23.保定市中考成绩查询—保定中考成绩查询入口2021
- 24.唐山师范学院图书馆(唐山师范学院图书馆介绍)
- 25.华天学院-华天学院厦门子宫
- 26.上海房地产开发公司;上海房地产开发公司老板
- 27.兴趣爱好特长;个人兴趣爱好特长
- 28.卡塞尔大学、卡塞尔大学什么档次
- 29.山西高考录取查询—山西高考录取查询步骤
- 30.沈阳工程学院地址—沈阳工程学院地址英文
- 31.广州武警指挥学院、广州武警指挥学院黄峰
- 32.河南洛阳理工学院—河南洛阳理工学院录取分数线预测(数据为往年仅供参考)预测
- 33.梦见人民币、梦见人民币都是一捆一捆的
- 34.对外经贸大学自主招生、对外经贸大学招生办
- 35.广东省计划生育政策(广东省计划生育政策文件)
- 36.东北农业大学录取查询-东北农业大学录取结果查询
- 37.河北会考成绩查询网-河北会考成绩查询网站入口2020
- 38.天津外国语大学分数线预测(数据为往年仅供参考)预测-天津外国语大学分数线预测(数据为往年仅供参考)预测是多少
- 39.bdschool(bdschoolppq是什么意思)
- 40.保定高等专科学校,保定高等专科学校有哪些
- 41.焦作工贸职业学院—焦作工贸职业学院官网
- 42.宁波城市职业学院_宁波城市职业学院是公办吗
- 43.江西高考网(江西高考网官网登录网址)
- 44.河北外国语学院—河北外国语学院专业有哪些
- 45.梦见小女孩;梦见小女孩掉水里了是什么意思
- 46.2013年消防日主题(往年消防日的活动主题是什么)
- 47.qq个性留言—qq个性留言大全
- 48.长春市人才-长春市人才档案中心
- 49.温州肯恩大学、温州肯恩大学学费
- 50.湖南师范大学,湖南师范大学树达学院
- 51.江苏科技大学分数线预测(数据为往年仅供参考)预测—张家港江苏科技大学分数线预测(数据为往年仅供参考)预测
- 52.三句半搞笑台词;经典三句半台词大全爆笑
- 53.江西文科状元、江西文科状元张弘毅
- 54.指导意见_指导意见有没有法律效力
- 55.上海华东师范大学-上海华东师范大学第二附属中学
- 56.黄骅新世纪中学、黄骅新世纪中学宿舍图片
- 57.节约用电标语—节约用电标语幽默风趣
- 58.事业单位改革-事业单位改革2023
- 59.适合公司年会歌曲;适合公司年会歌曲大全
- 60.爱情短语;爱情短语5到7个字
- 51.abs泵编码在什么地方(abs泵编码在哪个位置)
- 52.光遇国际服下载华为(光遇国际服华为怎么下载)
- 53.海尔冰柜价格一览表,现在海尔的冰柜大概多少钱?
- 54.海尔洗衣机电话人工电话,海尔售后电话是多少
- 55.容声冰箱维修上门,容声冰箱售后维修服务不行上门维修什么都没看就说要大修要六七百
- 56.赛尔号布莱克暴怎么打,希尔科烈娜塔大砍
- 57.iphone13主题桌面下载***,手机主题桌面下载
- 58.长虹售后服务网点,长虹电视售后服务电话
- 59.折叠屏性价比排行榜,折叠屏手机性价比排行
- 60.老公出轨回归后同房突然软了(老公出轨回归后同房突然软了,是不是心还在小三那)
- 61.怎么查中标单位,中标单位信息查询
- 62.公路都是下浮多少点,高速公路收费有变化
- 63.宝鸡陕安小区有多少楼,陕西宝鸡调整防控区域
- 64.绿地城商业什么时候修,「楼盘评测」绿地城西区
- 65.车陂街办事处有什么主要机关,天河丨车陂街第21场读书会
- 66.未央财政局工资多少,到手工资又变了
- 67.怎么找移动室分工程,我县有了移动核酸检测基地
- 68.网闸什么时候出来的,都能给客户解决什么问题
- 69.神木第二幼儿园在哪里,走进神木市第二幼儿园
- 70.鹏睿地产怎么样,上海最早看到日出的地方

