软件工程: 讨论题-欧洲杯下单平台

讨论题：软件开发过程选择（课前预习思考，课堂讨论）

讨论题

知识图谱的构建技术

数据收集：

这是构建知识图谱的起始步骤，包括从各种来源收集相关数据，这些数据可以是结构化的数据库，如csv、json文件，也可以是文本、图片等非结构化数据。

知识抽取：实体识别与抽取：任务是识别出待处理文本中的命名实体，如人名、机构名、地名等。这通常涉及到实体边界识别和确定实体类型

关系抽取：从文本中抽取出两个或多个实体之间的语义关系，这可以看作是一个分类问题，通常使用有监督、半监督或无监督的方法进行

属性抽取：对给定的实体从非结构化文本中抽取出实体的属性及其属性值，形成结构化数据

知识存储：将抽取出来的实体和关系存储到图数据库中，如neo4j，它是一个高性能的nosql图形数据库，适合存储和查询图结构数据

知识融合：当数据来自多个不同源时，需要进行数据融合，以确保不同数据之间的一致性和准确性。这通常涉及到数据清洗、数据匹配等过程

知识推理：通过已有的知识进行推理，得出新的信息或关系。推理方法可以分为基于逻辑的推理和基于图的推理，如基于符号逻辑的推理、基于表运算的方法、基于datalog转换的方法等

知识表示：

rdf：资源描述框架，将信息表示为“主体-谓词-宾语”三元组的模型。

owl：web本体语言，基于rdf的一种更为复杂和强大的知识表示语言。

属性图模型：通过图结构来表示知识，其中节点代表实体，边代表关系，节点和边都可以附带属性

本体构建：本体是知识图谱中用来描述特定领域知识和概念的一组术语和定义。本体构建的关键在于准确地把握和表达领域知识，通常需要领域专家的参与

质量评估：对知识的可信度进行量化，通过舍弃置信度较低的知识来保障知识库的质量

深度学习的应用：深度学习技术在知识图谱构建中主要用于实体识别、关系提取和知识融合，可以提高识别的准确率和鲁棒性