- · 《中国农业文摘-农业工程[05/29]
- · 《中国农业文摘-农业工程[05/29]
- · 《中国农业文摘-农业工程[05/29]
- · 《中国农业文摘-农业工程[05/29]
基于可拓语义的农产品生产销售知识检索
作者:网站采编关键词:
摘要:0 引言 知识检索是一种基于语义和知识关联的高级信息检索方式。相较于信息检索,知识检索实现了信息查询语义化、智能化,提高了检索的效率和准确率。知识检索过程中最重要的一
0 引言
知识检索是一种基于语义和知识关联的高级信息检索方式。相较于信息检索,知识检索实现了信息查询语义化、智能化,提高了检索的效率和准确率。知识检索过程中最重要的一步便是语义相似度计算,它用来表示概念之间的相关性,语义相似度越高,则越符合检索要求。因此,提出一种计算结果准确且高效的计算方法尤为重要。
近年来,一些学者研究了多种语义相似度计算方法并将其运用到了多个领域。文献[1]提出了一种基于农业本体的语义相似度计算方法,但是该算法受到地理实体、文献资料、经验等各个因素的影响,效率较低。文献[2]提出了一种计算义原相似度的算法,提高了检索结果的准确性,但第一独立义原对结果影响很大。文献[3]提出了加权语义复杂网络文本相似度计算方法,利用了文本网络中特征词节点间的信息,对于复杂的文本网络仍有一定的局限性。文献[4-5]提出了基于WordNet的语义相似度计算方法,具有更高的皮尔森相关系数,但只适用于词汇语义相似度计算。文献[6]提出一种自适应相似度综合加权计算方法,解决了传统综合加权计算时人工赋权的不足。文献[7]利用结构化的维基百科节点中的最短路径关系,对2个词条之间的关系进行刻画,过程略显复杂。
本文运用可拓学基础,提出的语义相似度算法,充分考虑信息量、距离、属性等信息对语义相似度的影响,具有更高的准确性。将本文算法应用于农产品生产销售知识检索,为农产品的供需双方提供便利。
1 农业知识表示和可拓描述
1983年,我国学者蔡文、杨春燕等人提出了一个新的学科—可拓学(extenics)。可拓论、可拓创新方法和可拓工程构成了可拓学[8]。可拓学的主要思想是利用创新的方法和理论解决各个领域中的矛盾问题。通过形式化描述矛盾问题将其转换为不矛盾问题,研究解决该问题的方法形成理论体系,形式化描述解决过程,转换成计算机可读的语言,智能化解决问题。不管面对什么样的问题,都需要遵循可拓逻辑,充分考虑事物本身的概念和特征,定量的表示逻辑值,形成可拓模型,通过可拓变换,推导矛盾问题,使计算机能够处理该问题。
实现农产品的生产销售平台首先需要解决的是农业知识表示这个关键问题[9]。通过使用统一的规则将知识进行描述,形成计算机可以识别的语言,方便进行语义相似度的计算[10]。本文的研究通过可拓学中的创新方法来对农业知识进行相似度的计算,从而完成知识检索。
本文所设计的流程图如图1所示。
图1 农产品产销平台的知识检索流程图Fig.1 Knowledge retrieval flowchart of agricultural product production and marketing platform
2 基于可拓学的知识表示
本文引入可拓论,对农业知识进行表示,为语义相似度计算提供结构化的描述。可拓学中事元、物元和关系元组成基元,是形式化描述事物及其相互关系的基本逻辑单元。我们以有序三元组R=(c,m,v)表示基元,其中c为对象,m为特征,v为量值,通过基元建立解决问题的可拓模型。
定义系统中有概念c,此概念具有n个特征分别为m1,m2,…,mn,各自对应的量值为v1,v2…,vn。所构成的阵列即为物元R,物元模型为:
本文将农业知识用物元模型表示,知识由信息构成,信息的基元表示称为信息元。可拓学以可拓模型为基础,研究可拓信息-知识-策略的形式化体系[9]。在本系统中,c为相关概念,有多个取值,对于在农产品生产销售中所需要的特征称为m,每个特征对应的值或描述称为v。
例如,对于农产品玉米,其物元表示为:
该物元表示的对象是玉米,选取了价格、产地、品种和别名等四个特征,其中特征价格的量值是2.3/kg,产地是石家庄,品种是郑丹958,别名有包谷、棒子、苞米等。该物元模型形象且准确的表示了玉米这个农业知识的相关信息,在农产品销售系统中,可以根据供需双方的物元计算语义相似度。
3 语义相似度算法
本文语义相似度计算方法从信息、语义距离和属性等方面来计算。在对农业知识进行可拓描述时,了解到各个概念的信息及相关属性值,形成物元模型,将其以树形结构存储。这样将各个概念进行了分类,得到了知识的层次结构。我们可以直观形象地观察出各个节点信息和节点之间的路径长度。
3.1 基于信息的语义相似度
基于信息的语义相似度计算是通过概念之间共有信息量来判断的[12],两个概念共有的信息的信息量需要追溯到二者的父节点[13],对共有信息在父节点中出现的次数进行量化。共有信息越多时,相似度越高[14]。概念C的信息量定义为:
文章来源:《中国农业文摘农业工程》 网址: http://www.zgnywznygc.cn/qikandaodu/2021/0313/777.html