[發明專利]一種中文旅游領域知識圖譜構建方法及系統有效
| 申請號: | 201611241944.3 | 申請日: | 2016-12-29 |
| 公開(公告)號: | CN106777274B | 公開(公告)日: | 2018-05-29 |
| 發明(設計)人: | 張春霞;徐溥;彭飛;武嘉玉;王樹良 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京理工正陽知識產權代理事務所(普通合伙) 11639 | 代理人: | 唐華 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 旅游領域 實體屬性 圖譜構建 可信度 融合子 構建 融合 知識庫 智能信息處理 多值屬性 模式匹配 搜索引擎 非固定 固定型 結構化 算法 排序 圖譜 詞匯 學習 中文 應用 監督 | ||
1.一種旅游領域知識圖譜的構建方法,其特征在于,包括以下步驟:
步驟1,獲取旅游領域知識圖譜構建的語料;
步驟2,對步驟1所得的語料采用混合式方法進行實體屬性知識擴充;
步驟3,對步驟2所得的實體屬性知識進行實體屬性值融合;
步驟4,對步驟3所得結果基于可擴展標記語言XML構建旅游領域中文知識圖譜;
所述步驟2中混合式方法包括四個部分,分別是基于模式匹配的實體屬性知識擴充、基于屬性詞匯場的實體屬性知識擴充、基于監督學習的實體屬性知識擴充,以及基于搜索引擎問答的屬性知識擴充,具體如下:
第一,采用基于模式匹配的方法進行實體屬性知識擴充的具體內容如下:
首先,人工構建旅游領域實體基本屬性的屬性知識擴充的原始模式;
然后,利用《同義詞詞林》根據原始模式來學習屬性知識擴充的擴展模式;
最后,根據原始模式和擴展模式采用基于模式匹配的方法進行實體屬性知識擴充,即獲取三元組<實體,屬性,屬性值>;
第二,采用基于詞匯場的方法進行實體屬性知識擴充的具體內容如下:
首先,構建每個旅游領域實體基本屬性a的詞匯場;
然后,對于所述語料中的每個句子,計算句子中包含屬性a的詞匯場中詞語的總數m和平均權重w;若m和w大于給定閾值,則將該句子構建為擴充屬性a的屬性知識的候選句子;
最后,根據屬性a的屬性值的詞性從候選句子中提取旅游領域實體的屬性a的屬性值;
第三,采用基于搜索引擎問答的方法進行實體屬性知識擴充的具體內容如下:
將形如“e a”作為百度搜索引擎的查詢需求,其中e為旅游領域實體,a為屬性名稱,根據百度搜索引擎檢索結果,抽取旅游領域實體e的屬性a的屬性值;
第四,采用基于監督學習的方法進行實體屬性知識擴充的具體內容如下:
首先,根據屬性值的詞性從語料的句子中提取旅游領域實體的候選屬性值;
其次,對于提取出候選屬性值的句子提取其如下分類特征:候選屬性值v前后五個詞語的詞頻、v前后各五個詞語的詞性、v的長度、v在詞匯場中的權重、v前一詞是否為標點符號、v前三個詞是否包含否定詞、v在句子中的起始位置、v在句子中的結束位置、v所在句子中是否包含屬性觸發詞、v所在句子中屬性觸發詞與v的距離;
最后,基于訓練好的分類器采用多分類器投票法來判別候選屬性值是否為旅游領域實體的屬性的屬性值。
2.根據權利要求1所述的一種旅游領域知識圖譜的構建方法,其特征在于,所述步驟1通過以下過程完成:首先采集旅游領域實體詞條網頁構建為語料集,并定義旅游領域實體的基本屬性及其屬性值的詞性,以及根據旅游領域實體的基本屬性的特點,將其劃分為多值屬性、固定型單值屬性或非固定型單值屬性類別;然后對語料集網頁中的句子進行中文分詞和詞性標注;
實體的多值屬性是指實體的屬性存在多個屬性值,實體的固定型單值屬性是指實體的屬性只存在一個屬性值且表示方式唯一,實體的非固定型單值屬性是指實體的屬性只存在一個屬性值,但表示方式不唯一。
3.根據權利要求1所述的一種旅游領域知識圖譜的構建方法,其特征在于,所述基于訓練好的分類器采用多分類器投票法來判別候選屬性值是否為旅游領域實體的屬性的屬性值通過以下過程完成:首先,對于候選屬性值v,分別采用訓練好的決策樹、樸素貝葉斯、隨機森林,以及AdaBoost四種分類器來判別候選屬性值;分類標簽包括True和False兩類,True表示該候選屬性值判別為旅游領域實體的屬性值,False表示該候選屬性值不能判別為旅游領域實體的屬性值;然后,對于通過這四種分類器判別的候選屬性值v的分類結果,選擇數量較多的分類標簽作為分類結果;若數量較多的分類標簽為True,則構建三元組<實體,屬性,屬性值>。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611241944.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種地圖圍欄匹配方法
- 下一篇:基于多粒度語義塊的實體屬性和屬性值提取方法





