[發明專利]一種基于文本的本體構建方法及裝置有效
| 申請號: | 202110069618.3 | 申請日: | 2021-01-19 |
| 公開(公告)號: | CN112733538B | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 柳少峰;肖紅 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/253;G06F40/242;G06F40/216 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 楊小紅 |
| 地址: | 510060 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 本體 構建 方法 裝置 | ||
1.一種基于文本的本體構建方法,其特征在于,包括:
對預置文本語料庫中的每一個句子進行分詞處理,并構建詞典;
基于預置概念提取法確定所述詞典中各詞語的詞語特征,并根據所述詞語特征和所述詞典確定概念集,所述詞語特征包括詞頻、詞頻-逆向文件頻率、關鍵詞和詞語-文檔數;
計算所述概念集中兩兩概念之間的關系強度,并根據所述關系強度確定關系類型;
根據所述概念集和所述關系類型構建本體概念關系圖;
所述計算所述概念集中兩兩概念之間的關系強度,并根據所述關系強度確定關系類型,包括:
統計任意兩個概念位于所述預置文本語料庫的同一個句子中的次數;
根據次數閾值和所述次數計算所述兩個概念之間的關系強度;
根據所述關系強度和預置語言模板獲取所述兩個概念的關系類型列表;
在排序后的所述關系類型列表中確定所述兩個概念之間的關系類型。
2.根據權利要求1所述的基于文本的本體構建方法,其特征在于,所述對預置文本語料庫中的每一個句子進行分詞處理,并構建詞典,之前還包括:
采用預置工具爬取初始文本信息,得到初始文本集合;
將所述初始文本集合根據預置過濾規則進行過濾,得到預置文本語料庫。
3.根據權利要求1所述的基于文本的本體構建方法,其特征在于,所述對預置文本語料庫中的每一個句子進行分詞處理,并構建詞典,包括:
通過預置分詞工具根據預設詞典對預置文本語料庫中的每一個句子進行分詞處理,得到多個詞語,并根據所述詞語構建為詞典。
4.根據權利要求1所述的基于文本的本體構建方法,其特征在于,所述預置概念提取法包括詞頻統計法、TF-IDF算法、TextRank算法和詞語文檔統計法;相應的,所述基于預置概念提取法確定所述詞典中各詞語的詞語特征,并根據所述詞語特征和所述詞典確定概念集,包括:
采用所述詞頻統計法統計所述詞典中各個詞語的初始詞頻;
采用所述TF-IDF算法計算所述詞典中各個詞語的初始詞頻-逆向文件頻率;
采用所述TextRank算法抽取所述詞典中的初始關鍵詞;
采用所述詞語文檔統計法統計所述詞典中包括同一個詞語的文檔數量,得到初始詞語-文檔數;
通過不同的閾值分別對所述初始詞頻、所述初始詞頻-逆向文件頻率、所述初始關鍵詞和所述初始詞語-文檔數進行篩選,得到詞語特征;
根據所述詞語特征在所述詞典中確定概念集,所述概念集包括多個詞語。
5.根據權利要求4所述的基于文本的本體構建方法,其特征在于,所述根據所述詞語特征在所述詞典中確定概念集,所述概念集包括多個詞語,之后還包括:
通過計算詞語之間的相似度的方式去除所述概念集中的非名詞概念和同義詞概念。
6.一種基于文本的本體構建裝置,其特征在于,包括:
分詞模塊,用于對預置文本語料庫中的每一個句子進行分詞處理,并構建詞典;
概念抽取模塊,用于基于預置概念提取法確定所述詞典中各詞語的詞語特征,并根據所述詞語特征和所述詞典確定概念集,所述詞語特征包括詞頻、詞頻-逆向文件頻率、關鍵詞和詞語-文檔數;
計算分析模塊,用于計算所述概念集中兩兩概念之間的關系強度,并根據所述關系強度確定關系類型;
構建模塊,用于根據所述概念集和所述關系類型構建本體概念關系圖;
所述計算分析模塊具體包括:
第三統計子模塊,用于統計任意兩個概念位于所述預置文本語料庫的同一個句子中的次數;
第三計算子模塊,用于根據次數閾值和所述次數計算所述兩個概念之間的關系強度;
獲取子模塊,用于根據所述關系強度和預置語言模板獲取所述兩個概念的關系類型列表;
第二確定子模塊,用于在排序后的所述關系類型列表中確定所述兩個概念之間的關系類型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110069618.3/1.html,轉載請聲明來源鉆瓜專利網。





