[發明專利]基于關鍵詞提取的實體名消岐方法有效
| 申請號: | 201910859136.0 | 申請日: | 2019-09-11 |
| 公開(公告)號: | CN110705295B | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 吳俊杰;部慧;陳禹州;李曄林;羅炎林 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/216;G06F40/242;G06K9/62 |
| 代理公司: | 北京遠大卓悅知識產權代理有限公司 11369 | 代理人: | 史霞 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 關鍵詞 提取 實體 名消岐 方法 | ||
1.基于關鍵詞提取的實體名消岐方法,其特征在于,包括以下步驟:
以固有監測實體名單中的實體名為基準,從互聯網上利用爬蟲程序爬取帶有實體名或者與實體名相關的未消岐的信息文本作為原始文本;
對原始文本去除非文字部分,采用中文停用詞表去除無效連接詞,得到待向量化文本;采用適應n=2的n-gram方法將待向量化文本進行向量化處理,得文本向量;
根據負面詞詞典將文本向量進行分詞過濾,得到分詞過濾后的語句;
通過HMM隱馬爾科夫模型對分詞過濾后的語句中的每個詞進行詞性標注,得到原始文本的初步實體名;
提取詞性標注后的語句的關鍵詞;
計算實體名與關鍵詞之間的相似性;
通過得到的相似性結果得到原始文本與實體名的消岐結果;
HMM隱馬爾科夫模型進行詞性標注的具體過程為:
將分詞過濾后的語句作為觀測序列,經過HMM隱馬爾科夫模型進行詞性標注后的序列為觀測序列;
觀測序列到隱藏序列是通過viterbi算法,利用語料統計得到的起始概率、發射概率和轉移概率來得到的,得到隱藏序列后即完成了詞性標注過程。
2.如權利要求1所述的基于關鍵詞提取的實體名消岐方法,其特征在于,中文停用詞表通過網絡上的開源網站獲得。
3.如權利要求1所述的基于關鍵詞提取的實體名消岐方法,其特征在于,負面詞詞典包括:否定詞、實體名所在領域的負面性名詞與實體名所在領域的負面性動詞。
4.如權利要求1所述的基于關鍵詞提取的實體名消岐方法,其特征在于,關鍵詞的提取采用text-rank、TF-IDF、SKE、word2vec+Kmeans或基于LDA的關鍵詞提取方法中的一種進行。
5.如權利要求1所述的基于關鍵詞提取的實體名消岐方法,其特征在于,使用text-rank、TF-IDF、SKE、word2vec+Kmeans和基于LDA的關鍵詞提取手段進行原始文本的關鍵詞提取。
6.如權利要求1所述的基于關鍵詞提取的實體名消岐方法,其特征在于,文本的命名實體與提取出的關鍵詞的相似性計算是通過word embedding得到的詞向量進行計算的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910859136.0/1.html,轉載請聲明來源鉆瓜專利網。





