[發明專利]基于語義特性提取位置指示詞的位置推斷方法有效
| 申請號: | 201910088827.5 | 申請日: | 2019-01-29 |
| 公開(公告)號: | CN109918579B | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 劉粉林;田合嬋;喬亞瓊;朱瑪;羅向陽 | 申請(專利權)人: | 中國人民解放軍戰略支援部隊信息工程大學 |
| 主分類號: | G06F16/9537 | 分類號: | G06F16/9537;G06F16/9536;G06F16/35;G06F40/289;G06F40/30;G06K9/62 |
| 代理公司: | 鄭州聯科專利事務所(普通合伙) 41104 | 代理人: | 劉建芳 |
| 地址: | 450001 河*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語義 特性 提取 位置 指示 推斷 方法 | ||
1.基于語義特性提取位置指示詞的位置推斷方法,其特征在于:包括如下步驟:
A:數據預處理,對所有用戶發布的所有推文數據進行預處理;
B:詞語篩選,基于信息增益率對詞語進行初步篩選;
C:位置指示詞提取,利用word2vec構建詞向量,基于語義特性提取位置指示詞;
所述步驟C中,詞語提取具體包括如下步驟:
C1,計算詞向量:將訓練集用戶的tweets作為語料庫,利用word2vec計算語料庫中每個詞語的詞向量;
C2,聚類詞語:利用現有的聚類算法基于詞向量將篩選得到的詞語聚為k個簇,語義相似的詞語會被聚到一起,每一個簇內的詞語可看作同一類詞語;
C3,詞語提取:基于聚類形成的k個簇,把每一個簇看作一個整體,將位置指示詞提取的過程看作是特征選擇的過程;因此,位置指示詞的提取過程,就是從k個簇中選出最佳的子集,
所述的步驟C3中,詞語提取具體包括如下步驟:
C3.1,從k個簇構成的全集開始搜索簇子集,當前的簇子集記為Wo;在訓練集上,利用5折交叉驗證法估計基于簇子集Wo訓練的分類器的平均分類錯誤率,記為Eo;
C3.2,從當前的簇子集Wo中,依次任意地刪除一個簇,得到一個新的簇子集;在訓練集上,利用五折交叉驗證法估計基于新的簇子集訓練的分類器的平均分類錯誤率;將平均分類錯誤率最小的新的簇子集記為W#,其平均分類錯誤率記為E#;
C3.3,如果E#小于或等于Eo,那么將當前的簇子集Wo更新為W#,Eo更新為E#;跳轉到步驟C3.2,繼續搜索最佳簇子集;
C3.4,否則E#大于Eo,停止搜索,算法結束;停止搜索時,當前的簇子集Wo中詞語構成位置指示詞集合;
D:分類器訓練,利用位置指示詞訓練樸素貝葉斯分類器;
E:用戶位置推斷,利用訓練好的樸素貝葉斯分類器推斷用戶位置。
2.根據權利要求1所述的基于語義特性提取位置指示詞的位置推斷方法,其特征在于:所述步驟A中,數據預處理具體包括如下步驟:
A1,聚合推文:將每個用戶發布的所有推文聚合為一個文本,有多少個用戶就有多少個文本;
A2,對標記后的用戶文本進行分詞:英文按空格分隔劃分詞語;中文利用現有的漢語分詞工具進行分詞;
A3,移除停用詞:對于使用不同語言的社交媒體用戶文本,需要根據相應的語言構建相應的停用詞詞表,基于構建的停用詞詞表,移除停用詞:
A4,移除低頻詞:移除詞頻小于閾值N1的詞語。
3.根據權利要求1所述的基于語義特性提取位置指示詞的位置推斷方法,其特征在于:所述步驟B中,詞語初步篩選具體包括如下步驟:
B1,計算信息增益率;
B2,詞語排序:按照詞語信息增益率的大小,對詞語進行降序排序;
B3,設置閾值篩選詞語:設置百分比閾值,選出信息增益率前N2%的詞語。
4.根據權利要求1所述的基于語義特性提取位置指示詞的位置推斷方法,其特征在于:所述的步驟D中,分類器訓練具體包括如下步驟:
D1,計算類先驗概率:即,計算位于位置lj的用戶占全部用戶的比例;
D2,計算條件概率:即,計算位置指示詞w_i出現在不同位置的用戶文本中的條件概率。
5.根據權利要求1所述的基于語義特性提取位置指示詞的位置推斷方法,其特征在于:
所述的步驟E中,用戶位置推斷具體包括如下步驟:
E1,計算待推斷位置的用戶位于每個位置的概率:即利用用戶的文本中出現的位置指示詞wi及詞頻teufi,計算用戶teu位于位置lj的概率:
E2,取概率最大的位置作為推斷結果:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍戰略支援部隊信息工程大學,未經中國人民解放軍戰略支援部隊信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910088827.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種應用于文旅的智能瀏覽方法及系統
- 下一篇:一種搜索方法及終端設備





