[發明專利]一種同義詞挖掘方法和裝置有效
| 申請號: | 201611233743.9 | 申請日: | 2016-12-28 |
| 公開(公告)號: | CN106649783B | 公開(公告)日: | 2022-12-06 |
| 發明(設計)人: | 謝瑜;張昊;朱頻頻 | 申請(專利權)人: | 上海智臻智能網絡科技股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/247;G06F40/279;G06F40/30 |
| 代理公司: | 工業和信息化部電子專利中心 11010 | 代理人: | 齊潔茹 |
| 地址: | 201803 上海市嘉*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 同義詞 挖掘 方法 裝置 | ||
1.一種同義詞挖掘方法,其特征在于,包括:
去除獲取的語料數據中無效格式的數據,并將剩余語料數據的格式統一為文本格式,以及過濾掉禁用詞,所述禁用詞包括敏感詞和/或臟詞;
對經上述處理后的語料數據進行分詞處理,得到多個單獨詞;
計算所述單獨詞的詞向量;
在計算所述單獨詞的詞向量之前或之后,獲取各所述單獨詞的詞性,并根據詞性對所述單獨詞進行過濾,保留詞性為名詞的單獨詞;和/或,獲取各所述單獨詞的詞頻,根據詞頻對所述單獨詞進行過濾,保留詞頻大于設定詞頻閾值的單獨詞;
根據所述詞向量對所述單獨詞進行聚類處理,得到同義詞集;
計算同一同義詞集中兩兩單獨詞之間的編輯距離,其中:編輯距離小于預設閾值的兩個單獨詞為縮略同義詞、編輯距離大于等于所述預設閾值的兩個單獨詞為非縮略同義詞;
針對于同義詞集內,將包括相同單獨詞的縮略同義詞進行合并,得到縮略同義詞集;
所述計算同一同義詞集中兩兩單獨詞之間的編輯距離,包括:
確定兩個單獨詞中由一個單獨詞變換到另一個單獨詞所需的編輯操作;
根據預先設置的對一個字符的不同編輯操作與編輯距離值的對應關系,計算確定的各編輯操作對應的編輯距離值的和值,并以該和值作為兩個單獨詞之間的編輯距離;
所述編輯操作包括:插入、刪除或替換,其中:插入一個字符的編輯距離為1,替換一個字符的編輯距離為1000,刪除一個字符的編輯距離為1;
所述根據所述詞向量對所述單獨詞進行聚類處理,包括:
初始化K值、中心點PK-1、以及聚類問題集{K,[PK-1]},其中,K表示聚類的類別數,K的初始值為1,中心點PK-1的初始值為P0,P0=Q1,Q1表示第一個單獨詞的詞向量,聚類問題集的初始值為{1,[Q1]};
從第二個單獨詞的詞向量開始,依次對剩下的詞向量進行聚類,計算當前詞向量與每個聚類問題集的中心點的相似度,如果當前詞向量與某個聚類問題集的中心點的相似度大于或等于預設值,則將當前詞向量聚類到相應的聚類問題集中,保持K值不變,將相應的中心點更新為聚類問題集中所有詞向量的向量平均值,相應的聚類問題集為{K,[聚類問題集中所有詞向量的向量平均值]};如果當前詞向量與所有聚類問題集中的中心點的相似度均小于預設值,則令K=K+1,增加新的中心點,所述新的中心點的值為當前詞向量,并增加新的聚類問題集{K,[當前詞向量]}。
2.如權利要求1所述的方法,其特征在于,對獲取的語料數據進行分詞處理,得到多個單獨詞,包括:
將語料數據按照語料中的特定標點劃分為多句;
通過新詞發現算法,獲取各句數據中的新詞,并根據獲取的新詞,更新分詞詞典;
根據更新后的分詞詞典對各句數據進行分詞處理,得到各句數據中的單獨詞。
3.如權利要求1所述的方法,其特征在于,所述計算所述單獨詞的詞向量具體包括:將所述單獨詞輸入到設定的向量模型,獲取所述向量模型輸出的所述單獨詞的詞向量。
4.如權利要求1所述的方法,其特征在于,所述方法還包括:
當確定出聚類處理的準確率小于預定準確率閾值時,調整聚類處理所采用的聚類算法中的指定參數值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海智臻智能網絡科技股份有限公司,未經上海智臻智能網絡科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611233743.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種圖片檢索方法和系統
- 下一篇:圖片存儲方法、圖片查找方法、裝置及終端





