[發明專利]一種文本處理方法及裝置有效
| 申請號: | 201611220192.2 | 申請日: | 2016-12-26 |
| 公開(公告)號: | CN106649273B | 公開(公告)日: | 2020-03-17 |
| 發明(設計)人: | 董超;張霞;趙立軍;崔朝輝 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F16/33 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 李金;王寶筠 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 處理 方法 裝置 | ||
1.一種文本處理方法,其特征在于,所述方法包括:
隨機獲取兩個待檢測文本;
至少根據第一相似度算法和第二相似度算法,計算所述兩個待檢測文本之間的第一類型相似度和所述兩個待檢測文本之間的第二類型相似度,其中所述第一類型相似度根據所述第一相似度算法計算得到,所述第二類型相似度根據所述第二相似度算法計算得到,所述第一相似度算法和所述第二相似度算法中一種算法對詞的缺失敏感小于另一種算法對詞的缺失敏感;
根據所述第一類型相似度、所述第二類型相似度、第一閾值和第二閾值,得到所述兩個待檢測文本之間的相似度,其中所述第一閾值是預先得到的與所述第一相似度算法對應的閾值,所述第二閾值是預先得到的與所述第二相似度算法對應的閾值;
當所述兩個待檢測文本之間的相似度在預設范圍內時,確定所述兩個待檢測文本相似;
當所述兩個待檢測文本之間的相似度不在預設范圍時,確定所述兩個待檢測文本不相似。
2.根據權利要求1所述的方法,其特征在于,所述根據所述第一類型相似度、所述第二類型相似度、第一閾值和第二閾值,得到所述兩個待檢測文本之間的相似度,包括:
根據所述第一類型相似度和所述第一閾值,得到所述兩個待檢測文本之間的第一相似度;
根據所述第二類型相似度和所述第二閾值,得到所述兩個待檢測文本之間的第二相似度;
根據所述第一相似度、所述第二相似度、預設第一權重和預設第二權重,得到所述兩個待檢測文本之間的相似度。
3.根據權利要求1所述的方法,其特征在于,所述方法還包括:預先得到與所述第一相似度算法對應的第一閾值和預先得到與所述第二相似度算法對應的第二閾值;
所述預先得到與所述第一相似度算法對應的第一閾值和預先得到與所述第二相似度算法對應的第二閾值,包括:
隨機生成多組候選解,每組候選解包括一個與所述第一相似度算法對應的第三閾值和一個與所述第二相似度算法對應的第四閾值;
從所述多組候選解中得到多組最優候選解,其中多組最優候選解的獲取過程是:獲取每組候選解對應的適應度函數,通過所述每組候選解對應的適應度函數計算訓練集中的每對訓練樣本之間的相似度,根據所述每對訓練樣本之間的相似度,得到每組候選解的適應度,并根據所述每組候選解的適應度,選取多組最優候選解,每對訓練樣本包括兩篇由人工標注相似度的文本,最優候選解的適應度大于其他候選解的適應度;
對所述多組最優候選解中的第三閾值進行交叉變異,對所述多組最優候選解中的第四閾值進行交叉變異,得到多組新的候選解,并對所述多組新的候選解執行所述獲取過程以從多組新的候選解中得到多組最優候選解直至滿足預設條件;
選取適應度大于其他最優候選解的適應度的最優候選解,所選取的最優候選解中的第三閾值作為所述第一閾值,所選取的最優候選解中的第四閾值作為所述第二閾值。
4.根據權利要求3所述的方法,其特征在于,所述根據所述每組候選解的適應度,選取多組最優候選解,包括:
獲取所有候選解的適應度總和;
根據所述所有候選解的適應度總和和每組候選解的適應度,得到每組候選解的相對適應度;
隨機生成一個介于0和1之間的數值,并根據隨機生成的數值選取多組最優候選解。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611220192.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:休閑椅(61081)
- 下一篇:文本內容標簽標記方法以及裝置





