[發明專利]短文本相關性判別方法有效
| 申請號: | 201910653618.0 | 申請日: | 2019-07-19 |
| 公開(公告)號: | CN110348539B | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 薛嬌;黃波;李大任;李大海 | 申請(專利權)人: | 知者信息技術服務成都有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F40/289;G06F16/332 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 劉亞飛 |
| 地址: | 610000 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 相關性 判別 方法 | ||
1.一種短文本相關性判別方法,包括:
獲取兩個短文本的相似度得分;
獲取兩個短文本的重復度;以及
根據所述相似度得分和所述重復度將所述兩個短文本之間的相關性判別為無關、相似和重復之一;
所述獲取兩個短文本的重復度,包括:
獲取所述兩個短文本的關鍵詞重復度和編輯重復度;以及
將所述關鍵詞重復度和所述編輯重復度累加,獲取所述兩個短文本的重復度;
所述根據所述相似度得分和所述重復度將所述兩個短文本之間的相關性判別為無關、相似和重復之一,包括:
若所述相似度得分小于第三設定閾值,則將所述兩個短文本之間的相關性判別為無關;
若所述相似度得分大于或等于所述第三設定閾值且小于第四設定閾值,或者,所述相似度得分大于或等于所述第四設定閾值,且所述重復度等于0,則將所述兩個短文本之間的相關性判別為相似;其中,所述第四設定閾值大于所述第三設定閾值;
若所述相似度得分大于或等于所述第四設定閾值,且所述重復度不等于0,則將所述兩個短文本之間的相關性判別為重復。
2.根據權利要求1所述的短文本相關性判別方法,其中,獲取兩個短文本的相似度得分,包括:
分別獲取所述兩個短文本的相似度得分向量;
對每個所述相似度得分向量進行歸一化IDF加權,得到加權值;以及
計算所有所述加權值的均值,作為所述兩個短文本的相似度得分。
3.根據權利要求1所述的短文本相關性判別方法,其中,獲取所述兩個短文本的關鍵詞重復度,包括:
獲取所述兩個短文本的關鍵詞覆蓋率;
若所述關鍵詞覆蓋率大于或等于第一設定閾值,則所述關鍵詞重復度為1,否則所述關鍵詞重復度為0。
4.根據權利要求3所述的短文本相關性判別方法,其中,在獲取所述兩個短文本的關鍵詞覆蓋率的步驟之前,還包括:
分別提取所述兩個短文本的關鍵詞,包括:
分別對所述兩個短文本進行分詞處理,得到分詞序列;
去除所述分詞序列中的停用詞,得到處理后的分詞序列;
計算所述處理后的分詞序列中每個詞的IDF值;
將所述IDF值中的最大值的設定百分比作為提取閾值;以及
選取所述IDF值中大于所述提取閾值的IDF值對應的詞作為所述關鍵詞。
5.根據權利要求1所述的短文本相關性判別方法,其中,獲取所述兩個短文本的編輯重復度,包括:
若所述兩個短文本的編輯距離系數大于第二設定閾值,則所述編輯重復度為1,否則所述編輯重復度為0。
6.一種短文本相關性判別裝置,包括:
第一獲取單元,被配置成獲取兩個短文本的相似度得分;
第二獲取單元,被配置成獲取兩個短文本的重復度;以及
判別單元,被配置成根據所述相似度得分和所述重復度將所述兩個短文本之間的相關性判別為無關、相似和重復之一;
所述第二獲取單元,還被配置成獲取所述兩個短文本的關鍵詞重復度和編輯重復度;以及將所述關鍵詞重復度和所述編輯重復度累加,獲取所述兩個短文本的重復度;
所述判別單元,還被配置成若所述相似度得分小于第三設定閾值,則將所述兩個短文本之間的相關性判別為無關;若所述相似度得分大于或等于所述第三設定閾值且小于第四設定閾值,或者,所述相似度得分大于或等于所述第四設定閾值,且所述重復度等于0,則將所述兩個短文本之間的相關性判別為相似;其中,所述第四設定閾值大于所述第三設定閾值;若所述相似度得分大于或等于所述第四設定閾值,且所述重復度不等于0,則將所述兩個短文本之間的相關性判別為重復。
7.一種電子設備,包括:
一個或多個處理器;
存儲器,用于存儲一個或多個程序,
其中,當所述一個或多個程序被所述一個或多個處理器執行時,使得所述一個或多個處理器執行如權利要求1至5中任一項所述的方法。
8.一種計算機可讀介質,其上存儲有可執行指令,該指令被處理器執行時使處理器執行如權利要求1至5中任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于知者信息技術服務成都有限公司,未經知者信息技術服務成都有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910653618.0/1.html,轉載請聲明來源鉆瓜專利網。





