[發(fā)明專利]一種文本相似度計算方法、裝置、電子設備及存儲介質在審
| 申請?zhí)枺?/td> | 201811067840.4 | 申請日: | 2018-09-13 |
| 公開(公告)號: | CN109284502A | 公開(公告)日: | 2019-01-29 |
| 發(fā)明(設計)人: | 徐樂樂 | 申請(專利權)人: | 武漢斗魚網絡科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 430070 湖北省武漢市武漢東湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 匹配文本 文本相似度 輸入文本 語義相似度 存儲介質 電子設備 候選答案 權重計算 句型 相似度 詞性 綜合相似度 相關度 機器人 回復 集合 | ||
1.一種文本相似度計算方法,其特征在于,包括:
根據兩個待匹配文本句中相同詞的個數、每個詞在每個待匹配文本句中出現(xiàn)的次數以及所述每個詞的詞性權重計算所述兩個待匹配文本句的句型相似度;
根據每個詞在每個待匹配文本句中出現(xiàn)的次數以及所述每個詞的詞性權重計算所述兩個待匹配文本句的語義相似度;
根據所述句型相似度和所述語義相似度確定所述兩個待匹配文本句的綜合相似度。
2.根據權利要求1所述的方法,其特征在于,所述根據兩個待匹配文本句中相同詞的個數、每個詞在每個待匹配文本句中出現(xiàn)的次數以及所述每個詞的詞性權重計算所述兩個待匹配文本句的句型相似度,包括:
按照如下公式計算所述兩個待匹配文本句的句型相似度:
其中,WordSim(A,B)表示待匹配文本句A與待匹配文本句B的句型相似度,LA表示待匹配文本句A中詞的總數,LB表示待匹配文本句B中詞的總數,wk表示待匹配文本句A與待匹配文本句B中相同詞出現(xiàn)的次數,若所述相同詞在待匹配文本句A中出現(xiàn)的次數與在待匹配文本句B中出現(xiàn)的次數不同,則取較小值,k表示待匹配文本句A與待匹配文本句B中相同詞的個數,xi表示待匹配文本句A中的第i個詞出現(xiàn)的次數,hi表示待匹配文本句A中的第i個詞的詞性權重,yj表示待匹配文本句B中的第j個詞出現(xiàn)的次數,hj表示待匹配文本句B中的第j個詞的詞性權重。
3.根據權利要求1所述的方法,其特征在于,所述根據每個詞在每個待匹配文本句中出現(xiàn)的次數以及所述每個詞的詞性權重計算所述兩個待匹配文本句的語義相似度,包括:
按照如下公式計算所述兩個待匹配文本句的語義相似度:
其中,LA表示待匹配文本句A中詞的總數,LB表示待匹配文本句B中詞的總數,xi表示待匹配文本句A中的第i個詞出現(xiàn)的次數,hi表示待匹配文本句A中的第i個詞的詞性權重,yj表示待匹配文本句B中的第j個詞出現(xiàn)的次數,hj表示待匹配文本句B中的第j個詞的詞性權重。
4.根據權利要求1所述的方法,其特征在于,所述根據所述句型相似度和所述語義相似度確定所述兩個待匹配文本句的綜合相似度,包括:
按照如下公式計算所述兩個待匹配文本句的綜合相似度:
其中,SenSim(A,B)表示待匹配文本句A與待匹配文本句B的綜合相似度,WordSim(A,B)表示待匹配文本句A與待匹配文本句B的句型相似度,SemanticSim(A,B)表示待匹配文本句A與待匹配文本句B的語義相似度,為句型相似度對應的權重,為語義相似度對應的權重。
5.根據權利要求1-4任一項所述的方法,其特征在于,所述根據兩個待匹配文本句中相同詞的個數、每個詞在每個待匹配文本句中出現(xiàn)的次數以及所述每個詞的詞性權重計算所述兩個待匹配文本句的句型相似度;或者根據每個詞在每個待匹配文本句中出現(xiàn)的次數以及所述每個詞的詞性權重計算所述兩個待匹配文本句的語義相似度之前,所述方法還包括:
對所述兩個待匹配文本句進行分詞以及詞性標注處理。
6.根據權利要求5所述的方法,其特征在于,所述對所述兩個待匹配文本句進行分詞以及詞性標注處理,包括:
利用python中的jieba分詞工具對所述兩個待匹配文本句進行分詞以及詞性標注處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢斗魚網絡科技有限公司,未經武漢斗魚網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811067840.4/1.html,轉載請聲明來源鉆瓜專利網。





