[發明專利]一種文本相似度的確定方法及設備有效
| 申請號: | 201810022280.4 | 申請日: | 2018-01-10 |
| 公開(公告)號: | CN108090047B | 公開(公告)日: | 2022-05-24 |
| 發明(設計)人: | 周春;鄭百成;黃妍明;方永毅;瞿榮;蔣運承 | 申請(專利權)人: | 華南師范大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/253;G06K9/62 |
| 代理公司: | 廣州新諾專利商標事務所有限公司 44100 | 代理人: | 羅毅萍 |
| 地址: | 510631 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 相似 確定 方法 設備 | ||
1.一種文本相似度的確定方法,其特征在于,包括:
獲取待確定相似度的第一文本和第二文本;
確定所述第一文本的語法相似度、主題相似度,及確定所述第二文本的語法相似度、主題相似度;
根據確定的語法相似度和主題相似度確定所述第一文本和所述第二文本之間的相似度;
確定所述第一文本和所述第二文本的主題相似度,包括:
分別將所述第一文本和所述第二文本映射至主題空間;其中,所述第一文本及所述第二文本分別對應至少一個主題;
獲取映射至所述主題空間的所述第一文本對應的至少一個第一主題向量及所述第二文本對應的至少一個第二主題向量;
根據所述至少一個第一主題向量、所述至少一個第二主題向量及第一預設規則,確定所述第一文本和所述第二文本的主題相似度;
其中,所述第一預設規則為:
其中,Stopic指示兩個文本的主題相似度,A指示第一主題向量,B指示第二主題向量,Ai指示第i個第一主題向量,Bi指示第i個第二主題向量,n指示第一主題向量或第二主題向量的個數,i大于等于1且小于等于n;
確定所述第一文本和所述第二文本的語法相似度,包括:
將所述第一文本中的語句進行分割獲得第一分詞集,并將所述第二文本中的語句進行分割獲得第二分詞集;
通過斯坦福Stanford工具分別確定所述第一分詞集及所述第二分詞集中的語句的語法結構組成;
根據確定的所述第一分詞集及所述第二分詞集中的語句的語法結構組成,確定所述第一文本和所述第二文本的語法相似度;
所述語法結構包括至少一種語法結構類型,根據確定的所述第一分詞集及所述第二分詞集中的語句的語法結構組成,確定所述第一文本和所述第二文本的語法相似度,包括:
分別確定所述第一分詞集包括語法結構類型及語法結構類型的數量,及所述第二分詞集包括語法結構類型及語法結構類型的數量;
根據獲取的所述第一分詞集及所述第二分詞集的語法結構類型及語法結構類型的數量,及第二規則確定所述第一文本和所述第二文本的語法相似度;
其中,所述第二規則為:
其中,Sgrammer指示兩個文本之間的語法相似度,sameCount指示所述第一分詞集及所述第二分詞集中相同語法結構類型的數量,m為所述第一分詞集包括的語法結構類型的數量,n為所述第二分詞集包括的語法結構類型的數量;
在根據確定的語法相似度和主題相似度確定所述第一文本和所述第二文本之間的相似度之前,還包括:
確定所述第一分詞集及所述第二分詞集中的分詞的位置相似度;其中,所述位置相似度用于指示文本中的一個分詞在一個語句中所在位置的相似程度;
根據確定的語法相似度和主題相似度確定所述第一文本和所述第二文本之間的相似度,包括:
根據確定的語法相似度和主題相似度及確定的位置相似度確定所述第一文本和所述第二文本之間的相似度;
根據確定的語法相似度和主題相似度及確定的位置相似度,確定所述第一文本和所述第二文本之間的相似度,包括:
通過第三規則確定所述第一文本和所述第二文本之間的相似度,其中,所述第三規則為:
S1(Sen1,Sen2)=a*Stopic+(1-a)(b*Sgrammer+(1-b)*(Sposition)),其中S1(Sen1,Sen2)指示兩個文本之間的相似度,Sposition指示兩個文本包括的分詞分別在各自的位置相似度,a指示主題權值,b指示語法類型權值;
在獲取待確定相似度的第一文本和第二文本之后,所述方法還包括:
確定所述第一文本和所述第二文本的情感相似度;
根據確定的語法相似度和主題相似度及確定的位置相似度確定所述第一文本和所述第二文本之間的相似度,包括:
根據確定的語法相似度和主題相似度、位置相似度及所述情感相似度確定所述第一文本和所述第二文本之間的相似度;
確定所述第一文本和所述第二文本的情感相似度,包括:
提取所述第一文本及所述第二文本中的至少一個程度副詞,其中,所述程度副詞用于指示對內容在程度上限定的副詞;
根據獲取的至少一個程度副詞及程度副詞與權值的映射關系,確定所述獲取的至少一個程度副詞對應的至少一個權值,其中,一個程度副詞對應一個權值;
根據確定的至少一個權值及第四預設規則,確定所述第一文本和所述第二文本的情感相似度;
其中,所述第四預設規則為:
CDegSim(Sen1,Sen2)=c*[abs(Deg(Sent1)-Deg(Sent2))]+(1-c)*S1(Sen1,Sen2),其中,CDegSim(Sen1,Sen2)指示兩個文本之間的情感相似度,Deg(Sent1)指示第一文本中程度副詞的權值,Deg(Sent2)指示第二文本中程度副詞的權值,c是句子間程度副詞權重差值對句子相似度的影響權值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南師范大學,未經華南師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810022280.4/1.html,轉載請聲明來源鉆瓜專利網。





