[發明專利]文本相似度的確定方法、裝置、電子設備及存儲介質在審
| 申請號: | 202010147508.X | 申請日: | 2020-03-05 |
| 公開(公告)號: | CN111382562A | 公開(公告)日: | 2020-07-07 |
| 發明(設計)人: | 李艾宇;殷超 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G10L15/02;G10L15/10;G10L15/26 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 張娜;臧建明 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 相似 確定 方法 裝置 電子設備 存儲 介質 | ||
1.一種文本相似度的確定方法,其特征在于,包括:
獲取待處理的第一文本和第二文本,并獲得對應的第一音節信息和第二音節信息;其中,所述第一音節信息包括第一文本中的每個字符的音節;所述第二音節信息包括第二文本中的每個字符的音節;
利用預設的音節相似度詞典,確定第一音節信息中的每個音節,與第二音節信息中的每個音節之間的相似度取值;
根據各相似度取值,確定第一文本和第二文本之間的相似度。
2.根據權利要求1所述的文本相似度的確定方法,其特征在于,所述根據各相似度取值,確定第一文本和第二文本之間的相似度,包括:
將各相似度取值作為矩陣元素,構建相似度矩陣;
利用動態規劃算法,確定相似度矩陣中的一個或多個最大相似路徑;
根據一個或多個最大相似路徑對應的相似度取值,確定第一文本和第二文本之間的相似度。
3.根據權利要求2所述的文本相似度的確定方法,其特征在于,所述利用動態規劃算法,確定相似度矩陣中的一個或多個最大相似路徑,包括:
在所述相似度矩陣中確定一個或多個子矩陣,其中,各子矩陣的矩陣元素不重疊,且每個子矩陣中的對角線沿線的各矩陣元素的均值大于預設的相似度閾值;
相應的,根據一個或多個最大相似路徑對應的相似度取值,確定第一文本和第二文本之間的相似度,包括:
對各子矩陣中的對角線沿線的各矩陣元素進行求和,得到各子矩陣的相似度取值;
根據各子矩陣的相似度取值,確定第一文本和第二文本之間的相似度。
4.根據權利要求2所述的文本相似度的確定方法,其特征在于,所述根據一個或多個最大相似路徑對應的相似度取值,確定第一文本和第二文本之間的相似度,包括:
確定各最大相似路徑的相似度取值之和,以及確定所述第一文本和第二文本的字符數量的均值;
所述各最大相似路徑的相似度取值之和與所述均值之比,構成所述第一文本和第二文本的相似度。
5.根據權利要求1所述的文本相似度的確定方法,其特征在于,所述獲得對應的第一音節信息和第二音節信息,包括:
對獲取的待處理的第一文本和第二文本進行字符分割處理,獲得分別獲得構成第一文本的字符和構成第二文本的字符;
對所述第一文本的字符和第二文本的字符進行音節轉換處理,以獲得每個字符對應的音節。
6.根據權利要求5所述的文本相似度的確定方法,其特征在于,所述每個字符對應的音節的數量為一個或多個。
7.根據權利要求5所述的文本相似度的確定方法,其特征在于,任一所述字符對應的音節中包括一個聲母音節和一個韻母音節,或/和,任一所述字符對應的音節中包括一個韻母音節。
8.根據權利要求5所述的文本相似度的確定方法,其特征在于,所述每個字符對應的音節中包括有構成音節的音符以及對應的音調。
9.根據權利要求1-8任一項所述的文本相似度的確定方法,其特征在于,所述獲取待處理的第一文本和第二文本,包括:
采集用戶輸入的語音信息;
對所述語音信息進行文本轉換處理獲得第一文本,以及將歷史文本中的任一文本作為第二文本;其中,所述歷史文本是對用戶歷史輸入的語音信息進行文本轉換處理得到的文本。
10.根據權利要求9所述的文本相似度的確定方法,其特征在于,還包括:
根據第一文本與各歷史文本之間的相似度,在各歷史文本中確定與第一文本相似度最高的文本,并將該相似度最高的文本所對應的答復文本作為第一文本對應的輸出文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010147508.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種清洗藍寶石晶片表面的方法
- 下一篇:意圖識別系統及方法





