[發明專利]確定方法、確定裝置、計算機裝置和計算機可讀存儲介質在審
| 申請號: | 201710620516.X | 申請日: | 2017-07-26 |
| 公開(公告)號: | CN107491425A | 公開(公告)日: | 2017-12-19 |
| 發明(設計)人: | 閆永剛;沈亮 | 申請(專利權)人: | 合肥美的智能科技有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/27 |
| 代理公司: | 北京友聯知識產權代理事務所(普通合伙)11343 | 代理人: | 尚志峰,汪海屏 |
| 地址: | 230601 安徽省合肥市經*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 確定 方法 裝置 計算機 可讀 存儲 介質 | ||
1.一種短文本相似度的確定方法,其特征在于,包括:
根據第一短文本確定包括至少一個第二短文本的相似文本數據集;
確定所述第一短文本與所述第二短文本之間的詞形相似度;
確定所述第一短文本或所述第二短文本與標準詞序的詞序相似度;
根據所述詞形相似度的第一預設權重值與所述詞序相似度的第二預設權重值,對所述詞形相似度與所述詞序相似度執行加權操作,以確定所述第一短文本與所述第二短文本的相似度。
2.根據權利要求1所述的短文本相似度的確定方法,其特征在于,所述在確定所述第一短文本與所述第二短文本之間的詞形相似度前,還包括:
收集短文本樣本集;
對所述短文本樣本集中的短文本樣本執行預處理操作,以獲得處理文本,所述預處理操作包括包括中文分詞、去除停用詞、文本特征化、文本去重與文本自定義詞典配置;
確定所述處理文本中的相似文本,以將多個相似文本導入預設數據庫;
根據預設的切割比例,將所述預設數據庫中的所述多個相似文本分別分配至訓練數據集與測試數據集;
根據機器學習算法,對所述訓練數據集中的所述多個相似文本建立迭代模型;
根據所述迭代模型,對第一權重值與第二權重值進行迭代更新,以將所述迭代模型的輸入與輸出差異最小時的所述第一權重值與所述第二權重值,分別確定為所述第一預設權重值與所述第二預設權重值,
其中,所述第一權重值為所述多個相似文本的詞形相似度的權重值,所述第二權重值為所述多個相似文本的詞序相似度的權重值。
3.根據權利要求2所述的短文本相似度的確定方法,其特征在于,確定所述第一短文本與所述第二短文本之間的詞形相似度,具體包括以下步驟:
根據第一計算公式,確定所述詞形相似度,
其中,所述第一計算公式為x為所述第一短文本,y為所述第二短文本,xt為所述第一短文本去除停用詞以后的短文本,yt為所述第二短文本去除停用詞以后的短文本,s(xt)為所述第一短文本去除所述停用詞后的有效單詞數量,s(yt)為所述第二短文本去除所述停用詞后的有效單詞數量,ts(xt,yt)為所述第一短文本與所述第二短文本去除所述停用詞后并去除重復詞后的相同單詞數量。
4.根據權利要求3所述的短文本相似度的確定方法,其特征在于,所述確定所述第一短文本或所述第二短文本與標準詞序的詞序相似度,具體包括以下步驟:
根據第二計算公式,確定所述詞序相似度,
其中,所述第二計算公式為所述baseline為指定場景的標準詞序,所述invCount(y)所述第二短文本y相對于所述baseline的逆序數,所述maxInvCount(baseline)為所述baseline的最大逆序數,所述n為所述第二短文本中的單詞數量。
5.根據權利要求4所述的短文本相似度的確定方法,其特征在于,所述根據所述詞形相似度的第一預設權重值與所述詞序相似度的第二預設權重值,對所述詞形相似度與所述詞序相似度執行加權操作,以確定所述第一短文本與所述第二短文本的相似度,具體包括以下步驟:
根據第三計算公式,確定所述相似度,
其中,所述第三公式為SenSim(x)=λ1×TermSim(x,y)+λ2×{Order_sim(baseline,y)}k,TermSim(x,y)為所述詞形相似度,λ1為所述第一預設權重值,Order_sim(baseline,y)為所述詞序相似度,λ2為所述第二預設權重值,k為與所述第一權重值相似近鄰的所述第二權重值的數量。
6.根據權利要求4所述的短文本相似度的確定方法,其特征在于,所述在確定所述第一短文本或所述第二短文本與標準詞序的詞序相似度前,還包括:
根據指定場景的屬性確定所述指定場景的標準詞序;
根據所述標準詞序,生成所述指定場景的同義詞庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥美的智能科技有限公司,未經合肥美的智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710620516.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:文字顯示方法、裝置及電子設備
- 下一篇:一種解決同時編輯文檔內容沖突的方法





