[發明專利]確定方法、確定裝置、計算機裝置和計算機可讀存儲介質在審
| 申請號: | 201710620516.X | 申請日: | 2017-07-26 |
| 公開(公告)號: | CN107491425A | 公開(公告)日: | 2017-12-19 |
| 發明(設計)人: | 閆永剛;沈亮 | 申請(專利權)人: | 合肥美的智能科技有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/27 |
| 代理公司: | 北京友聯知識產權代理事務所(普通合伙)11343 | 代理人: | 尚志峰,汪海屏 |
| 地址: | 230601 安徽省合肥市經*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 確定 方法 裝置 計算機 可讀 存儲 介質 | ||
技術領域
本發明涉及文本處理領域,具體而言,涉及一種短文本相似度的確定方法、一種短文本相似度的確定裝置、一種計算機裝置和一種計算機可讀存儲介質。
背景技術
相關技術中,短文本相似度計算是自然語言處理領域非常核心的知識點,一個好的短文本相似度計算方法能在很大程度上改進現有系統的性能。
目前短文本相似度計算的方法有很多,主要可以分為以下幾類:基于知識庫、基于語料庫、基于描述特征、基于機器翻譯結果的評測方法等,主要存在以下缺陷:
(1)基于知識庫的方法非常依賴所查詢的語義詞典的完備性,因為短文本可能存在未登錄詞而無法計算其語義相似度,導致結果不準確。且這種方法忽略了短文本間統計特征的相似度;
(2)基于特征的方法難點在于如何有效提取特征并自動獲取這些特征值。這種方法忽略了短文本間語義信息的相似度;
(3)與長文本相似度計算不同,短文本中個別噪音詞可能會對整個短文本的相似度計算干擾嚴重.
發明內容
為了解決上述技術問題至少之一,本發明的一個目的在于提供一種短文本相似度的確定方法。
本發明的另一個目的在于提供一種短文本相似度的確定裝置。
本發明的再一個目的在于提供一種計算機裝置。
本發明的又一個目的在于提供一種計算機可讀存儲介質。
為了實現上述目的,本發明第一方面的實施例提出了一種短文本相似度的確定方法,包括:根據第一短文本確定包括至少一個第二短文本的相似文本數據集;確定第一短文本與第二短文本之間的詞形相似度;確定第一短文本或第二短文本與標準詞序的詞序相似度;根據詞形相似度的第一預設權重值與詞序相似度的第二預設權重值,對詞形相似度與詞序相似度執行加權操作,以確定第一短文本與第二短文本的相似度。
在該技術方案中,在輸入第一短文本后,根據預設的場景同義詞庫確定第二端文本,以在確定第一短文本與第二短文本之間的詞形相似度,以及第一短文本或第二短文本與標準詞序的詞序相似度,進而將詞形相似度與詞序相似度進行加權計算,以得到第一短文本與第二短文本之間的相似度,根據待檢測的短文本的統計特征和語義信息,確定與相似鄰近數個第二短文本之間的文本相似度,能夠更加全面準確地衡量短文本相似度。
另外,本發明提供的上述實施例中的短文本相似度的確定方法還可以具有如下附加技術特征:
在上述技術方案中,優選地,在確定第一短文本與第二短文本之間的詞形相似度前,還包括:收集短文本樣本集;對短文本樣本集中的短文本樣本執行預處理操作,以獲得處理文本,預處理操作包括包括中文分詞、去除停用詞、文本特征化、文本去重與文本自定義詞典配置;確定處理文本中的相似文本,以將多個相似文本導入預設數據庫;根據預設的切割比例,將預設數據庫中的多個相似文本分別分配至訓練數據集與測試數據集;根據機器學習算法,對訓練數據集中的多個相似文本建立迭代模型;根據迭代模型,對第一權重值與第二權重值進行迭代更新,以將迭代模型的輸入與輸出差異最小時的第一權重值與第二權重值,分別確定為第一預設權重值與第二預設權重值,其中,第一權重值為多個相似文本的詞形相似度的權重值,第二權重值為多個相似文本的詞序相似度的權重值。
在該技術方案中,通過在執行相似度比較操作之前,根據收集到的短文本樣本集,采用基于機器的學習方式,將短文本樣本集進行迭代更新,分別以λ1=0.1,λ2=0.99開始迭代,迭代次數為100次,在迭代過程中,將迭代模型的輸入值與輸出值進行對比,對比結果差異性最小的λ1與λ2,作為對應的確定詞形相似度的第一預設權重值與詞序相似度的第二預設權重值,一方面,實現了權重值的最優化選擇,另一方面,可以依據實際需要方便調整權重的占有值,使用更加便捷。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥美的智能科技有限公司,未經合肥美的智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710620516.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:文字顯示方法、裝置及電子設備
- 下一篇:一種解決同時編輯文檔內容沖突的方法





