[發明專利]標準文本匹配方法、裝置、存儲介質和電子設備在審
| 申請號: | 202011257154.0 | 申請日: | 2020-11-11 |
| 公開(公告)號: | CN112541051A | 公開(公告)日: | 2021-03-23 |
| 發明(設計)人: | 薛淼;孟格思;李敏;王瑜 | 申請(專利權)人: | 北京嘀嘀無限科技發展有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/289;G06K9/62 |
| 代理公司: | 北京睿派知識產權代理事務所(普通合伙) 11597 | 代理人: | 劉鋒 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標準 文本 匹配 方法 裝置 存儲 介質 電子設備 | ||
1.一種標準文本匹配方法,其特征在于,所述方法包括:
確定待匹配文本和標準文本集合,所述標準文本集合中包括多個標準文本;
確定包括所述待匹配文本中各匹配詞的匹配詞集合;
確定包括各所述標準文本中各標準詞的標準詞集合;
根據所述匹配詞集合確定所述待匹配文本對應的待匹配向量,根據各所述標準詞集合確定各所述標準文本對應的標準向量;
確定所述待匹配向量和各所述標準向量的第一相似度,以確定至少一個候選標準向量;
根據各所述候選標準向量對應標準詞集合與所述匹配詞集合的交集確定對應的第二相似度,以確定目標標準向量;
確定目標標準向量對應的標準文本為所述待匹配文本對應的目標標準文本。
2.根據權利要求1所述的方法,其特征在于,所述確定包括所述待匹配文本中各匹配詞的匹配詞集合具體為:
對所述待匹配文本進行分詞處理得到多個待匹配詞,以根據各所述待匹配詞確定匹配詞集合。
3.根據權利要求1所述的方法,其特征在于,所述確定包括各所述標準文本中各標準詞的標準詞集合具體為:
分別對各所述標準文本進行分詞處理得到多個標準詞,以根據對應的多個標準詞確定對應的標準詞集合。
4.根據權利要求1所述的方法,其特征在于,所述方法還包括:
根據各所述標準文本確定同義詞庫,所述同義詞庫中包括各所述標準文本對應的多個標準詞和與標準詞含義相同的標準詞。
5.根據權利要求4所述的方法,其特征在于,所述方法還包括:
在所述同義詞庫中確定所述匹配詞集合中各匹配詞對應的標準詞;
將所述匹配詞集合中的匹配詞替換為對應的標準詞。
6.根據權利要求1所述的方法,其特征在于,所述根據所述匹配詞集合確定所述待匹配文本對應的待匹配向量,根據各所述標準詞集合確定各所述標準文本對應的標準向量包括:
將所述匹配詞集合中各所述匹配詞分別輸入訓練好的詞向量轉換層,輸出對應的匹配詞向量,以拼接得到待匹配向量;
分別將各所述標準詞集合中的各所述標準詞輸入訓練好詞向量轉換層,輸出對應的標準詞向量,以拼接得到對應的標準向量。
7.根據權利要求1所述的方法,其特征在于,所述確定所述待匹配向量和各所述標準向量的第一相似度,以確定至少一個候選標準向量包括:
計算所述待匹配向量與各所述標準向量的余弦相似度,以確定第一相似度;
響應于所述第一相似度大于相似度閾值,確定對應的標準向量為候選標準向量。
8.根據權利要求1所述的方法,其特征在于,所述根據各所述候選標準向量對應標準詞集合與所述匹配詞集合的交集確定對應的第二相似度,以確定目標標準向量包括:
確定各所述候選標準向量對應標準詞集合與所述匹配詞集合的交集為相同詞集合;
對于各所述候選標準向量,計算對應的相同詞集合中各相同詞的權重值和,以確定對應的第二相似度;
確定對應的第二相似度最大的候選標準向量為目標標準向量。
9.一種標準文本匹配裝置,其特征在于,所述裝置包括:
信息確定模塊,用于確定待匹配文本和標準文本集合,所述標準文本集合中包括多個標準文本;
第一集合確定模塊,用于確定包括所述待匹配文本中各匹配詞的匹配詞集合;
第二集合確定模塊,用于確定包括各所述標準文本中各標準詞的標準詞集合;
向量確定模塊,用于根據所述匹配詞集合確定所述待匹配文本對應的待匹配向量,根據各所述標準詞集合確定各所述標準文本對應的標準向量;
候選向量確定模塊,用于確定所述待匹配向量和各所述標準向量的第一相似度,以確定至少一個候選標準向量;
目標向量確定模塊,用于根據各所述候選標準向量對應標準詞集合與所述匹配詞集合的交集確定對應的第二相似度,以確定目標標準向量;
目標文本確定模塊,用于確定目標標準向量對應的標準文本為所述待匹配文本對應的目標標準文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京嘀嘀無限科技發展有限公司,未經北京嘀嘀無限科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011257154.0/1.html,轉載請聲明來源鉆瓜專利網。





