[發(fā)明專利]相似度處理方法、裝置、服務(wù)器及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010593652.6 | 申請日: | 2020-06-27 |
| 公開(公告)號: | CN111753147A | 公開(公告)日: | 2020-10-09 |
| 發(fā)明(設(shè)計(jì))人: | 石斌 | 申請(專利權(quán))人: | 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903;G06F16/35;G06F40/194;G06K9/62 |
| 代理公司: | 北京市鑄成律師事務(wù)所 11313 | 代理人: | 包莉莉;武晨燕 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 相似 處理 方法 裝置 服務(wù)器 存儲 介質(zhì) | ||
本申請公開了相似度處理方法、裝置、服務(wù)器及存儲介質(zhì),涉及信息處理、自然語言處理領(lǐng)域。具體實(shí)現(xiàn)方案為:獲取第一字符串及第二字符串;確定所述第一字符串及所述第二字符串之間的音形相似度及字形相似度;基于所述音形相似度及所述字形相似度,確定所述第一字符串及所述第二字符串的綜合相似度。通過本申請實(shí)施例中所描述的方法,可以在從多個維度獲取所述第一字符串與所述第二字符串的相似度,從而提高所述相似度的精確性。
技術(shù)領(lǐng)域
本申請涉及計(jì)算機(jī)技術(shù)領(lǐng)域,本申請涉及數(shù)據(jù)處理、自然語言處理領(lǐng)域。
背景技術(shù)
在相關(guān)技術(shù)中,可以基于編輯距離算法來確定字符串之間的相似度,該編輯距離算法是針對字符串提出的一種距離度量方法。常用的編輯距離算法表示從一個字符串轉(zhuǎn)換為另一個字符串所需要的最小編輯次數(shù);即在一個字符串中插入一個字符,在一個字符串中刪除一個字符,或者,將字符串中的一個字符替換成另一個字符。但是,當(dāng)字符串中存在漢字時,如何準(zhǔn)確確定出中文或漢字組成的語句之間的相似度已成為需要解決的問題。
發(fā)明內(nèi)容
為了解決上述問題中的一個或多個,本申請?zhí)岢隽艘环N相似度處理方法、裝置及存儲介質(zhì)。
根據(jù)本申請的一方面,提供了一種相似度處理方法,包括:
獲取第一字符串及第二字符串;
確定所述第一字符串及所述第二字符串之間的音形相似度及字形相似度;
基于所述音形相似度及所述字形相似度,確定所述第一字符串及所述第二字符串的綜合相似度。
根據(jù)本申請的另一方面,提供了一種相似度處理裝置,包括:
獲取模塊,用于獲取第一字符串及第二字符串;
第一確定模塊,用于確定所述第一字符串及所述第二字符串之間的音形相似度及字形相似度;
第二確定模塊,用于基于所述音形相似度及所述字形相似度,確定所述第一字符串及所述第二字符串的綜合相似度。
根據(jù)本申請的另一方面,提供了一種電子設(shè)備,包括:
至少一個處理器;以及
與該至少一個處理器通信連接的存儲器;其中,
該存儲器存儲有可被該至少一個處理器執(zhí)行的指令,該指令被該至少一個處理器執(zhí)行,以使該至少一個處理器能夠執(zhí)行如前該的方法。
根據(jù)本申請的另一方面,提供了一種存儲有計(jì)算機(jī)指令的非瞬時計(jì)算機(jī)可讀存儲介質(zhì),其中,該計(jì)算機(jī)指令用于使該計(jì)算機(jī)執(zhí)行如前該的方法。
上述可選方式所具有的其他效果將在下文中結(jié)合具體實(shí)施例加以說明。
通過上述方案,能夠從多個維度來確定來獲取第一字符串與第二字符串的相似度,即從第一字符串與第二字符串的音形及字形的多個維度來確定第一字符串及第二字符串相似度;從而能夠大大提高確定第一字符串及第二字符串的相似度的準(zhǔn)確性。
應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
附圖用于更好地理解本方案,不構(gòu)成對本申請的限定。其中:
圖1是根據(jù)本申請一實(shí)施例的相似度處理方法的流程圖一;
圖2是根據(jù)本申請一實(shí)施例的音形相似度確定流程示意圖;
圖3是根據(jù)本申請一實(shí)施例的字形相似度確定流程示意圖;
圖4是根據(jù)本申請一實(shí)施例的相似度處理方法的流程圖二;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010593652.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





