[發(fā)明專利]建立拼音數(shù)據庫的方法、裝置、電子設備及存儲介質有效
| 申請?zhí)枺?/td> | 201810229847.5 | 申請日: | 2018-03-20 |
| 公開(公告)號: | CN108416055B | 公開(公告)日: | 2021-05-25 |
| 發(fā)明(設計)人: | 張好 | 申請(專利權)人: | 北京三快在線科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/335;G06F16/31 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 袁禮君;王衛(wèi)忠 |
| 地址: | 100083 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 建立 拼音 數(shù)據庫 方法 裝置 電子設備 存儲 介質 | ||
本公開提供了一種建立拼音數(shù)據庫的方法及裝置、基于拼音檢索的方法及裝置、電子設備、計算機可讀存儲介質,涉及互聯(lián)網技術領域。該方法包括:構建拼音數(shù)據庫,所述拼音數(shù)據庫中包括漢字中的多音字的每種讀音及其初始概率;根據所述拼音數(shù)據庫建立對象標識?拼音索引;根據歷史搜索點擊行為數(shù)據,獲得相應多音字的每種讀音的統(tǒng)計概率;根據所述初始概率和統(tǒng)計概率獲得所述相應多音字的每種讀音的當前概率;根據所述相應多音字的每種讀音的當前概率更新所述對象標識?拼音索引。本公開可以在涉及多音字的拼音搜索中顯示用戶常用的搜索結果,并去除生僻讀音造成的冗余搜索結果。
技術領域
本公開涉及互聯(lián)網技術領域,尤其涉及一種建立拼音數(shù)據庫的方法及裝置、基于拼音檢索的方法及裝置、電子設備、計算機可讀存儲介質。
背景技術
隨著互聯(lián)網中信息數(shù)量的飛速增長,搜索服務變得越來越重要。例如人們出行時在地圖或出行軟件中搜索目的地,就餐時在點評或外賣軟件中搜索餐廳,網絡交友時在社交軟件中搜索用戶名等。其中,拼音搜索相比于漢字搜索,具有輸入方便、模糊查找范圍大等優(yōu)點,因而受到用戶的廣泛歡迎。目前許多搜索引擎以及應用程序中的搜索服務都同時支持漢字與拼音搜索。
在拼音搜索時經常會遇到多音字的情況,現(xiàn)有技術多數(shù)是通過語義進行識別,例如將“重慶”識別為“chongqing”,用戶無法通過“zhongqing”搜索出“重慶”。然而該方案無法識別無語義漢字文本,例如姓名、企業(yè)名等。在處理無語義漢字文本時,一部分現(xiàn)有技術不支持多音字,例如,“種”作為多音字可讀作“zhong”(三聲)、“zhong”(四聲)和“chong”,當用戶搜索“chongyang”時,無法搜出“種洋”,導致用戶無法得到想要的搜索結果;另一部分現(xiàn)有技術支持多音字的所有讀音,例如,“臘”可讀作“l(fā)a”和“xi”,當用戶搜索“zhangximei”時,可能匹配出“張臘梅”這個結果,大多數(shù)用戶并不知道“臘”也讀作“xi”,可能認為是一個錯誤的結果,影響搜索體驗。
因此現(xiàn)有拼音搜索的技術方案存在搜索結果不完全或搜索結果冗余的問題。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現(xiàn)有技術的信息。
發(fā)明內容
本公開的目的在于提供一種建立拼音數(shù)據庫的方法及裝置、基于拼音檢索的方法及裝置、電子設備、計算機存儲介質,進而至少在一定程度上克服由于現(xiàn)有技術的限制和缺陷而導致的拼音搜索的搜索結果冗余或搜索結果不完全的問題。
本公開的其他特性和優(yōu)點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習得。
根據本公開的一個方面,提供一種建立拼音數(shù)據庫的方法,包括:構建拼音數(shù)據庫,所述拼音數(shù)據庫中包括漢字中的多音字的每種讀音及其初始概率;根據所述拼音數(shù)據庫建立對象標識-拼音索引;根據歷史搜索點擊行為數(shù)據,獲得相應多音字的每種讀音的統(tǒng)計概率;根據所述初始概率和統(tǒng)計概率獲得所述相應多音字的每種讀音的當前概率;根據所述相應多音字的每種讀音的當前概率更新所述對象標識-拼音索引。
在本公開的一種示例性實施例中,所述構建拼音數(shù)據庫,所述拼音數(shù)據庫中包括漢字中的多音字的每種讀音及其初始概率包括:將所述對象標識劃分為第一部分和第二部分;為所述第一部分中的多音字的第一讀音設置第一初始概率;為所述第一部分中的多音字的第二讀音設置第二初始概率;其中,所述第一初始概率大于所述第二初始概率,且所述第一初始概率與所述第二初始概率之和為一預設常數(shù)。
在本公開的一種示例性實施例中,所述構建拼音數(shù)據庫,所述拼音數(shù)據庫中包括漢字中的多音字的每種讀音及其初始概率還包括:為所述第二部分中的多音字的每種讀音分別設置相同的第三初始概率;其中,每種讀音的所述第三初始概率之和為所述預設常數(shù)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三快在線科技有限公司,未經北京三快在線科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810229847.5/2.html,轉載請聲明來源鉆瓜專利網。





