[發明專利]獲取多音字拼音、基于拼音檢索的方法及其相應裝置有效
| 申請號: | 201210102573.6 | 申請日: | 2012-04-09 |
| 公開(公告)號: | CN103365925A | 公開(公告)日: | 2013-10-23 |
| 發明(設計)人: | 吳躍進 | 申請(專利權)人: | 高德軟件有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 逯長明;王寶筠 |
| 地址: | 100080 北京市昌*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 獲取 多音字 拼音 基于 檢索 方法 及其 相應 裝置 | ||
技術領域
本申請涉及信息檢索技術領域,特別涉及一種獲取多音字拼音的方法及裝置、基于文字拼音的檢索方法及裝置。
背景技術
隨著信息技術的發展,涌現出越來越多的基于文字拼音的信息檢索系統。這些信息檢索系統通過直接接收文字拼音或將接收的文字按照默認方式轉換為相應拼音后,以拼音為索引查找預置拼音數據庫,獲得與該拼音對應的一個或多個關鍵詞,然后根據關鍵詞進行海量信息檢索獲得檢索結果。比如,百度搜索引擎可基于輸入的漢語拼音給出提示詞條,用戶選擇相應詞條后,即以相應詞條進行搜索獲得相應信息;車載導航儀在接收漢字拼音首字母后可快速檢索出海量地理信息。這些檢索系統完成檢索依賴于拼音數據庫。拼音數據庫以拼音為索引組織數據,一個拼音可標識具有該相同拼音的多個詞組、短語或者句子。以中文拼音數據庫為例,一種基于文字拼音的數據組織過程是:將漢字對應的漢語拼音建立一一對應的哈希表,漢字有多個讀音時選擇一個常規音作為默認音,將具有相同拼音的漢字或詞組放置于相同區域構建成數據庫,以便在接收到拼音時從該數據庫中查找漢字檢索詞。與該方式類似的還有根據漢字在GBK(漢字國際擴展碼)編碼表內的分布情況獲取拼音(參見圖1(a)、圖1(b)),或者將上述兩種方式結合起來用于獲取拼音,進而基于文字拼音的數據組織。但是,這些獲取文字拼音的方式由于對多音字采取默認音,因此,大多數情況下無法獲取多音字在不同語境下的正確拼音。此外,上述獲取的多音字拼音僅有默認音,減少了以相同拼音組織數據的數據庫的信息容量、增加了數據庫內的數據的錯誤率,進而導致依據拼音對應的關鍵詞進行檢索后獲得的檢索結果準確率降低。
發明內容
為解決上述技術問題,本申請實施例的目的在于提供一種獲取多音字拼音的方法與裝置,以及基于文字拼音的檢索方法與裝置,以獲取多音字在不同語境下的正確讀音以及提高基于文字拼音進行檢索的檢索準確率。
本申請實施例提供的獲取多音字拼音的方法包括:
獲取文字串;
對所述文字串進行分詞處理,以獲得至少一個分詞;
將所述分詞與預設的多音字表進行匹配,以判斷分詞是否包含多音字,若包含多音字,則將該分詞與預設多音字詞語表進行匹配,以獲得多音字在該分詞中的拼音,所述多音字詞語表為包含多音字的詞語與多音字在該詞語中的拼音之間的對應關系表。
優選地,若所述包含多音字的分詞中進一步包含非多音字,則所述方法還包括:
獲取所述分詞中每個非多音字的拼音;
將所述分詞中非多音字的拼音和多音字的拼音組合為所述分詞的拼音;
以所述分詞的拼音或拼音的首字母為索引,將所述分詞添加到拼音數據庫中。
優選地,獲取所述分詞中每個非多音字的拼音,具體包括:
通過查找GBK編碼表,獲得所述分詞中每個非多音字的拼音。
優選地,將分詞與預設的多音字表進行匹配以判斷分詞是否包含多音字,具體包括:
將所述分詞中的每個漢字分別與所述預設的多音字表進行匹配,若所述分詞包含所述預設多音字表中的漢字,則確定所述分詞包含多音字。
優選地,所述預設多音字表中包含各多音字對應的默認音,若從預設多音字詞語表中未獲得所述分詞中的多音字的拼音,則所述方法還包括:
從所述預設多音字表中,獲取所述分詞中多音字對應的默認音,將所述默認音作為所述分詞中的多音字的拼音。
優選地,將所述分詞與預設多音字詞語表進行匹配以獲得該分詞中的多音字的拼音,包括:
確定所述分詞中的多音字在該分詞中的位置;
從所述多音字詞語表中確定出至少一個預選分詞,所述預選分詞包含所述分詞中的多音字,且該多音字在所述預選分詞中的位置與該多音字在所述分詞中的位置相同;
將所述分詞與確定出的預選分詞進行匹配,若匹配成功,則從所述多音字詞語表中,獲取與所述分詞匹配的預選分詞中的多音字的拼音,將所述預選分詞的多音字的拼音,確定為所述分詞中的相應多音字的拼音。
本申請實施例提供的獲取多音字拼音裝置包括:第一獲取單元、切分單元、第一匹配單元和第二匹配單元,其中:
所述第一獲取單元,用于獲取文字串;
所述切分單元,用于對所述文字串進行分詞處理,以獲得至少一個分詞;
所述第一匹配單元,用于將分詞與預設多音字表進行匹配,以判斷分詞是否包含多音字,若包含多音字,則觸發第二匹配單元;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于高德軟件有限公司,未經高德軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210102573.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:在文件系統中用于保存快照的方法和裝置
- 下一篇:一種搜索結果排序方法和裝置





