[發明專利]一種實現漢語同音字檢索的方法有效
申請號: | 201210008298.1 | 申請日: | 2012-01-12 |
公開(公告)號: | CN102609455A | 公開(公告)日: | 2012-07-25 |
發明(設計)人: | 王杰中;周海濱;鄒娟;崔玉祥 | 申請(專利權)人: | 北京中科大洋科技發展股份有限公司 |
主分類號: | G06F17/30 | 分類號: | G06F17/30 |
代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 周國城 |
地址: | 100094 北*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 實現 漢語 同音字 檢索 方法 | ||
技術領域
本發明涉及漢字檢索技術領域,特別是一種實現漢語同音字檢索的方法。
背景技術
同音字是漢語言的一種特性,漢字中存在大量的同音字。用戶在檢索時,只知道一個字的讀音,不知道其具體寫法的情況是很常見的,因此,同音字檢索作為一種智能檢索方式應運而生。
傳統的實現漢語同音字檢索的方法有兩種:一種是利用漢語的詞庫,另一種是利用漢字的拼音。
漢語的詞匯量(指由漢字組成的詞組)是很大的,如果使用詞庫方式進行同音字檢索,需要建立龐大的同音詞庫,且檢索的時候,需要將用戶輸入的關鍵詞根據同音詞庫替換成若干同音詞,使一個輸入實際上變成多個輸入,降低了檢索的效率,同時增大了維護和擴展的成本。
另一種方式,是將每個漢字與其拼音關聯起來,當用戶輸入關鍵詞時,先將每個漢字轉換成拼音,再反向根據拼音查詢具有相同讀音的漢字,進行排列組合,生成若干同音關鍵詞組,再進行檢索。這種方式經排列組合之后,會生成非常多的同音關鍵詞組,尤其是當用戶輸入的關鍵詞包含漢字個數越多,這種現象越明顯,會使效率大大下降,如果對這些同音關鍵詞組進行篩選過濾,只保留有意義的詞組,無疑又涉及語法和詞法分析等方面的知識,門檻較高,成本較大。
發明內容
(一)要解決的技術問題
有鑒于此,本發明的主要目的在于提供一種實現漢語同音字檢索的方法,以提高漢字檢索的效率,降低成本。
(二)技術方案
為達到上述目的,本發明提供的了一種實現漢語同音字檢索的方法,該方法包括:
步驟1:建立常用漢字與其同音代表字之間的映射關系,并按照該映射關系對檢索數據庫中的原始全文內容進行映射,得到由多條映射記錄構成的檢索數據庫;
步驟2:按照該映射關系對用戶輸入的原始檢索關鍵詞進行映射,得到對應于該原始檢索關鍵詞的同音代表字串;
步驟3:在由多條映射記錄構成的檢索數據庫中對該同音代表字串進行檢索,得到檢索結果。
上述方案中,步驟1中所述建立常用漢字與其同音代表字之間的映射關系包括:以國家質量技術監督局2001年宣布的計算機漢字信息交換標準GB18030為依據,建立常用漢字與其同音代表字之間的映射關系,其中GB18030共包括70244個漢字,從具有相同發音的多個漢字中選取同音代表字。
上述方案中,步驟1中所述建立常用漢字與其同音代表字之間的映射關系包括:以國家語委漢字處制定的包括7000個漢字的現代漢語通用字表或以教育部目前正向社會征求意見的包括8300個漢字的通用規范漢字表為依據,建立常用漢字與其同音代表字之間的映射關系,從具有相同發音的多個漢字中選取同音代表字。
上述方案中,所述在從具有相同發音的多個漢字中選取同音代表字,是選用具有相同發音的任一個字做為其同音代表字,優選地是選用具有相同發音的第一個字做為其同音代表字。至于相同發音的規則,可以根據用戶不同的需求靈活決定,可以精確到相同拼音的不同聲調,也可以不區分相同拼音的不同聲調,或者可以不區分非卷舌舌音和卷舌音等。
上述方案中,所述原始全文內容和同音代表字信息保存在同一個數據庫表中,步驟1中所述映射記錄包括以下字段:記錄標識、原始全文內容和同音代表字信息,其中原始全文內容與同音代表字信息按照所述映射關系一一對應。所述步驟3包括:以該同音代表字串為檢索關鍵詞,在檢索數據庫映射記錄的同音代表字信息字段中進行檢索,檢索到與該同音代表字串匹配的同音代表字信息,然后根據該匹配的同音代表字信息確定檢索到的映射記錄,得到該映射記錄中的原始全文內容為檢索結果。
上述方案中,所述原始全文內容和同音代表字信息分別保存在不同的數據庫表中,步驟1中所述映射記錄包括以下字段:記錄標識、原始資源標識ID和同音代表字信息,其中原始資源標識ID與同音代表字信息按照所述映射關系一一對應,且在原始全文內容數據庫表中原始資源標識ID對應于原始全文內容。所述步驟3包括:以該同音代表字串為檢索關鍵詞,在檢索數據庫映射記錄的同音代表字信息字段中進行檢索,檢索到與該同音代表字串匹配的同音代表字信息,然后根據該匹配的同音代表字信息確定檢索到的映射記錄,得到該映射記錄中的原始資源標識ID,然后根據該原始資源標識ID到原始全文內容數據庫表中找到對應的記錄,得到原始全文內容為檢索結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科大洋科技發展股份有限公司,未經北京中科大洋科技發展股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210008298.1/2.html,轉載請聲明來源鉆瓜專利網。