[發明專利]網絡搜索過程中關鍵詞的智能糾錯系統及方法無效
| 申請號: | 200710301710.8 | 申請日: | 2007-12-25 |
| 公開(公告)號: | CN101206673A | 公開(公告)日: | 2008-06-25 |
| 發明(設計)人: | 莊洪波;劉剛;劉建國;王洪濤;張研 | 申請(專利權)人: | 北京科文書業信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100011北京市東城區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡 搜索 過程 關鍵詞 智能 糾錯 系統 方法 | ||
1.一種網絡搜索過程中關鍵詞的智能糾錯系統,是在互聯網絡平臺上,首先,通過相關數據信息的訓練,建立相關的語言模型、對應的詞典和數據索引數據庫;然后,輸入文本,拼音糾錯部分計算音字錯誤,模糊匹配計算詞型糾錯;最后,將所有結果進行相關度過濾,對多個結果進行排序,得到最接近的幾個結果。該系統包括以下部分:
文本語料數據庫模塊:對數據庫中的數據進行分析、規范和初始化,作為訓練語料;
切分字符模塊:包括初始化相應的訓練詞典,并對訓練文本信息進行分詞處理;
統計語言模型模塊:對切分后的訓練文本計算,得到詞的概率模型和詞間的轉移概率模型;
建立索引模塊:建立訓練語料中詞和文檔位置的索引;
規范提示信息模塊:對訓練數據進行規范化處理,得到可能作為提示結果的規范化信息;
輸入搜索信息模塊:在輸入界面輸入相應的文字;
拼音糾錯模塊:切分字音轉換后的字符串,按照切分單位做拼音到漢字的轉換,使用動態規劃的算法,取得概率較大的幾個結果;
詞型匹配模塊:根據模糊匹配的原理,匹配相關的字詞,得到多個相近的結果;
相關度過濾模塊:對拼音糾錯結果和詞型糾錯結果作相關度計算,并使用訓練語料計算的索引過濾結果;最后
顯示結果模塊:輸出關鍵詞的提示結果。
2.如權利要求1所述的網絡搜索過程中關鍵詞的智能糾錯系統,其特征在于切分字串模塊針對不同的應用需求,采用不同的切分方法:在計算統計語言模型階段,對語料數據采用了基于正向最大匹配的切詞算法;在拼音糾錯階段的拼音字符串采用全切分的算法。
3.如權利要求1所述的網絡搜索過程中關鍵詞的智能糾錯系統,其特征在于統計語言模型模塊對詞的概率使用投籃法,對詞的轉移概率使用二元語法記錄。
4.如權利要求1所述的網絡搜索過程中關鍵詞的智能糾錯系統,其特征在于拼音糾錯模塊中,將轉化后的字符串進行切分,切分出以詞的拼音串為單位的拼音串、英文串和標點,之后把拼音串轉化成相應的漢字串,并對漢字串、英文串和標點等切分字符串進行統一的概率計算,儲存在文本語料數據庫中,以便在糾錯的過程中支持拼音、中英文、標點的混合串糾錯。
5.一種網絡搜索過程中關鍵詞的智能糾錯方法,包含如下步驟:
首先,在系統進行糾錯之前,針對數據信息訓練,得到統計語言模型、建立索引和規范的提示信息;
其次,輸入要搜索的關鍵詞到系統后,先執行拼音糾錯,對輸入字符串進行字音轉換,規范化為拼音、數字、英文字母或標點的字符串;
第三,進行字符串的切分,構造一個由分割的字符串組成的一個有向無環圖;
第四,把其中的拼音轉化成中文;
第五,使用動態規劃算法求得幾條最佳路徑,返回轉換之后的結果以及相應的概率值;
第六,在詞型糾錯階段,計算兩個字符串間的編輯距離,在給定的數據集內挑選最接近的提示;
第七,對拼音糾錯和詞型糾錯的計算結果,通過一定的排序算法重新排序并顯示在終端。
6.如權利要求5所述的一種網絡搜索過程中關鍵詞的智能糾錯方法,其特征在于在計算語言模型階段、建立索引和規范提示信息階段采用基于正向最大匹配的切詞算法。
7.如權利要求5所述的一種網絡搜索過程中關鍵詞的智能糾錯方法,其特征在于對中英文、數字、標點混合糾錯時,需要對字音轉化后的字符串進行切分,切分出以詞為單位的拼音串、英文串和標點。
8.如權利要求5所述的一種網絡搜索過程中關鍵詞的智能糾錯方法,其特征在于對拼音糾錯和詞型糾錯的計算結果按照重疊程度從高到低——>詞頻從低到高的規則進行排序。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京科文書業信息技術有限公司,未經北京科文書業信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710301710.8/1.html,轉載請聲明來源鉆瓜專利網。





