[發明專利]一種中文垂直搜索的檢索串拆分方法有效
| 申請號: | 201310538096.2 | 申請日: | 2013-11-04 |
| 公開(公告)號: | CN103544309A | 公開(公告)日: | 2014-01-29 |
| 發明(設計)人: | 趙毅強;楊紅塵 | 申請(專利權)人: | 北京中搜網絡技術股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京安博達知識產權代理有限公司 11271 | 代理人: | 徐國文 |
| 地址: | 100191 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 垂直 搜索 檢索 拆分 方法 | ||
技術領域
本發明涉及一種計算機領域的方法和裝置,具體講涉及一種中文垂直搜索的檢錯串拆分方法。
背景技術
隨著網絡信息的爆炸式增長,垂直搜索引擎的數據來源和數據規模也在高速增長,為提高搜索的查準率,使用戶獲得更好的搜索體驗,關鍵在于理解用戶的查詢需求,按語義將用戶輸入的檢索串拆分為連續的短語。目前,檢索串拆分主要針對網頁搜索,拆分方法主要有兩類:基于實體詞典的方法和基于統計機器學習的方法,基于統計機器學習的方法又可分為有監督的學習方法和無監督的學習方法。
基于實體詞典的方法:由人工或半人工的方式收集實體名稱詞典,在其中查找分詞后的檢索串的子串,以前向最大匹配、后向最大匹配、最短切分路徑等啟發式策略獲得最終的切分結果。
有監督的學習方法:先人工搜集并切分一定數目的檢索串,以之作為語料庫,然后使用機器學習方法從語料中學習出相應的切分模型,再利用學習到的模型對新輸入的檢索串進行切分。
無監督的學習方法:以未切分的數據(檢索串或網頁數據)作為訓練語料,使用機器學習方法從中學習到隱含的模型(如短語的概率分布),并利用這些模型識別新輸入的檢索串中的短語,完成檢索串的切分。
基于實體詞典的方法在檢索串的切分過程中采用直接查找詞典條目的方式識別短語,不使用任何上下文信息,因此對歧義的處理能力比較差。同時為保證詞典的質量,詞典的構建和更新往往采用人工或半人工方式,導致詞典更新速度較慢,影響切分效果。
有監督的學習方法需要足夠規模的人工標注數據,由于不同領域的語言規律上的差異,針對不同的垂直搜索,通常需要構建不同的人工標注數據集合,這導致了人力成本方面的巨大開銷。
無監督的學習方法采用原始的未切分的數據作為訓練集合,因此所形成的短語結構的模型容易引入噪聲,加大了短語邊界判定上的誤差,導致切分準確率的下降。
發明內容
為了克服上述現有技術的不足,本發明提供一種針對中文垂直搜索的檢索串拆分方法,該方法基于詞典和用戶檢索語言模型的混合方法來識別中文垂直搜索檢索串中的短語,克服了詞典方法在處理歧義上的困難,避免了監督學習方法在人工語料標注上的開銷,降低了噪聲對無監督學習方法切分邊界的影響。
實現上述目的所采用的解決方案為:
一種中文垂直搜索的檢索串拆分方法,其改進之處在于:所述方法通過實體詞典和無監督學習方法拆分中文垂直搜索的檢索串,包括以下步驟:I、建立實體詞典和語言模型;
II、檢索串進行實體名稱匹配;
III、處理檢索串中非中文字符;
IV、檢索串分詞;
V、建立候選短語的權值矩陣;
VI、獲得檢索串所有候選短語的組合的權值;
VII、將權值最大的短語組合作為檢索串的拆分結果返回。
進一步的,所述步驟I中實體詞典通過人工或半人工方式構建和更新;所述語言模型使用無監督的學習方法根據用戶查詢日志構建。
進一步的,所述步驟II包括:用戶輸入所述檢索串;實體詞典查找所述檢索串;若所述檢索串為實體名稱條目,則將所述檢索串作為短語直接返回;否則進入所述步驟III。
進一步的,所述步驟III中遍歷所述檢索串的詞,處理獲得的非中文字符;所述處理包括:將非中文字符中的ASCII字符聚集為單詞;將寬字符字母和數字轉換為ASCII字符;將長數字串進行折疊;識別漢語拼音。
進一步的,所述步驟IV的檢索串的分詞和學習語言模型使用的分詞工具為同一個分詞工具,以防止學習到的語言模型無法為切分提供正確的支持
進一步的,所述步驟V包括:步驟1、將所述檢索串分詞,所有詞從左至右依次編號;
步驟2、將所述檢索串分為以詞為單位的子串,對所述子串分別賦予數值,所述數值用于衡量該子串成為短語的可能性;
步驟3、將所述數值的結構存放候選短語權值矩陣;所述矩陣為上三角陣,元素的行下標和列下標分別表示該候選短語的起始詞和結束詞的序號;
步驟4、所述檢索串被切分為n個詞,所述語言模型的最大階數為m,所述實體詞典為D,則候選短語權值矩陣W為n×n上三角陣,候選短語權值矩陣W的計算如下式1:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中搜網絡技術股份有限公司,未經北京中搜網絡技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310538096.2/2.html,轉載請聲明來源鉆瓜專利網。





