[發明專利]一種中文垂直搜索的檢索串拆分方法有效
| 申請號: | 201310538096.2 | 申請日: | 2013-11-04 |
| 公開(公告)號: | CN103544309A | 公開(公告)日: | 2014-01-29 |
| 發明(設計)人: | 趙毅強;楊紅塵 | 申請(專利權)人: | 北京中搜網絡技術股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京安博達知識產權代理有限公司 11271 | 代理人: | 徐國文 |
| 地址: | 100191 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 垂直 搜索 檢索 拆分 方法 | ||
1.一種中文垂直搜索的檢索串拆分方法,其特征在于:所述方法通過實體詞典和無監督學習方法拆分中文垂直搜索的檢索串,包括以下步驟:I、建立實體詞典和語言模型;?
II、檢索串進行實體名稱匹配;?
III、處理檢索串中非中文字符;?
IV、檢索串分詞;?
V、建立候選短語的權值矩陣;?
VI、獲得檢索串所有候選短語的組合的權值;?
VII、將權值最大的短語組合作為檢索串的拆分結果返回。?
2.如權利要求1所述的一種中文垂直搜索的檢索串拆分方法,其特征在于:所述步驟I中實體詞典通過人工或半人工方式構建和更新;所述語言模型使用無監督的學習方法根據用戶查詢日志構建。?
3.如權利要求1所述的一種中文垂直搜索的檢索串拆分方法,其特征在于:所述步驟II包括:用戶輸入所述檢索串;實體詞典查找所述檢索串;若所述檢索串為實體名稱條目,則將所述檢索串作為短語直接返回;否則進入所述步驟III。?
4.如權利要求1所述的一種中文垂直搜索的檢索串拆分方法,其特征在于:所述步驟III中遍歷所述檢索串的詞,處理獲得的非中文字符;?
所述處理包括:將非中文字符中的ASCII字符聚集為單詞;將寬字符字母和數字轉換為ASCII字符;將長數字串進行折疊;識別漢語拼音。?
5.如權利要求1所述的一種中文垂直搜索的檢索串拆分方法,其特征在于:所述步驟IV的檢索串的分詞詞典和語言模型使用的分詞工具為同一個分詞工具。?
6.如權利要求1所述的一種中文垂直搜索的檢索串拆分方法,其特征在于:所述步驟V包括:步驟1、將所述檢索串分詞,所有詞從左至右依次編號;?
步驟2、將所述檢索串分為以詞為單位的子串,對所述子串分別賦予數值,所述數值用于衡量該子串成為短語的可能性;?
步驟3、將所述數值的結構存放候選短語權值矩陣;所述矩陣為上三角陣,元素的行下標和列下標分別表示該候選短語的起始詞和結束詞的序號;?
步驟4、所述檢索串被切分為n個詞,所述語言模型的最大階數為m,所述實體詞典為D,則候選短語權值矩陣W為n×n上三角陣,候選短語權值矩陣W的計算如下式1:?
;其中:|si,j|為候選短語的長度,以詞為單位,即|si,j|=j-i+1,freq(si,j)為語言模型中短語si,j的頻率;i、j分別表示短語中詞的起始序號和結束序號;α(α≥0)為語言模型和實體詞典重要性比重的調節參數。?
7.如權利要求6所述的一種中文垂直搜索的檢索串拆分方法,其特征在于:若所述語言模型中沒有si,j對應的頻率,則使用一個很小的正值作為其頻率值,或使用平滑方法為其賦值。?
8.如權利要求1所述的一種中文垂直搜索的檢索串拆分方法,其特征在于:所述步驟VI中計算所有構成整個檢索串的所有連續短語組合的得分,所述短語組合的得分為該組合中所有候選短語的權值W的總和。?
9.如權利要求1所述的一種中文垂直搜索的檢索串拆分方法,其特征在于:所述步驟VII中選擇得分最高的連續短語組合作為切分結果,返回所述檢索串的拆分結果。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中搜網絡技術股份有限公司,未經北京中搜網絡技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310538096.2/1.html,轉載請聲明來源鉆瓜專利網。





