[發明專利]類別專名挖掘方法及裝置在審
| 申請號: | 201410601567.4 | 申請日: | 2014-10-31 |
| 公開(公告)號: | CN104331456A | 公開(公告)日: | 2015-02-04 |
| 發明(設計)人: | 費曉旭;李興建;唐國華 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 路凱;胡彬 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 類別 專名 挖掘 方法 裝置 | ||
技術領域
本發明實施例涉及數據挖掘技術領域,尤其涉及一種類別專名挖掘方法及裝置。
背景技術
命名實體(Named?Engity)是人名、地名、機構名等以名稱為標識的實體,也叫做專名。一個專名可以同時屬于多個類別,例如“蘋果”這一專名,其可以屬于水果這一類別,也可屬于電子產品這一類別;一個類別也可以包括多個專名,例如,“北京”、“上海”和“深圳”等都屬于地名這一類別。專名是信息提取、問答系統、句法分析等多種自然語言處理技術所依賴的基礎資源。如果能將一些類別下所包含的各個專名挖掘出來,將非常有助于搜索產品來理解用戶所輸入的查詢句/詞,從而大大提高搜索結果的正確率與召回率。
目前,主要是通過對垂直網站內容進行挖掘來得到類別專名。比如,從黃頁網站挖掘機構名,從地理信息網站挖掘地名等。所謂垂直網站,指的是用于提供特定領域或滿足特定需求的全部深度信息和相關服務的網站。
但是,基于垂直網站內容挖掘得到的專名一般書寫比較規范整齊,而在搜索產品中用戶輸入的查詢句/詞隨意性卻很大,所以基于挖掘到的專名,也不能夠很好的理解用戶在搜索產品中輸入的查詢句/詞。比如電影名“少年派的奇幻漂流”,用戶在搜索時一般只輸入“電影少年派”。這樣,從垂直網站挖掘到的專名詞典只有規范的專名“少年派的奇幻漂流”,而沒有縮寫的專名“少年派”,這樣就會導致搜索產品在理解用戶查詢詞/句時無法識別“少年派”這種專名。
發明內容
本發明實施例提供一種類別專名挖掘方法及裝置,以提高挖掘準確率,便于后續能夠很好的理解用戶在搜索產品中輸入的查詢句/詞。
第一方面,本發明實施例提供了一種類別專名挖掘方法,該方法包括:
將預設的目標類別下的至少一個種子詞,與查詢句/詞集合中的查詢句/詞進行匹配,得到與所述至少一個種子詞對應的至少一個目標類別模板,其中所述查詢句/詞集合為用戶在搜索引擎中輸入的歷史查詢句/詞組成的集合;
將至少一個目標類別模板,與所述查詢句/詞集合中的查詢句/詞進行匹配,得到所述目標類別下與所述至少一個目標類別模板對應的至少一個候選專名。
第二方面,本發明實施例還提供了一種類別專名挖掘裝置,該裝置包括:
目標類別模板生成單元,用于將預設的目標類別下的至少一個種子詞,與查詢句/詞集合中的查詢句/詞進行匹配,得到與所述至少一個種子詞對應的至少一個目標類別模板,其中所述查詢句/詞集合為用戶在搜索引擎中輸入的歷史查詢句/詞組成的集合;
候選專名生成單元,用于將至少一個目標類別模板,與所述查詢句/詞集合中的查詢句/詞進行匹配,得到所述目標類別下與所述至少一個目標類別模板對應的至少一個候選專名。
本發明實施例提供的技術方案,區別于從垂直網站內容來挖掘專名,而是基于用戶在搜索引擎中輸入的歷史查詢句/詞所組成的這樣一個集合,首先利用預先生成目標類別下的至少一個種子詞,得到該集合中所包含的目標類別下的各個模板,然后再利用得到的各個模板來挖掘該集合中所包含的專名,從而能挖掘出其他方法很難挖到的專名,對專名詞典做了有力的補充,提高了專名挖掘的準確率,并且非常有利于后續對用戶在搜索產品中輸入的查詢句/詞的理解。
附圖說明
圖1是本發明實施例一提供的一種類別專名挖掘方法的流程示意圖;
圖2是本發明實施例二提供的一種類別專名挖掘方法的流程示意圖;
圖3是本發明實施例三提供的一種類別專名挖掘方法的流程示意圖;
圖4是本發明實施例四提供的一種類別專名挖掘方法的流程示意圖;
圖5是本發明實施例五提供的一種類別專名挖掘裝置的結構示意圖。
具體實施方式
下面結合附圖和實施例對本發明作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅僅用于解釋本發明,而非對本發明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發明相關的部分而非全部結構。
實施例一
圖1是本發明實施例一提供的一種類別專名挖掘方法的流程示意圖。本實施例可適用于對目標類別下的專名進行挖掘的情況,以幫助搜索產品來理解用戶所輸入的查詢句/詞,從而大大提高搜索結果的正確率與召回率。其中,目標類別可以是地名、歌曲、歌手或者電影等。所述方法可以由類別專名挖掘裝置來執行,該裝置可由軟件和/或硬件實現。參見圖1,本實施例提供的類別專名挖掘方法具體包括如下操作:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410601567.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:情景感知語音引導
- 下一篇:LNG蒸發氣體再冷凝配置和方法





