[發明專利]類別專名挖掘方法及裝置在審
| 申請號: | 201410601567.4 | 申請日: | 2014-10-31 |
| 公開(公告)號: | CN104331456A | 公開(公告)日: | 2015-02-04 |
| 發明(設計)人: | 費曉旭;李興建;唐國華 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 路凱;胡彬 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 類別 專名 挖掘 方法 裝置 | ||
1.一種類別專名挖掘方法,其特征在于,包括:
將預設的目標類別下的至少一個種子詞,與查詢句/詞集合中的查詢句/詞進行匹配,得到與所述至少一個種子詞對應的至少一個目標類別模板,其中所述查詢句/詞集合為用戶在搜索引擎中輸入的歷史查詢句/詞組成的集合;
將至少一個目標類別模板,與所述查詢句/詞集合中的查詢句/詞進行匹配,得到所述目標類別下與所述至少一個目標類別模板對應的至少一個候選專名。
2.根據權利要求1所述的類別專名挖掘方法,其特征在于,將預設的目標類別下的至少一個種子詞,與查詢句/詞集合中的查詢句/詞進行匹配,得到與所述至少一個種子詞對應的至少一個目標類別模板,包括:
針對預設的目標類別下的至少一個種子詞中的每個種子詞,分別與查詢句/詞集合中的各個查詢句/詞進行匹配,以判斷查詢句/詞集合中的各個查詢句/詞是否包含該種子詞;
如果所述查詢句/詞集合中的查詢句/詞包含該種子詞,則基于包含該種子詞的查詢句/詞中除該種子詞之外的剩余部分,得到與該種子詞對應的目標類別模板;或者
針對查詢句/詞集合中的各個查詢句/詞,分別與預設的目標類別下的至少一個種子詞中的每個種子詞進行匹配,以判斷該查詢句/詞是否包含種子詞;
如果該查詢句/詞中包含種子詞,則基于該查詢句/詞中除所包含的種子詞之外的剩余部分,得到與所包含的種子詞對應的目標類別模板;
將至少一個目標類別模板,與所述查詢句/詞集合中的查詢句/詞進行匹配,得到所述目標類別下與所述至少一個目標類別模板對應的至少一個候選專名,包括:
針對至少一個目標類別模板中的每個模板,與所述查詢句/詞集合中的各個查詢句/詞進行匹配,以判斷所述查詢句/詞集合中的各個查詢句/詞是否包含該模板;
如果查詢句/詞集合中的查詢句/詞包含該模板,則基于包含該模板的查詢句/詞中除該模板之外的剩余部分,得到與該模板對應的候選專名;或者
針對查詢句/詞集合中的各個查詢句/詞,與至少一個目標類別模板中的每個模板進行匹配,以判斷該查詢句/詞是否包含模板;
如果該查詢句/詞中包含模板,則基于該查詢句/詞中除所述所包含的模板之外的剩余部分,得到與所包含的模板對應的候選專名。
3.根據權利要求1或2所述的類別專名挖掘方法,其特征在于,在得到所述目標類別下與所述至少一個目標類別模板對應的至少一個候選專名之后,還包括:
根據至少一個目標類別模板中各模板的權重,以及與各模板對應的候選專名,確定所述至少一個候選專名中各個候選專名的權重;其中任一候選專名的權重為:與所述任一候選專名對應的所有目標類別模板的權重之和;
依據各個候選專名的權重,確定目標類別下的至少一個挖掘專名。
4.根據權利要求3所述的類別專名挖掘方法,其特征在于,在將預設的目標類別下的至少一個種子詞,與查詢句/詞集合中的查詢句/詞進行匹配,得到與所述至少一個種子詞對應的至少一個目標類別模板之后,且根據至少一個目標類別模板中各模板的權重,以及與各模板對應的候選專名,確定各個候選專名的權重之前,還包括:
生成與至少一個目標類別模板中的每個模板相對應的權重;其中任一模板的權重為與該模板對應的種子詞的個數。
5.根據權利要求4所述的類別專名挖掘方法,其特征在于,在得到所述目標類別下與所述至少一個目標類別模板對應的至少一個候選專名,且生成與至少一個目標類別模板中的每個模板相對應的權重之后,在根據至少一個目標類別模板中各模板的權重,以及與各模板對應的候選專名,確定各個候選專名的權重之前,還包括:
基于預設的正反例詞典,識別所得到的所述目標類別下與所述至少一個目標類別模板對應的至少一個候選專名中的正例專名和反例專名;
根據識別結果,對所生成的各模板的權重進行修正;其中,任一模板修正后的權重為:與該模板對應的修正比例與修正前權重之積;與該模板對應的修正比例為:在與該模板對應的所有候選專名中,正例專名個數占正例專名個數與反例專名個數之和的比重;
剔除所得到的所述目標類別下與所述至少一個目標類別模板對應的至少一個候選專名中的反例專名。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410601567.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:情景感知語音引導
- 下一篇:LNG蒸發氣體再冷凝配置和方法





