[發明專利]一種對頁面標注標簽的方法及裝置有效
| 申請號: | 201410572809.1 | 申請日: | 2014-10-23 |
| 公開(公告)號: | CN104317891B | 公開(公告)日: | 2017-11-28 |
| 發明(設計)人: | 盧漢 | 申請(專利權)人: | 華為軟件技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同達信恒知識產權代理有限公司11291 | 代理人: | 馮艷蓮 |
| 地址: | 210012 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 頁面 標注 標簽 方法 裝置 | ||
技術領域
本發明涉及互聯網技術領域,特別涉及一種對頁面標注標簽的方法及裝置。
背景技術
隨著網絡全球化的發展和個人計算機的普及,互聯網已經成為獲取資訊,進行網絡通信的主要途徑。互聯網中,越來越多的信息以網頁的形式呈現,而網頁的設計也越來越復雜,多元化,因此,在互聯網上尋找目標信息所耗費的時間也較長。
為了更方便的從豐富的網頁中找到目標網頁,提高搜索效率,可以對網頁標注標簽,在對網頁標注標簽之后,即可以對網頁進行分類,以及在對網頁進行搜索時,可以基于標簽進行搜索,以提高搜索效率和準確性。
現有的在對頁面標注標簽時采用人工標注的方式,例如,網頁的后臺管理人員,根據網頁的內容對網頁標注標簽,由于該種方式主要依靠人工來操作,因此,需要大量的人力、處理效率較低,且準確性較低。
發明內容
本發明實施例提供一種對頁面標注標簽的方法及裝置,用以解決現有技術中依靠人工來對網頁標注標簽的方式,存在的人力消耗較大、處理效率較低和準確性較低的缺陷。
第一方面,提供一種對頁面標注標簽的方法,包括:
確定待標注標簽的頁面的第一關鍵詞組與類別;
從分類標簽庫中選擇與所述頁面的類別對應的子標簽庫,所述分類標簽庫中的任意一子標簽庫包括用于從不同元素表示該子標簽庫屬性的各個元素,及與每一個元素分別分別對應的元素信息;
查看選擇出的子標簽庫所包括的元素信息中是否存在與所述關鍵詞組中的任意一關鍵詞相同的元素信息;
將與所述任意一關鍵詞相同的元素信息作為所述頁面的標簽進行標注。
結合第一方面,在第一種可能的實現方式中,確定待標注標簽的頁面的第一關鍵詞組與類別之前,還包括:
采集訓練頁面,并對訓練頁面分類得到頁面類別;
對每一種頁面類別下的各個類訓練頁面抓取關鍵詞,獲得每一種頁面類別分別對應的第二關鍵詞組;
確定待標注標簽的頁面的類別,具體包括:
查找所述第一關鍵詞組所屬的第二關鍵詞組所對應的頁面類別;
將查找到的頁面類別作為所述待標注標簽的頁面的類別。
結合第一方面,以及第一方面的第一種可能的實現方式,在第二種可能的實現方式中,從分類標簽庫中選擇與所述頁面的類別對應的子標簽庫之前,還包括:
采用網絡爬蟲方式抓取各種頁面類別分別對應的按照預設規則組織頁面架構的訓練頁面;
針對任意一種頁面類別對應的訓練頁面,采集所述任意一種頁面類型對應的訓練頁面包括的各個元素,及所述各個元素分別對應的元素信息;
根據所述各個元素及所述元素信息組成所述頁面類別對應的子標簽庫。
結合第一方面,以及第一方面的第一種至第二種可能的實現方式,在第三種可能的實現方式中,所述任意一子標簽庫還包括所述每一個元素分別對應的元素信息所對應的概率值,其中,任意一元素對應的元素信息所對應的概率值為,所述元素信息出現在所述元素下的所有訓練頁面與采用網絡爬蟲方式抓取到的所有訓練頁面的比值;
將與所述任意一關鍵詞相同的元素信息作為所述頁面的標簽進行標注,具體包括:
確定與所述關鍵詞組中的任意一關鍵詞相同的至少一個元素信息分別對應的概率值;
將概率值大于預設概率門限值的元素信息作為所述頁面的標簽進行標注
結合第一方面,以及第一方面的第一種至第二種可能的實現方式,在第四種可能的實現方式中,所述任意一子標簽庫還包括所述每一個元素分別對應的元素信息所對應的信息熵,其中,任意一元素對應的元素信息所對應的信息熵,與所述元素信息出現在所述元素下的所有訓練頁面與采用網絡爬蟲方式抓取到的所有訓練頁面的比值呈負相關;
將與所述任意一關鍵詞相同的元素信息作為所述頁面的標簽進行標注,具體包括:
確定與所述關鍵詞組中的任意一關鍵詞相同的至少一個元素信息分別對應的信息熵;
將信息熵大于預設信息熵門限值的元素信息作為所述頁面的標簽進行標注。
結合第一方面的第三種至第四種可能的實現方式,在第五種可能的實現方式中,所述任意一元素信息對應的概率值是采用元素-元素信息的模式匹配方式計算得到的。
第二方面,提供一種對頁面標注標簽的裝置,包括:
確定單元,用于確定待標注標簽的頁面的第一關鍵詞組與類別;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為軟件技術有限公司,未經華為軟件技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410572809.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:不銹鋼箔制太陽電池基板材料及其制造方法
- 下一篇:半導體裝置





