[發明專利]網絡信息所屬地域識別方法及裝置在審
申請號: | 201710141330.6 | 申請日: | 2017-03-10 |
公開(公告)號: | CN106919705A | 公開(公告)日: | 2017-07-04 |
發明(設計)人: | 安倩;李永紅;張政勇 | 申請(專利權)人: | 北京搜狐新媒體信息技術有限公司 |
主分類號: | G06F17/30 | 分類號: | G06F17/30;H04L29/08 |
代理公司: | 北京集佳知識產權代理有限公司11227 | 代理人: | 王寶筠 |
地址: | 100084 北京市海淀區中*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 網絡 信息 所屬 地域 識別 方法 裝置 | ||
技術領域
本發明涉及通信技術領域,更具體的涉及網絡信息所屬地域識別方法及裝置。
背景技術
隨著因特網在全球范圍內的飛速發展,網絡媒體已被公認為是繼報紙、廣播、電視之后的“第四媒體”,網絡成為信息主要載體之一,網絡的傳播特性使得海量的網絡信息涌向用戶。
但用戶還是更關注發生在身邊的事情,因此如何能夠準確的識別網絡信息中的地域信息,顯得尤為重要。
發明內容
有鑒于此,本發明提供了一種網絡信息所屬地域識別方法及裝置,以克服現有技術中沒有識別網絡信息所屬地域的問題。
為實現上述目的,本發明提供如下技術方案:
一種網絡信息所屬地域識別方法,包括:
獲取網絡信息中包括的地域集合,所述地域集合包括至少一個地域;
依據所述地域集合中每一地域在所述網絡信息中出現的次數以及位置,確定每一地域相應的權重,權重用于表征所述網絡信息所屬地域為相應地域的概率;
依據每一地域相應的權重,從所述地域名稱集中,確定所述網絡信息所屬地域。
其中,所述獲取網絡信息中包括的地域名稱集包括:
將所述網絡信息進行劃分,獲得多個詞;
從所述多個詞中,獲得與預先存儲的各地域相匹配的目標詞;
由所述目標詞組成所述地域集合。
其中,所述依據所述地域集合中每一地域在所述網絡信息中出現的次數以及位置,確定每一地域相應的權重包括:
判斷所述地域集合中每一地域在所述網絡信息中出現的位置;
當所述地域集合中第一地域在所述網絡信息中的標題位置時,依據第一函數計算所述第一地域的權重,所述第一函數以相應地域在所述標題中的位置為因變量,以權重為自變量的函數,且所述第一函數的自變量和因變量為負相關;
當所述地域集合中第二地域在所述網絡信息的正文中位置時,依據第二函數計算所述第二地域的權重,所述第二函數以相應地域在所述正文中的位置為因變量,以權重為自變量的函數,且所述第二函數的自變量和因變量為負相關。
其中,所述依據所述地域集合中每一地域在所述網絡信息中出現的次數以及位置,確定每一地域相應的權重,還包括:
當所述地域集合中第三地域在所述網絡信息中出現的次數大于等于兩次時,將所述第三地域對應的各權重相加;
將所述第三地域對應的各權重相加之和,確定為所述第三地域的權重。
其中,所述依據每一地域相應的權重,從所述地域名稱集中,確定所述網絡信息所屬地域包括:
依據預先存儲的用于表征各地域所屬關系的上下級關系,判斷所述地域集合中各地域之間是否具有上下級關系;
當所述地域集合中至少兩個地域之間具有上下級關系時,將所述至少兩個地域確定為一細粒度地域;
將所述至少兩個地域相應的權重進行預設計算,獲得所述細粒度地域相應的權重;
依據所述地域集合中每一細粒度地域相應的權重,以及所述地域集合中與各地域都不具有上下級關系的粗粒度地域相應的權重,從所述地域集合包含的細粒度地域和粗粒度地域中,確定所述網絡信息所屬地域。
其中,所述從所述地域集合包含的細粒度地域和粗粒度地域中,確定所述網絡信息所屬地域包括:
判斷所述地域集合包含的細粒度地域和粗粒度地域相應的權重與第一預設閾值的大小關系;
當大于等于所述第一預設閾值的權重的個數為零個時,確定所述網絡信息無所屬地域;
當大于等于所述第一預設閾值的權重的個數為至少一個時,將最大權重對應的目標地域,確定為所述網絡信息所屬地域屬性,所述目標地域為細粒度地域或粗粒度地域。
其中,所述當大于等于所述第一預設閾值的權重的個數為至少一個時,將最大權重對應的目標地域,確定為所述網絡信息所屬地域屬性包括:
當大于等于所述第一預設閾值的權重的個數為一個時,將大于等于所述第一預設閾值的權重相應的目標地域,確定為所述網絡信息所屬地域屬性;
當大于等于所述預設閾值的權重的個數為至少兩個時,計算大于等于所述預設閾值的權重相應的至少兩個目標地域中,每兩個目標地域相應權重的差值;
當至少一個差值大于等于第二預設閾值時,將最大權重對應的目標地域,確定為所述網絡信息所屬地域屬性;
當所有差值均小于所述第二預設閾值時,確定所述網絡信息無所屬地域。
一種網絡信息所屬地域識別裝置,包括:
獲取模塊,用于獲取網絡信息中包括的地域集合,所述地域集合包括至少一個地域;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狐新媒體信息技術有限公司,未經北京搜狐新媒體信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710141330.6/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置