[發明專利]一種文字信息地域識別方法及裝置有效
| 申請號: | 201110356631.3 | 申請日: | 2011-11-11 |
| 公開(公告)號: | CN102426603A | 公開(公告)日: | 2012-04-25 |
| 發明(設計)人: | 景曉軍;沈智杰;張東升;許國耀;王艷玲;力世銀;畢成功 | 申請(專利權)人: | 任子行網絡技術股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市順天達專利商標代理有限公司 44217 | 代理人: | 郭偉剛 |
| 地址: | 518057 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文字 信息 地域 識別 方法 裝置 | ||
技術領域
本發明涉及互聯網信息技術領域,更具體地說,涉及一種文字信息地域識別方法及裝置。
背景技術
近年來,互聯網成為廣大網民提供交流的平臺,它的特點是,民眾發言擺脫了社會權利體制的管制或限制,可以暢所欲言無所顧忌的表達個人的觀點、立場、情緒。但是有些輿論信息具有負面影響,因此應從互聯網上進行封堵,以防止其擴散而造成進一步的影響。為有效預防和封堵輿情信息的擴散,必須先分析輿情事件發生的所屬地。
目前一般是通過采用分詞技術,將相關的輿論信息切分多個詞組,與事先定義好的地區詞庫進行比較,設置匹配閥值,大于該匹配閥值的就判斷該文章屬于該地區發生的事件。
然而,如果輿論信息中只涉及某個地域名,比如“南山”,這個詞在很多城市都有這個地域名,且有些是地區名,有些是路名,有些是村名等,這樣通過地區詞庫匹配的方法就很難準確識別出地域。
另外,對于輿論信息中可能只有一兩句涉及地域詞庫,但信息的中心思想涉及該地域的,比如:信息中是主要描述的是犯罪嫌疑人在深圳的作案,但這個信息是廣州日報報道的。
再如,輿論信息中并沒有出現地域詞,但描述的中心是圍繞這個地區進行的等,比如:信息主題描述的是大運會,并沒有出現地域詞。諸如這樣的信息就目前的技術方法是很難準確識別出地域的。
由此可見,現有的技術難以通過分析輿論信息文章內容精確的識別出所歸屬地,需要不斷修正地區詞庫的分級方式和地區匹配算法來改進。
發明內容
本發明要解決的技術問題在于,針對現有技術的上述缺陷,提供一種文字信息地域識別方法及裝置。
本發明解決其技術問題所采用的技術方案是:
構造一種文字信息地域識別方法,其中,包括以下步驟:
A、獲取待進行地域分析的文字信息,對所述文字信息進行分詞,構建成由所述文字信息中的多個特征詞語構成的詞向量序列,并存儲;
B、查詢地域分層詞典數據庫,根據所述地域分層詞典數據庫對所述詞向量序列中的特征詞語進行層級分析,得出由所述特征詞語中的不同層級地域特征詞構成的地域分層路徑,并存儲,其中,所述地域分層詞典數據庫中包含有不同層級的地域路徑信息;
C、查詢地域擴充詞典數據庫,根據所述地域擴充詞典數據庫對所述詞向量序列中的特征詞語進行地域擴展分析,進一步得出相關的地域特征詞,并存儲,其中,所述地域擴充詞典數據庫中包含有與不同地域特征詞相關的非地域詞語信息;
D、根據所述地域分層路徑和由所述地域擴展分析得出的地域特征詞,得到最優地域分層路徑,并存儲;
E、根據所述最優地域分層路徑提取地域特征信息片段,對所述地域特征信息片段提取主題詞,構建成第一主題詞向量空間,并提取所述文字信息的主題詞,構建成第二主題詞向量空間,存儲所述第一主題詞向量空間和所述第二主題詞向量空間;
F、對所述第一主題詞向量空間和所述第二主題詞向量空間進行相似度計算,根據所述最優地域分層路徑和相似度計算結果判斷所述文字信息所屬地域。
本發明所述的文字信息地域識別方法,其中,所述步驟A具體包括:
對所述文字信息進行中文分詞,過濾其中的非詞語和干擾詞;
統計剩下各個詞語的詞頻;
統計剩下各個詞語在所述文字信息中的位置;
根據每個所述詞語的詞頻和在所述文字信息中的位置信息構建成所述詞向量序列;
存儲所述詞向量序列。
本發明所述的文字信息地域識別方法,其中,所述步驟B具體包括:
查詢所述地域分層詞典數據庫;
根據所述地域分層詞典數據庫,提取所述詞向量序列中的地域詞匯;
根據所提取的地域詞匯形成所述地域分層路徑;
存儲所述地域分層路徑。
本發明所述的文字信息地域識別方法,其中,所述步驟C具體包括:
查詢所述地域擴充詞典數據庫;
在所述地域擴充詞典數據庫中查找所述詞向量序列中的非地域詞語,進行地域擴展分析,得出與所述非地域詞語相關聯的地域特征詞;
存儲所述地域特征詞。
本發明所述的文字信息地域識別方法,其中,所述步驟E具體包括:
提取所述最優地域分層路徑在所述文字信息中的上下文信息,得到所述地域特征信息片段;
提取所述地域特征信息片段中的主題詞,構建成由多個詞語向量構成的所述第一主題詞向量空間;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于任子行網絡技術股份有限公司,未經任子行網絡技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110356631.3/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





