[發明專利]文本信息的地域屬性識別方法及裝置、電子設備有效
| 申請號: | 201811348717.X | 申請日: | 2018-11-13 |
| 公開(公告)號: | CN109271640B | 公開(公告)日: | 2021-09-17 |
| 發明(設計)人: | 鄧文超;鄭茂 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/289;G06K9/62;G06F16/9537 |
| 代理公司: | 深圳市隆天聯鼎知識產權代理有限公司 44232 | 代理人: | 劉抗美 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 信息 地域 屬性 識別 方法 裝置 電子設備 | ||
1.一種文本信息的地域屬性識別方法,其特征在于,包括:
通過已構建的地域判斷模型對待識別的文本信息進行地域性判斷;
在判斷出所述文本信息具備地域性時,對所述文本信息中的地域詞,按照在所述文本信息中的先后位置配置不同的數值;
根據行政區域的層級關系,對歸屬同一行政區域的地域詞對應的數值進行融合,得到所述行政區域的地域詞數值融合結果;
逐層比較相同層級的各個行政區域的地域詞數值融合結果,確定所述文本信息歸屬的行政區域,獲得所述文本信息的地域屬性;
將所述文本信息中每個地域詞的出現頻率和每個地域表證詞的出現頻率作為輸入,通過預先構建的全連接模型輸出所述文本信息屬于每個層級的每個行政區域的概率;
由高層到相映射的低層,將每一層級行政區域的地域詞數值融合結果與所述行政區域的對應概率進行加權相加,篩選出加權相加結果最大的高層與相映射的低層;
通過篩選出的所述高層與相映射的低層,校驗所述文本信息的地域屬性。
2.根據權利要求1所述的方法,其特征在于,最低層級行政區域的地域詞數值融合結果為所述最低層級行政區域的地域詞對應的數值。
3.根據權利要求1所述的方法,其特征在于,在所述通過已構建的地域判斷模型對待識別的文本信息進行地域性判斷之前,所述方法還包括:
獲取已知是否具備地域性的樣本信息,對所述樣本信息進行分詞處理,得到多個詞組;
在語義空間中映射出每個詞組對應的詞向量,得到所述樣本信息對應的多個詞向量;
通過所述樣本信息的多個詞向量訓練文本分類模型,獲得所述地域判斷模型。
4.根據權利要求1所述的方法,其特征在于,在所述通過已構建的地域判斷模型對待識別的文本信息進行地域性判斷之前,所述方法還包括:
獲取已知是否具備地域性的樣本信息,進行所述樣本信息的特征數據提取;
通過所述樣本信息的特征數據訓練邏輯回歸模型或梯度提升決策樹模型,獲得所述地域判斷模型。
5.根據權利要求1所述的方法,其特征在于,所述通過已構建的地域判斷模型對待識別的文本信息進行地域性判斷之后,所述方法還包括:
在判斷出所述文本信息具備地域性時,對所述文本信息中的歧義詞進行歧義消解處理,確定所述文本信息中的地域詞。
6.根據權利要求5所述的方法,其特征在于,所述在判斷出所述文本信息具備地域性時,對所述文本信息中的歧義詞進行歧義消解處理,確定所述文本信息中的地域詞,包括:
根據所述歧義詞的上下文,通過條件隨機場模型判斷出所述歧義詞是否為地域詞;
在判斷出所述歧義詞為地域詞時,根據所述文本信息中出現的與所述地域詞相關的地域信息,確定所述地域詞的唯一語義。
7.根據權利要求1所述的方法,其特征在于,所述在判斷出所述文本信息具備地域性時,對所述文本信息中的地域詞,按照在所述文本信息中的先后位置配置不同的數值,包括:
在判斷出所述文本信息具備地域性時,對所述文本信息中的地域詞,按照在所述文本信息中的先后位置依次配置由大到小的數值。
8.根據權利要求1所述的方法,其特征在于,所述根據行政區域的層級關系,對歸屬同一行政區域的地域詞對應的數值進行融合,得到所述行政區域的地域詞數值融合結果,包括:
根據行政區域的層級關系,對歸屬同一行政區域的地域詞對應的數值進行累加,得到所述行政區域的地域詞數值融合結果。
9.根據權利要求1所述的方法,其特征在于,所述逐層比較相同層級的各個行政區域的地域詞數值融合結果,確定所述文本信息歸屬的行政區域,獲得所述文本信息的地域屬性,包括:
由高層到相映射的低層,逐層比較同一層級的各個行政區域的地域詞數值融合結果,逐層篩選出同一層級下融合結果最大的行政區域;
根據每一層級下融合結果最大的行政區域,確定所述文本信息歸屬的行政區域,獲得所述文本信息的地域屬性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811348717.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:熱門事件發現方法及裝置
- 下一篇:一種文本相似度計算方法、裝置及電子設備
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





