[發明專利]信息處理方法、裝置、存儲介質和計算機設備有效
| 申請號: | 201710543213.2 | 申請日: | 2017-07-05 |
| 公開(公告)號: | CN108319630B | 公開(公告)日: | 2021-12-14 |
| 發明(設計)人: | 趙自翔;吳昊 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/289 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 何平;鄧云鵬 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息處理 方法 裝置 存儲 介質 計算機 設備 | ||
1.一種信息處理方法,所述方法包括:
接收待處理文本信息,獲取所述待處理文本信息對應的第一文本摘要;所述第一文本摘要中包括多個關鍵詞;
獲取倒排索引文檔,所述倒排索引文檔記錄了標準敏感文本庫中各個標準關鍵詞和所述標準關鍵詞對應的標準敏感文本編號組合的關聯關系;
獲取所述第一文本摘要中包括的待測關鍵詞,依次獲取各個待測關鍵詞在所述倒排索引文檔中相同的標準關鍵詞,根據相同的標準關鍵詞獲取各個待測關鍵詞對應的標準敏感文本編號組合;
統計所述待測關鍵詞對應的標準敏感文本編號,將重復次數最多的標準敏感文本編號對應的標準敏感文本作為目標標準敏感文本;
將所述目標標準敏感文本對應的重復次數作為所述相同關鍵詞的數目;
獲取所述目標標準敏感文本的目標標準敏感文本摘要對應的關鍵詞數目得到第一特征值;
獲取所述第一文本摘要對應的關鍵詞數目得到第二特征值;
獲取所述第一特征值與所述第二特征值中的較大特征值作為目標特征值;
計算所述相同關鍵詞的數目與所述目標特征值的比值得到相似度;
根據所述相似度確定所述待處理文本信息的敏感檢測結果。
2.根據權利要求1所述的方法,其特征在于,所述獲取所述待處理文本信息對應的第一文本摘要的步驟包括:
根據分詞切分算法得到所述待處理文本信息對應的分詞;
計算所述分詞對應的詞頻;
利用語料庫計算各個分詞對應的逆文檔頻率,分別將各個分詞對應的詞頻與逆文檔頻率相乘得到對應的權重值;
將所述權重值排序,并按照權重值從高到低的順序獲取預設數目的分詞構成所述待處理文本信息對應的第一文本摘要。
3.根據權利要求1所述的方法,其特征在于,所述獲取所述待處理文本信息對應的第一文本摘要的步驟包括:
根據分詞切分算法得到所述待處理文本信息對應的分詞;
對所述分詞進行詞性標注,去除所述分詞中的停用詞得到候選關鍵詞集合;
根據預設的窗體長度截取所述候選關鍵詞集合,得到各個窗體對應的目標候選關鍵詞集合;
將每個所述候選關鍵詞作為一個節點,構造各個目標候選關鍵詞集合中任意兩個節點之間的邊,構建所述候選關鍵詞集合對應的候選關鍵詞圖;
預設各個節點的初始化權重,利用網頁排名迭代算法循環迭代所述候選關鍵詞圖,得到各個節點對應的節點權重值;按照所述節點權重值由高到低的順序獲取預設數目的候選關鍵詞構成所述待處理文本信息對應的第一文本摘要。
4.根據權利要求3所述的方法,其特征在于,所述對所述分詞進行詞性標注,去除所述分詞中的停用詞得到候選關鍵詞集合包括:
對所述分詞進行詞性標注;
根據預先設置的停用詞表以及詞性標注,去除所述待處理文本信息中的停用詞,得到候選關鍵詞集合。
5.根據權利要求3所述的方法,其特征在于,所述根據預設的窗體長度截取所述候選關鍵詞集合,得到各個窗體對應的目標候選關鍵詞集合包括:
按照預設的窗體長度,對所述候選關鍵詞集合中的候選關鍵詞進行劃分,得到各個窗體對應的目標候選關鍵詞集合。
6.根據權利要求1所述的方法,其特征在于,所述獲取倒排索引文檔的步驟之前,還包括:
以所述標準敏感文本摘要庫中的各個標準關鍵詞建立索引;
將第一標準關鍵詞作為當前處理關鍵詞,獲取所述標準敏感文本庫中存在所述當前處理關鍵詞的標準敏感文本對應的編號,將獲取的各個標準敏感文本編號組成標準敏感文本編號組合,建立當前處理關鍵詞與對應的標準敏感文本編號組合的關聯關系;
獲取下一個標準關鍵詞作為當前處理關鍵詞,進入獲取所述標準敏感文本庫中存在所述當前處理關鍵詞的標準敏感文本對應的編號的步驟,直至所有標準關鍵詞建立與對應的標準敏感文本編號組合的關聯關系;
將所述各個標準關鍵詞和所述標準關鍵詞對應的標準敏感文本編號組合的關聯關系形成所述倒排索引文檔。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710543213.2/1.html,轉載請聲明來源鉆瓜專利網。





