[發明專利]一種基于搜索記錄的敏感詞匯標記系統在審
| 申請號: | 201711222941.X | 申請日: | 2017-11-29 |
| 公開(公告)號: | CN107861922A | 公開(公告)日: | 2018-03-30 |
| 發明(設計)人: | 羅艷 | 申請(專利權)人: | 四川九鼎智遠知識產權運營有限公司 |
| 主分類號: | G06F17/21 | 分類號: | G06F17/21;G06F17/27;G06F17/22 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司51214 | 代理人: | 詹永斌 |
| 地址: | 610041 四川省成都市高新*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 搜索 記錄 敏感 詞匯 標記 系統 | ||
技術領域
本發明涉及數據分析領域,尤其是一種基于搜索記錄的敏感詞匯標記系統。
背景技術
科技的快速發展引起了信息傳遞的多樣化,經濟水平的提高又對人們工作效率提出新的要求。伴隨著信息時代的發展,各種信息都在井噴式的增加,同時,信息的傳遞已不僅僅局限在新聞媒體的現場獲取報道,已逐步發展到通過網絡新媒體供人們查閱。而媒體工作者的人員又有限,而新聞的發生又往往不受人為控制和預測,而很多時候,第一手新聞的發現和發布都是普通網民,而對于突發性的新聞或談論熱點,往往在短時間內會引起眾多網民的激烈討論,而對應的新聞或熱點,就需要及時發現以判斷其價值觀,進而對網民進行正確引導。
發明內容
本發明的發明目的在于:針對上述存在的問題,提供一種基于眾多網民在特定時間段對某一問題的提及頻率和參與提及該問題的網民數量,主動從網絡大數據中獲取突發新聞點的方案,解決新聞獲取的不及時問題,以及媒體工作人員數量對獲取新聞效率的限制問題。
本發明采用的技術方案如下:
一種基于搜索記錄的敏感詞匯標記系統,包括:順序連接的文本獲取部、文本拆分部、信息獲取部和信息分析部,信息分析部還連接文本拆分部,其中:
文本獲取部,用于獲取若干用戶的搜索記錄;
文本拆分部,用于將所述若干用戶的搜索記錄分別拆分為若干短語;
信息獲取部,用于分別統計拆分后的所有短語中,各短語的短語信息;
信息分析部,用于標記所述各短語中,短語信息攜帶的信息滿足標記要求的短語為敏感詞匯。
上述方案,可通過自行收集網絡評論熱點,進而挖掘出新聞點的問題。該方案可解決媒體工作人員不足以及時發現新聞的問題,有效利用網絡傳媒進行新聞挖掘與傳遞,豐富網民的信息獲取豐富性。
作為優選,上述文本拆分部用于:將所述若干用戶的搜索記錄,按詞性拆分為若干短語。
作為優選,上述短語信息包括:短語數量和預定時段該短語出現的頻率。
作為優選,上述標記要求為:短語出現的頻率下限和/或短語數量下限。
進一步的,上述信息獲取部包括:
短語名獲取單元,用于遍歷所述拆分后的所有短語,獲取若干短語名,所述若干短語名分別為在所述所有短語中至少出現一次的若干短語;
短語信息統計單元,連接短語名獲取單元,用于分別統計在預定時段所述若干短語名對應的短語在所述所有短語中出現的數量;和分析出所述若干短語名對應的短語在所述預定時段出現的頻率。
進一步的,系統還包括,連接所述信息分析部的敏感詞匯庫,用于存儲所述信息分析部標記為敏感詞匯的短語。
進一步的,上述信息分析部包括:
第一緩存區,用于復制入所述短語名獲取單元輸出的若干短語名;
第一信息判別單元,連接所述短語信息統計單元和所述第一緩存區,用于由第一緩存區復制短語名的先后順序逐一判斷所述若干短語名中每一條短語名的短語信息是否滿足標記要求;在判斷不滿足要求時,向第一緩存區發送丟棄該短語名的命令,以使第一緩存區丟棄該短語名;在判斷結束時,向敏感詞匯庫發送提取觸發信號;
所述敏感詞匯庫還用于接收所述提取觸發信號,提取所述第一緩存區中的短語名。
或者,上述信息分析部包括:
第二緩存區,用于存儲所述短語名獲取單元輸出的若干短語名;
第二新判別單元,連接所述第二緩存區和所述短語信息統計單元,用于由第二緩存區復制短語名的先后順序逐一判斷所述若干短語名中每一條短語名的短語信息是否滿足標記要求;在判斷滿足要求時,將短語存入敏感詞匯庫;在判斷結束后,向第二緩存區發送清空緩存命令,以使第二緩存區清空緩存數據。
進一步的,上述敏感詞匯庫還將存入的所述短語名以其詞性或專業領域分為若干短語組。
上述方案,為相應領域的人員發掘其專業的新聞點提供了極大便利。
進一步的,敏感詞匯庫還分別將所述若干短語組中的短語名以其首字母進行排序。
上述方案對敏感詞匯進行排序,以便于特定區別群體對其的快速查找,進而分別查找出對應興趣的新聞點。
需要說明的是,上述“第一”、“第二”等標號僅為更好的區別描述相應模塊、單元,不應該被理解為對相應硬件或軟件的區別。
綜上所述,由于采用了上述技術方案,本發明的有益效果是:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川九鼎智遠知識產權運營有限公司,未經四川九鼎智遠知識產權運營有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711222941.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:點云數據配準方法
- 下一篇:一種能預防近視的練習本排版方法





