[發明專利]—基于焦點關注的主題類別分析方法有效
| 申請號: | 201910567508.2 | 申請日: | 2019-06-27 |
| 公開(公告)號: | CN110263174B | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 顧凌云;王洪陽;嚴涵 | 申請(專利權)人: | 成都冰鑒信息科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06N3/04 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙) 32231 | 代理人: | 滕詣迪 |
| 地址: | 610041 四川省中國(四川)自由貿易*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 焦點 關注 主題 類別 分析 方法 | ||
本發明公開了—基于焦點關注的主題類別分析方法,屬于大數據技術領域,包括建立客戶端服務器和中心服務器,客戶端服務器用于獲取原始文本,客戶端服務器通過互聯網與中心服務器通信;在中心服務器中建立數據預處理模塊、向量學習模塊、特征提取模塊、注意力計算模塊和池化模塊;解決對主題特征差異不明顯的情況下進行二次主題劃分的技術問題,本發明提出的局部循環卷積網絡既可以學習文本序列之間的字詞關系,還可以提取文本中的關鍵字詞和相應的位置信息,本發明采用基于焦點關注的主題類別分析方法,當主題特征差異不明顯的時候依然能得到良好的分類效果。
技術領域
本發明屬于大數據技術領域,尤其涉及—基于焦點關注的主題類別分析方法。
背景技術
隨著互聯網上的新聞數據不斷增加,如何將新聞數據按照其主題進行正確地歸類以方便人們瀏覽和查找顯的尤為重要。目前,主題分類技術廣泛應用在商業領域中,人們在瀏覽新聞時,首先按照類別篩選后,再進行相關閱讀,常見的新聞分類類別有:體育、軍事、科技、娛樂、教育、國際、財經等?;ヂ摼W上關于各公司的新聞同樣在日益增長,而與企業相關的新聞類別有:公司信息、公告報告、產品信息、成果獎項、投資融資等。為了分析公司的相關類別信息,通過新聞數據判別該公司的發展情況,對關于公司的新聞數據進行主題分類十分重要。
主題分類是自然語言處理領域中一個非常經典的問題,傳統的方法通過利用知識工程監理專家系統,然后通過專家規則進行分類,該方法不僅耗費精力,其覆蓋的范圍和準確率都十分有限,后來,普遍使用機器學習方法解決主題分類問題,通過人工特征工程和一個淺層分類器完成該任務,該方法的缺點和前期的知識工程一樣,耗費人工精力。接著,目廣泛使用深度學習進行文本的主題分類,該方法最大的優點是省去了大量的人工特征提取步驟,通過神經網絡自動提取主題特征,其準確率要高于機器學習方法。通過觀察發現,在主題的特征差異比較大的情況下,現有的主題分類技術能表現不錯的效果,但是在主題特征之間差異不大的情況下,如對科技這一主題進一步劃分為:數碼、手機、平板、電腦等類別時,現有模型在其數據上表現效果往往不是很好,誤分類的情況很多。
目前在主題分類的問題中,現階段所使用的方法主要是根據提取的上下文特征外接一個分類器進行主題的分類,這樣做的主要缺點是針對某一主題類別進行二次劃分的時候,分類的效果不是很好,尤其是當主題特征差異不明顯的時候。
發明內容
本發明的目的是提供—基于焦點關注的主題類別分析方法,解決對主題特征差異不明顯的情況下進行二次主題劃分的技術問題。
為實現上述目的,本發明采用如下技術方案:
—基于焦點關注的主題類別分析方法,包括如下步驟:
步驟1:建立客戶端服務器和中心服務器,客戶端服務器用于獲取原始文本,客戶端服務器通過互聯網與中心服務器通信;
在中心服務器中建立數據預處理模塊、向量學習模塊、特征提取模塊、注意力計算模塊、池化模塊、
步驟2:中心服務器獲取客戶端服務器中的原始文本,并通過數據預處理模塊進行清洗和篩選,生成預處理文本,其具體步驟如下:
步驟A1:獲取原始文本的文本主題數據作為原始數據,對原始數據進行ETL處理,即抽取、轉換和加載操作;
步驟A2:對原始數據進行文本數據和主題類別的提??;將文本數據和主題類別分別轉換為文本列表和標簽列表,每一條主題類別在標簽列表中分別對應一條主題標簽,文本列表中的每一條文本數據分別對應標簽列表中的一條主題標簽,對所有的文本數據進行分詞操作,統計文本數據中所有的字詞,形成字典表,將文本數據中的字詞轉化為字典表中的索引號,完成對文本數據的序列化操作,將序列化后的文本數據和對應的主體標簽作為預處理文本;
步驟A3:創建一個數據生成器,每批次產生指定數量的預處理文本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都冰鑒信息科技有限公司,未經成都冰鑒信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910567508.2/2.html,轉載請聲明來源鉆瓜專利網。





