[發明專利]一種基于社交媒體平臺的文本分類方法在審
| 申請號: | 202010824472.4 | 申請日: | 2020-08-17 |
| 公開(公告)號: | CN112000867A | 公開(公告)日: | 2020-11-27 |
| 發明(設計)人: | 鐘艷如;曹良斌;甘才軍;李芳;羅笑南 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9536;G06F16/33;G06F16/35;G06F40/289;G06Q50/00 |
| 代理公司: | 桂林市華杰專利商標事務所有限責任公司 45112 | 代理人: | 陸夢云 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 社交 媒體 平臺 文本 分類 方法 | ||
1.一種基于社交媒體平臺的文本分類方法,其特征是:包括如下步驟:
(1)爬取社交媒體公開發布的事件相關數據信息,并對所爬取的數據進行清理、加工,得到文本中的有用信息,將處理過的信息存儲到數據庫,形成結構化數據,以便提取相關特征;
(2)提取社交媒體文本相關特征:從步驟(1)的結構化數據中統計出現頻率最高的單詞,并對其分別計算權重分數,對每個單詞從高到低進行排序,平均分為三個關鍵詞列表,三個關鍵詞列表對應不同的權重;將要進行分類的社交媒體文本內容與三個關鍵詞列表一一進行相似度計算,得到每個單詞的相似度值,進一步計算該文本內容的相關特征;
(3)基于模糊邏輯完成社交媒體文本分類:將步驟(2)獲取的相關特征映射到模糊模型中,模糊模型輸出每個特征對應的文本價值,對輸出的特征文本價值運用模糊規則,輸出社交媒體文本分類結果。
2.根據權利要求1所述的文本分類方法,其特征是:步驟(1)所述爬取社交媒體公開發布的事件相關數據信息,是利用Selenium爬取用戶ID、時間戳、位置、文本內容的相關信息;所述的用戶ID、時間戳、位置、文本內容的相關信息的數據來源為微博、twitter網站公開發布的關于某事件的文本數據。
3.根據權利要求1所述的文本分類方法,其特征是:步驟(1)所述的對所爬取的數據進行清理、加工的方法步驟為:
1)數據清理:當爬取的數據有缺失值、噪聲數據時,通過使用一個全局變量填充缺失值或使用屬性的中心度量填充缺失值等方法來填充數據,通過分箱、回歸、離群點分析等方法去除噪聲;
2)數據標記:從爬取的數據中隨機選擇2000條文本內容,對其手動標記為與某事件高關聯、中關聯、低關聯、無關聯四類;
3)數據集成:將來自多個數據源的數據去重集成到一起,形成數據集;
4)數據規約:將數據集按維規約或數值規約簡化表示。
4. 根據權利要求1所述的文本分類方法,其特征是:步驟(2)所述的單詞權重分數的計算公式如下:
(1)
公式(1)中,為第i個單詞在高關聯、中關聯、低關聯、無關聯四類中出現的總次數,為第i個單詞在爬取的文本內容中出現的總次數。
5. 根據權利要求1所述的文本分類方法,其特征是:步驟(2)所述的關于相似度計算,采用相似度函數計算需要分類的文本與關鍵字列表之間的相似度,相似度函數如下:
(2)
公式(2)中,,為一條包含n個單詞的社交媒體文本中的第i個單詞,為三個關鍵字列表的并集,運算法則為自然語言處理中的NLTK文本處理方式。
6.根據權利要求1所述的文本分類方法,其特征是:步驟(2)所述的文本內容相關特征和其計算方式如下:
1)社交媒體文本內容中單詞最高得分(H):
(3)
公式(3)中的為步驟(2)計算的相似度;
2)社交媒體文本內容總得分(F):
(4)
公式(4)中的為步驟(2)計算的相似度;
3)社交媒體文本內容中常用單詞個數(I),其為文本內容與步驟(2)得到的三個關鍵詞列表中相同單詞個數;
4)社交媒體文本內容權重(G):
(5)
公式(5)中的F為步驟2)計算的社交媒體文本內容總得分,N為該條社交媒體文本的單詞數;
5)社交媒體文本內容中常用單詞權重(E):
(6)
公式(6)中的I為步驟3)計算的社交媒體文本內容中常用單詞個數,N為條社交媒體文本的單詞數;
6)社交媒體文本內容中有意義的單詞組合數(V)。
7.根據權利要求1所述的文本分類方法,其特征是:步驟(3)中,所述的模糊規則為IF-THEN語句,共有25條規則,高關聯7條,中關聯8條,低關聯3條,無關聯7條,其中:
1)如果H的文本價值為高或非常高且I的文本價值為高,則文本R與事件的關聯關系被分類為高關聯;
2)如果H的文本價值為中且G的文本價值為中,則文本R與事件的關聯關系被分類為中關聯;
3)如果E的文本價值為低或中且G的文本價值為低,則文本R與事件的關聯關系被分類為低關聯;
4)如果H的文本價值為非常低且M的文本價值為長,則文本R與事件的關聯關系被分類為無關聯。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010824472.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:柔性顯示裝置
- 下一篇:一種農業用驅蟲和捕蟲裝置





