[發明專利]一種文本觀點挖掘方法及系統有效
| 申請號: | 202010612806.1 | 申請日: | 2020-06-30 |
| 公開(公告)號: | CN111753058B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 徐雅斌;陳淑娟 | 申請(專利權)人: | 北京信息科技大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/279 |
| 代理公司: | 北京高沃律師事務所 11569 | 代理人: | 崔玥 |
| 地址: | 100192 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 觀點 挖掘 方法 系統 | ||
1.一種文本觀點挖掘方法,其特征在于,包括:
獲取待挖掘的文本;
對所述待挖掘的文本進行觀點語句的初步篩選;
根據篩選后的待挖掘的文本,采用FastText-XGBoost模型進行觀點語句的識別;所述FastText-XGBoost模型以所述篩選后的待挖掘的文本為輸入,以識別結果為輸出;所述識別結果為觀點語句或非觀點語句;所述FastText-XGBoost模型包括FastText模型和XGBoost模型;
根據識別出的觀點語句,采用MTL-BiLSTM-CRFs模型進行以評價對象和評價詞的標注為主任務,以詞性標注為輔助任務的觀點挖掘;所述MTL-BiLSTM-CRFs模型包括BiLSTM共享層、第一CRFs層和第二CRFs層;所述BiLSTM共享層用于對所述識別出的觀點語句進行編碼;所述第一CRFs層以編碼后的觀點語句為輸入,以評價對象和評價詞的標注為輸出;所述第二CRFs層以編碼后的觀點語句為輸入,以詞性標注為輸出;
所述根據篩選后的待挖掘的文本,采用FastText-XGBoost模型進行觀點語句的識別,具體包括:
提取所述篩選后的待挖掘的文本的顯性特征;所述顯性特征包括存在連續的標點符號、反問句或者感嘆句、情感詞、名詞、動詞、形容詞、表情符號以及語句的長度;
根據所述篩選后的待挖掘的文本,采用FastText模型進行分類,得到分類結果;將所述分類結果作為所述篩選后的待挖掘的文本的隱性特征;所述分類結果為觀點語句時,隱性特征為1;所述分類結果為非觀點語句時,隱性特征為0;
根據所述顯性特征和所述隱性特征,采用XGBoost模型進行識別,得到識別結果。
2.根據權利要求1所述的一種文本觀點挖掘方法,其特征在于,所述根據所述篩選后的待挖掘的文本,采用FastText模型進行分類,得到分類結果,之前還包括:
對所述篩選后的待挖掘的文本進行分詞和去停詞處理,得到處理后的文本;
對所述處理后的文本進行詞向量化。
3.根據權利要求1所述的一種文本觀點挖掘方法,其特征在于,所述根據所述篩選后的待挖掘的文本,采用FastText模型進行分類,得到分類結果,之前還包括:
在所述FastText模型中加入n-gram特征。
4.根據權利要求1所述的一種文本觀點挖掘方法,其特征在于,所述根據識別出的觀點語句,采用MTL-BiLSTM-CRFs模型進行以評價對象和評價詞的標注為主任務,以詞性標注為輔助任務的觀點挖掘,具體包括:
根據所述識別出的觀點語句確定主任務標簽y1和輔助任務標簽y2;
對所述識別出的觀點語句進行字頻統計,將出現次數小于2的字刪除;
將每個字經過wordEmbedding形成180維的字向量;
將所述主任務標簽y1進行onehot調制,得到5維的y1向量;
將輔助任務標簽y2進行onehot調制,得到9維的y2向量;
將所述180維的字向量、所述5維的y1向量和所述9維的y2向量作為輸入向量輸入所述MTL-BiLSTM-CRFs模型中;
所述共享層BiLSTM層對所述輸入向量進行編碼;
編碼后的輸入向量分別進行所述第一CRFs層和所述第二CRFs層。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學,未經北京信息科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010612806.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種無人機航測用拍攝裝置
- 下一篇:一種沖壓機托料架及應用其的沖壓機





