[發明專利]一種文本觀點挖掘方法及系統有效
| 申請號: | 202010612806.1 | 申請日: | 2020-06-30 |
| 公開(公告)號: | CN111753058B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 徐雅斌;陳淑娟 | 申請(專利權)人: | 北京信息科技大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/279 |
| 代理公司: | 北京高沃律師事務所 11569 | 代理人: | 崔玥 |
| 地址: | 100192 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 觀點 挖掘 方法 系統 | ||
本發明涉及一種文本觀點挖掘方法及系統。所述方法包括獲取待挖掘的文本;對所述待挖掘的文本進行觀點語句的初步篩選;根據篩選后的待挖掘的文本,采用FastText?XGBoost模型進行觀點語句的識別;根據識別出的觀點語句,采用MTL?BiLSTM?CRFs模型進行以評價對象和評價詞的標注為主任務,以詞性標注為輔助任務的觀點挖掘;本發明所提供的一種文本觀點挖掘方法及系統,提高文本觀點的挖掘效率和準確性。
技術領域
本發明涉及觀點挖掘領域,特別是涉及一種文本觀點挖掘方法及系統。
背景技術
目前,本文對觀點挖掘方法進行了以下兩個方面的研究:1)觀點句識別的研究;2)觀點挖掘的研究。現階段已有許多國內外研究人員對上述兩個方面開展了研究。
目前,觀點句識別的方法主要分為基于規則的方法、基于Bootstrapping優化的方法、基于分類器的方法和基于圖模型的方法。
李勇敢制定了五級情感詞典、極性詞典和否定詞庫,在此基礎上提出了非觀點句判別規則和觀點句判別規則,用以辨別非觀點句和觀點句。侯敏構造了基于短語的情感詞典,并采用關鍵詞匹配模板形式構建短語規則庫,從而進行觀點句分類。上述研究根據制定的規則進行觀點句識別,但是規則的制定在不同的領域或者社交平臺中存在局限性。
劉培玉采用優勢率和主觀表達能力計算主觀性特征強度,根據句子的權重計算主觀強度,最后優化Bootstrapping算法,將測試集中超過閾值的主客觀句子加入到訓練集中,重新訓練主觀強度。劉榮根據Bootstrapping算法對小規模語料中觀點句和非觀點句的語義特征、詞匯特征和詞性特征進行訓練,得到貝葉斯分類器模型,然后借助模型預測大規模未標注的語料,將標注后的樣本加至模型中,繼續迭代訓練。以上的研究通過Bootstrapping優化算法可以減少訓練語料的標注工作量,但是還需要進一步提高觀點句識別的準確率。
胡默之提取句子的依存關系和情感詞在依存關系中的位置兩種特征,并應用于最大熵模型以識別觀點句。丁晟春采用SVM模型對句子的句式特征、句內特征和隱性特征進行訓練,以識別出觀點句。趙潔采用SVM模型對微博特有特征、情感詞、文法、句法、和主題等特征進行訓練,以識別觀點句。潘艷茜采用SVM模型對詞語、評價詞個數、與評價對象有關的詞語以及微博相關特征進行訓練,從而識別出微博汽車領域中的觀點句。郭云龍以單一詞語和二連詞性作為分類特征,然后采用證據理論將分別使用SVM和樸素貝葉斯分類的結果進行融合,組成識別觀點句的多分類器。以上的研究主要是通過提取觀點句的特征和使用機器學習方法進行訓練,從而提高了觀點句識別的準確性,但是在觀點句的特征選取中沒有涉及到語義層面的分析。
王明之提出一種基于詞項共現的圖模型方法,利用詞項間的共現和句法關系區分觀點句和非觀點句。程顯毅設計一種基于知識圖的觀點句識別算法。先根據樸素貝葉斯得到主觀性單獨分數,再利用最小割原理合并句子的單獨分數和關聯分數,實現對觀點句的二次分類。以上的研究基于圖模型進行觀點句識別,但是識別的準確率低于采用機器學習方法識別觀點句的準確率。
目前,研究人員主要在文檔級、語句級以及屬性級三個層次進行觀點的研究,相關的研究成果如下:
王冠群制定了一系列關聯規則,并對抽取的內容進行剪枝和篩選,從而抽取出觀點句中的評價對象,然后抽取距離評價對象最近的詞語作為評價對象的屬性。江騰蛟根據情感詞、情感詞在句中充當的語法成分和情感詞與評價對象的依存關系制定了抽取規則和規則的執行順序,從而抽取出對應的評價對象。以上研究根據抽取規則能夠快速抽取出評價詞和評價對象。但是,沒有考慮微博文本的口語化特點,以及語法和句法具有非規范性的情況。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學,未經北京信息科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010612806.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種無人機航測用拍攝裝置
- 下一篇:一種沖壓機托料架及應用其的沖壓機





