[發明專利]文本傾向性的確定方法和裝置有效
| 申請號: | 201410809796.5 | 申請日: | 2014-12-23 |
| 公開(公告)號: | CN104572616B | 公開(公告)日: | 2018-04-24 |
| 發明(設計)人: | 魯平 | 申請(專利權)人: | 北京銳安科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京品源專利代理有限公司11332 | 代理人: | 胡彬,路凱 |
| 地址: | 100044 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 傾向性 確定 方法 裝置 | ||
技術領域
本發明實施例涉及數據分析技術領域,尤其涉及一種文本傾向性的確定方法和裝置。
背景技術
對于文本的傾向性分析,目前主要有兩種方法,一種基于語義分析文本的傾向性,另一種基于機器學習模型分析文本傾向性。
其中,基于語義的文本傾向性分析方法,一般是基于預先建立一個傾向性語義模式庫或情感詞典,對待分析文本中的形容詞或能夠體現主觀色彩的短語進行抽取,即抽取情感詞,然后對抽取的情感詞逐一進行傾向性判斷并賦予一個傾向值,最后將上述所有傾向值累加起來得到待分析的文本的傾向性。
上述基于語義的文本傾向性分析方法存在以下缺陷:情感詞的提取受限于情感詞典的準確度和完整度。
基于機器學習模型分析文本傾向性的方法,一般是先通過人工標注一些文本的傾向性,并將這些文檔作為訓練樣本,再通過機器學習的方法構造一個文本分類模型,最后使用構造好的文本分類模型對待分析的文本進行分類,即識別出待分析的文本的傾向性,常用SVM(Support Vector Machine,支持向量機)構造文本分類模型。
上述基于機器學習模型分析文本傾向性的方法在用于分析特定領域的文本的傾向性時,由于不同領域的文本具有不同的特點,相應的傾向性的體現方式不同,因此會導致對不同領域的文本的傾向性的確定結果不準確。
發明內容
本發明實施例提供一種文本傾向性的確定方法和裝置,以提高確定的特定領域的文本的傾向性的準確性。
第一方面,本發明實施例提供了一種文本傾向性的確定方法,包括:
基于預先建立的行業特征詞詞典,以句子為單位,查找得到待分析的文本中包含有至少一個行業特征詞的句子;
根據預先訓練得到的文本分類模型,確定所述包含有至少一個行業特征詞的句子對應的傾向性,所述文本分類模型是通過對已標注傾向性、且包含至少一個行業特征詞的樣本語句進行學習訓練得到的;
基于預設文本傾向性確定策略,根據所述包含有至少一個行業特征詞的句子對應的傾向性,確定所述待分析的文本的傾向性。
第二方面,本發明實施例提供了一種文本傾向性的確定裝置,包括:
特征語句查詢模塊,用于基于預先建立的行業特征詞詞典,以句子為單位,查找得到待分析的文本中包含有至少一個行業特征詞的句子;
特征語句傾向性確定模塊,用于根據預先訓練得到的文本分類模型,確定所述包含有至少一個行業特征詞的句子對應的傾向性,所述文本分類模型是通過對已標注傾向性、且包含至少一個行業特征詞的樣本語句進行學習訓練得到的;
文本傾向性確定模塊,用于基于預設文本傾向性確定策略,根據所述包含有至少一個行業特征詞的句子對應的傾向性,確定所述待分析的文本的傾向性。
本發明實施例提供的文本傾向性的確定方法和裝置,由于對待分析的文本所評價的對象進行描述和/或情感評價的文本包含有至少一個行業特征詞,而對評價對象無關的對象進行描述和/或情感評價的文本與行業特征詞無關,因此,通過行業特征詞詞典中的行業特征詞,可以從待分析的文本中篩選得到包含有至少一個行業特征詞的句子,從而實現對評價對象進行描述和/或情感評價的文本與對評價對象無關的其他對象進行描述和/或情感評價的文本的分離,通過對與評價對象有關的句子進行傾向性確定,并進一步進行文本傾向性確定,由于去除了對評價對象無關的對象進行描述和/或情感評價的文本的干擾,因此提高了對待分析的文本所評價的對象的傾向性分析的準確性。
附圖說明
為了更清楚地說明本發明,下面將對本發明中所需要使用的附圖做一簡單地介紹,顯而易見地,下面描述中的附圖是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發明實施例一提供的一種文本傾向性的確定方法的流程圖;
圖2為本發明實施例三提供的一種文本傾向性的確定方法的流程圖;
圖3a為本發明實施例三提供的另一種文本傾向性的確定方法的流程圖;
圖3b為本發明實施例三提供的另一種文本傾向性的確定方法中利用訓練得到的文本分類模型以及CRF模型對經預處理后的待分析的文本進行傾向性確定,得到待分析的文本的傾向性以及得到待分析的文本的情感詞集合的流程圖;
圖4為本發明實施例四提供的一種文本傾向性的確定裝置的結構示意圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京銳安科技有限公司,未經北京銳安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410809796.5/2.html,轉載請聲明來源鉆瓜專利網。





