[發明專利]一種文本分析方法及裝置有效
| 申請號: | 201710880789.8 | 申請日: | 2017-09-26 |
| 公開(公告)號: | CN109558580B | 公開(公告)日: | 2023-01-17 |
| 發明(設計)人: | 王天祎 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/289;G06F40/211 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分析 方法 裝置 | ||
本發明公開了一種文本分析方法,其特征在于,包括:獲取待分析的用戶評價文本;對所述用戶評價文本進行切詞處理,得到切詞序列;將所述切詞序列輸入經過訓練的標注模型,對所述切詞序列中的各個詞進行標注處理;對標注處理后的所述切詞序列中的詞進行拼接處理,得到用戶觀點意見。本發明提供的文本分析方法能夠在不依賴詞庫的前提下,實現對任意領域的用戶評價文本的自動化分析,魯棒性更強。
技術領域
本發明涉及數據挖掘技術領域,尤其涉及一種文本分析方法及裝置。
背景技術
基于文本的產品屬性傾向性分析,是指在文本分析任務中,挖掘用戶關于某些產品屬性的觀點意見。一般而言,挖掘到的觀點意見是由屬性詞和評價語組成的屬性,評價語對。例如,對于用戶關于汽車產品的評論文本“汽車前臉霸氣側漏”,用戶描述的是汽車產品的“前臉”屬性,關于該屬性的評價語為“霸氣側漏”,那么需要提取的傾向性分析內容為前臉,霸氣側漏。
常用的基于文本的產品屬性傾向性分析的實現方法是,建立包含大量詞匯的詞庫,并且設置個性化規則,來實現對屬性詞和評價語的識別,從而得到屬性,評價語對。例如,關于“汽車前臉霸氣側漏”這句評價文本,需要事先在詞庫里積累屬性詞“前臉”,以及評價語“霸氣側漏”,結合一定的個性化規則,如屬性詞和評價語之間的距離等,來判別兩個詞是否是屬于評價觀點。
上述分析方法嚴重依賴詞庫的積累,一旦詞庫中沒有積累需要提取的屬性詞或評論語,則不能識別或提取得到需要的評價觀點。并且,由于不同領域的用戶評價內容不同,針對不同領域需要分別建立詞庫,且不同領域的詞庫之間不具有通用性。綜上可見,上述基于文本的產品屬性傾向性分析方法的魯棒性較低。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的文本分析方法,該方法能夠在不依賴詞庫的前提下,實現對各領域用戶評論文本的分析。
本發明第一方面提出一種文本分析方法,包括:獲取待分析的用戶評價文本;對所述用戶評價文本進行切詞處理,得到切詞序列;將所述切詞序列輸入經過訓練的標注模型,對所述切詞序列中的各個詞進行標注處理;對標注處理后的所述切詞序列中的詞進行拼接處理,得到用戶觀點意見。借由上述技術方案,本發明提供的文本分析方法能夠在不依賴詞庫的前提下,實現對任意領域的用戶評價文本的自動化分析,魯棒性更強。
本發明第二方面提出一種文本分析裝置,包括:文本獲取單元,用于獲取待分析的用戶評價文本;切詞處理單元,用于對所述用戶評價文本進行切詞處理,得到切詞序列;標注處理單元,用于將所述切詞序列輸入經過訓練的標注模型,對所述切詞序列中的各個詞進行標注處理;拼接處理單元,用于對標注處理后的所述切詞序列中的詞進行拼接處理,得到用戶觀點意見。采用該裝置實施上述方法的技術方案,實現了對任意領域的用戶評價文本的分析,擺脫了對詞庫的依賴,魯棒性更強。
在一種實現方式中,所述將所述切詞序列輸入經過訓練的標注模型,包括:將所述切詞序列輸入經過訓練的條件隨機場模型。
在一種實現方式中,對所述用戶評論文本進行切詞處理時,還得到依存句法序列;在得到所述依存句法序列后,該方法還包括:根據所述依存句法序列,對所述切詞序列中的詞分別進行特征化處理,得到所述切詞序列的特征集合;將所述切詞序列的特征集合輸入經過訓練的標注模型,對所述切詞序列中的各個詞進行標注處理。
在一種實現方式中,所述對所述切詞序列中的各個詞進行標注處理,包括:將所述切詞序列中的第一個屬性詞標注為第一類型詞,將除第一個屬性詞之外的屬性詞標注為第二類型詞;將所述切詞序列中的第一個評價語標注為第三類型詞,將除第一個評價語之外的評價語標注為第四類型詞;將除屬性詞和評價語之外的所有詞,標注為第五類型詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710880789.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種報表生成方法和裝置
- 下一篇:一種內容監測方法及裝置





