[發明專利]評論文本數據的處理方法、裝置及存儲介質在審
| 申請號: | 202011240954.1 | 申請日: | 2020-11-09 |
| 公開(公告)號: | CN112328793A | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 王鵬程;彭力;陳帥 | 申請(專利權)人: | 北京小米松果電子有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/111;G06F40/247 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 曾堯 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 評論 文本 數據 處理 方法 裝置 存儲 介質 | ||
本公開涉及一種評論文本數據的處理方法、裝置及存儲介質。該方法包括:將從互聯網平臺獲取到的目標物品的用戶評論文本數據輸入觀點抽取模型,得到觀點抽取模型輸出的詞語集合以及詞語集合中每一特征詞和觀點詞的首尾字符的位置下標;基于詞語集合中每一詞語的首尾字符位置下標,確定特征詞和觀點詞之間字符間距小于預設閾值的候選二元詞組的集合,并將每一候選二元詞組的特征詞和觀點詞的首尾字符位置下標以及用戶評論文本數據輸入判斷模型,得到判斷模型輸出的目標二元詞組的集合;將得到的目標二元詞組均作為用戶評論文本數據對應的評論觀點數據。采用這種方法,可以在降低模型數據處理量的基礎之上,進一步提升模型輸出目標二元詞組的正確率。
技術領域
本公開涉及計算機技術領域,尤其涉及一種評論文本數據的處理方法、裝置及存儲介質。
背景技術
互聯網環境日益成熟,越來越多的消費者傾向于通過電商網站進行購物,并在購物交易完成后對購買過的商品進行點評,由此產生了數據量龐大的在線評論數據。研究表明,從大量的評論數據中提取針對產品特征要素的評價觀點具有重要價值。具體地,面對用戶,評價觀點數據不僅便于消費者迅速了解產品各方面性能,還能幫助用戶判斷產品的綜合質量,以及可以輔助用戶快速篩選有效信息等。而面對商戶,評價觀點數據可以有效輔助商戶進行輿情分析,還可以直接將該評價觀點數據作為產品使用的調研數據,以及還可以根據評價觀點數據對產品進行優化,輔助商家進行營銷決策等等。
相關技術中,觀點數據抽取方法可以歸納為兩大類,第一類是基于語言學特征、詞典、啟發式規則/模版的非監督方法;第二類是基于機器學習模型的有監督學習方法,如基于淺層機器學習的序列標注模型。其中,使用第一類方法得到的觀點數據抽取結果的優劣,與詞性標注、依存句法分析、語義角色標注的效果優劣相關,以及與人工定義的各種規則覆蓋率緊密相關,因而這類方法的泛化能力不足。并且,由于中文語法的復雜性,人工枚舉語言學特征模式非常耗費人力資源,同時由于網絡在線評論數據中語法使用的隨意性,導致無法從語法不規范的評論語句中提取到準確的語言學特征,從而影響觀點數據抽取結果的準確性。而使用第二類方法得到的觀點數據抽取結果的優劣,與訓練樣本的數據量大小密切相關,要得到正確率高的觀點數據抽取結果往往需要巨量的訓練樣本數據來訓練模型。而訓練樣本數據量過大,則又會導致模型的過擬合。
發明內容
為克服相關技術中存在的問題,本公開提供一種評論文本數據的處理方法、裝置及存儲介質。
根據本公開實施例的第一方面,提供一種評論文本數據的處理方法,包括:
將從互聯網平臺獲取到的目標物品的用戶評論文本數據輸入觀點抽取模型,得到所述觀點抽取模型輸出的詞語集合,以及所述詞語集合中每一詞語的首尾字符在所述用戶評論文本數據中的位置下標,所述詞語集合包括表征所述目標物品的特征要素的特征詞和表征用戶針對所述特征要素的觀點詞;
基于所述詞語集合中每一詞語的首尾字符位置下標,從所述詞語集合中確定所述特征詞和所述觀點詞之間字符間距小于預設閾值的候選二元詞組,得到候選二元詞組集合;
將所述候選二元詞組集合中每一所述候選二元詞組的所述特征詞的首尾字符位置下標和所述觀點詞的首尾字符位置下標,以及所述用戶評論文本數據輸入判斷模型,得到所述判斷模型輸出的目標二元詞組集合;
將所述目標二元詞組集合中的目標二元詞組均作為所述用戶評論文本數據的評論觀點數據。
可選地,在所述將所述候選二元詞組集合中每一所述候選二元詞組的所述特征詞的首尾字符位置下標和所述觀點詞的首尾字符位置下標,以及所述用戶評論文本數據輸入判斷模型之前,包括:
針對每一所述候選二元詞組,計算所述候選二元詞組中所述特征詞和所述觀點詞的特征信息;
所述將所述候選二元詞組集合中每一所述候選二元詞組的所述特征詞的首尾字符位置下標和所述觀點詞的首尾字符位置下標,以及所述用戶評論文本數據輸入判斷模型,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小米松果電子有限公司,未經北京小米松果電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011240954.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種復合輕質混凝土配制方法
- 下一篇:一種光伏組串發電效能優化系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





