[發明專利]一種產品屬性的分析方法和裝置有效
| 申請號: | 201710905862.2 | 申請日: | 2017-09-29 |
| 公開(公告)號: | CN110019831B | 公開(公告)日: | 2021-09-07 |
| 發明(設計)人: | 王天祎 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/284;G06N3/08 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 劉志紅;王寶筠 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 產品 屬性 分析 方法 裝置 | ||
本發明公開了一種產品屬性的分析方法和裝置,方法包括:接收預測文本內容;生成預測文本內容的切詞序列;確定切詞序列中切詞的詞向量以及切詞序列的屬性向量;基于切詞的詞向量和切詞序列的屬性向量生成預測文本內容的矩陣塊;將預測文本內容的矩陣塊輸入到預先訓練的神經網絡模型中,輸出預測文本內容的切詞序列的標簽;神經網絡模型為基于訓練文件內容的切詞序列建立的數據集合以及訓練文件內容的切詞序列的標簽訓練得到的模型;對切詞序列的標簽進行拼接,生成預測結果。可見,神經網絡模型能夠對預測文件內容的切詞序列的詞向量和屬性向量進行預測,具備語義信息表達,克服了使用的局限性。
技術領域
本發明涉及意見挖掘技術領域,更具體的涉及一種產品屬性的分析方法和裝置。
背景技術
產品屬性的分析,指文本分析任務中挖掘用戶關于某些產品屬性的觀點意見,一般而言,這種觀點意見由屬性,評價語組成。例如“汽車前臉霸氣側漏”,“前臉”為汽車的屬性,“霸氣側漏”為關于該屬性的評價語,因此需要提取的分析內容為前臉,霸氣側漏。再例如,“京東物流很快”,需要提取的分析內容為物流,很快。
現有技術中,在對產品屬性進行分析時,一般是基于預先設定的規則在詞庫中進行抽取,例如,關于“汽車前臉霸氣側漏”,需要事先在詞庫里積累屬性詞=“前臉”以及評價語=“霸氣側漏”,從而使用預先設定的規則,如屬性詞和評價語之間的距離等,來判別兩個詞是否是屬于評價觀點。
可見,現有的分析方法嚴重依賴于詞庫的積累,一旦詞庫中沒有相關內容的積累,那么便不能提取出評價觀點。并且,由于現有的詞庫并沒有經過訓練,因此并不具備語義成分,詞庫中所積累的內容也只能應用到當前領域,局限性較大。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的產品屬性的分析方法和裝置。
為實現上述目的,本發明提供如下技術方案:
一種產品屬性的分析方法,包括:
接收預測文本內容;
生成所述預測文本內容的切詞序列;
確定所述切詞序列中切詞的詞向量以及所述切詞序列的屬性向量;
基于所述切詞的詞向量和所述切詞序列的屬性向量生成所述預測文本內容的矩陣塊;
將所述預測文本內容的矩陣塊輸入到預先訓練的神經網絡模型中,輸出所述預測文本內容的切詞序列的標簽;其中,所述神經網絡模型為基于訓練文件內容的切詞序列建立的數據集合以及所述訓練文件內容的切詞序列的標簽訓練得到的模型;
對所述切詞序列的標簽進行拼接,生成預測結果。
可選的,所述接收預測文件內容之前,還包括:
獲取訓練語料中的訓練文本內容,生成所述訓練文本內容的切詞序列;
確定所述切詞序列中切詞的詞向量以及所述切詞序列的屬性向量;
基于所述切詞的詞向量和所述切詞序列的屬性向量生成所述訓練文本內容的矩陣塊;
基于所述訓練文本內容的矩陣塊建立所述訓練語料的數據集合;
基于所述數據集合以及所述訓練文本內容的切詞序列的標簽訓練所述神經網絡模型。
可選的,確定所述切詞序列的屬性向量,包括:
標注所述切詞序列的詞性,和/或,所述切詞序列的依存句法序列;
對所述切詞序列的詞性進行編碼生成詞性向量,和/或,對所述切詞序列的依存句法序列進行編碼生成依存句法序列向量;
其中,所述屬性向量包括所述詞性向量,和/或,所述依存句法序列向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710905862.2/2.html,轉載請聲明來源鉆瓜專利網。





