[發明專利]基于word2vec算法的新評論對象識別方法及系統有效
| 申請號: | 201610009698.2 | 申請日: | 2016-01-05 |
| 公開(公告)號: | CN105447206B | 公開(公告)日: | 2017-04-05 |
| 發明(設計)人: | 吳揚;王平;石增華 | 申請(專利權)人: | 深圳市中易科技有限責任公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 深圳市科吉華烽知識產權事務所(普通合伙)44248 | 代理人: | 于標 |
| 地址: | 518057 廣東省深圳市南山區高新區南區科技*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 word2vec 算法 評論 對象 識別 方法 系統 | ||
技術領域
本發明涉及數據處理技術領域,尤其涉及基于word2vec算法的新評論對象識別方法及系統。
背景技術
觀點挖掘是指從文本中發現帶有作者主觀情感的內容。一個觀點通常包括觀點對象、觀點情感、觀點所有者、發表時間等信息。其中,觀點對象詞五花八門,并且更新迅速。因此新對象識別技術很有意義。
CRF是條件隨機場(ConditionalRandomFields)的簡稱。最初由Lafferty等人于2001年提出,是一種無向圖模型。近年來,CRF模型被廣泛應用于各種命名實體識別和新詞發現任務中,取得了不錯的效果。
在實際生產中,為了提高觀點識別的準確性,需要維護相應領域的觀點對象詞典。對于擴充詞典這類任務,新詞的準確性至關重要。但CRF模型的新詞識別結果是不可預期的。直接使用CRF模型的標注結果無法達到較高的準確性,而對標注結果進行人工過濾的工作量極大,同時也需要過濾者具備一定的相關領域知識。
尤其在電子商務領域,產品的新特點層出不窮,新特點的出現會導致買家關注全新的對象。要提高對當前評論的觀點挖掘的準確性,就必須識別這些新評論對象。
CRF(條件隨機場)模型是一個監督學習模型,使用CRF模型可以進行命名實體識別、特定領域對象識別等處理,但這些功能的實現都需要依賴正確標注完成的訓練集(具體標注格式和訓練集格式視不同模板類型而定)。
但對于互聯網上不斷更新的海量信息,商品評論中會出現很多新觀點,在這個領域里不容易維護專業語料庫(即使有也容易過時),人工維護語料庫需要耗費大量人力,而且人工標注語料效率低下。
發明內容
本發明提供了一種基于word2vec算法的新評論對象識別方法,包括如下步驟:
數據獲取步驟,獲取網頁上的評論數據;
評論數據處理步驟,對評論數據進行分詞、詞性標注、及去停用詞處理從而得到分詞結果;
計算詞向量步驟,使用word2vec算法,輸入分詞結果,計算評論數據中每個詞的詞向量;
觀點提取步驟,使用種子詞典結合觀點提取規則處理評論數據,獲得觀點提取結果,觀點提取結果包括評論對象和評論觀點信息;
新評論對象獲取步驟,結合評論數據和觀點提取結果,使用CRF模型發現新評論對象,并將新評論對象添加到新詞候選集中;
過濾步驟,使用詞向量和過濾規則對新詞候選集中的評論對象進行過濾,形成新詞詞集;
更新步驟,將新詞詞集中的評論對象添加到種子詞典中,從而更新種子詞典;
重復依次執行觀點提取步驟、新評論對象獲取步驟、過濾步驟、和更新步驟,直到不出現新評論對象或達到迭代次數后,執行觀點提取步驟,從而得到最新的觀點提取結果。
作為本發明的進一步改進,在所述新評論對象獲取步驟中包括如下步驟:
(1).構造訓練語料步驟,從觀點提取結果中得到評論對象,生成CRF模型的訓練語料;
(2).訓練集建立步驟,建立交叉驗證訓練集,并使用交叉驗證方法把訓練語料分成規定份數,并按規定比例組合成訓練集和測試集,然后對訓練集和測試集分別進行訓練,從而得到CRF模型;
(3).提取步驟,使用CRF模型進行新評論對象提取;
(4).交叉訓練判斷步驟,判斷是否完成交叉訓練,如果是,那么執行步驟(5),否則執行步驟(3);
(5).新詞候選集生成步驟,生成新詞候選集,并將新評論對象添加到新詞候選集中。
作為本發明的進一步改進,在所述過濾步驟中包括如下步驟:
A.計算相似度步驟,計算新詞候選集中的新評論對象與種子詞典中的分類中心詞的相似度;
B.處理判斷步驟,若相似度高于閾值且新詞候選集中的新評論對象不在種子詞典內,那么執行步驟C,否則從新詞候選集中將該新評論對象刪除后再執行步驟C;
C.判斷是否完成對新詞候選集的過濾,若是,那么執行步驟D,否則執行步驟A;
D.將新詞候選集中的評論對象添加到新詞詞集中。
作為本發明的進一步改進,在所述計算詞向量步驟中,Word2vec算法計算評論數據中每個詞的詞向量使用向量余弦值來度量詞語之間的相似性,具體公式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市中易科技有限責任公司,未經深圳市中易科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610009698.2/2.html,轉載請聲明來源鉆瓜專利網。





