[發明專利]一種基于隱藏關聯網絡的多領域文本隱式特征抽取方法及計算機存儲介質在審
| 申請號: | 202010623820.1 | 申請日: | 2019-04-16 |
| 公開(公告)號: | CN111859898A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 中森云鏈(成都)科技有限責任公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/289;G06F16/35 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 614100 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 隱藏 關聯 網絡 領域 文本 特征 抽取 方法 計算機 存儲 介質 | ||
本發明屬于計算機自然語言處理領域,本發明提供一種計算機可讀存儲介質,其上存儲有程序,該程序被執行時實現基于隱藏關聯網絡的多領域文本隱式特征抽取方法。該方法包括:通過語料預處理得到主體、特征、觀點詞集,統計得到主體、特征、觀點詞在語料中的同現頻率矩陣;根據同現頻率矩陣對三個詞集雙向增強聚類;計算關聯強度,構建主體?特征?觀點隱藏關聯網絡;利用隱藏關聯網絡抽取隱式特征。針對之前隱式特征抽取方法在多領域文本中效果不佳的問題,本方法通過考慮特征與領域知識之間的關聯,構造主體?特征?觀點隱藏關聯網絡,可以在多領域文本中更好地抽取隱式特征。
本申請是申請日為2019年4月16日,申請號為201910304794.3,發明創造名稱為“一種基于隱藏關聯網絡的多領域文本隱式特征抽取方法”的分案申請。
技術領域
本發明涉及計算機自然語言處理領域,具體涉及一種基于隱藏關聯網絡的多領域文本隱式特征抽取方法。
背景技術
隨著電子商務、社交網絡的興起,帶有用戶主觀情緒色彩的信息或者短文本,例如微博、商品評論的數量正在高速增長,這些用戶產生的信息是寶貴的資源,其中的主觀性情感和意見等信息能夠幫助人們做出決策,因此挖掘這種帶有用戶主觀情緒文本中所表達的觀點吸引了人們大量的研究。其中,越來越多的研究者開始關注更細致的意見挖掘,這些研究挖掘人們對事物某一方面的觀點,它們在這些研究中被稱為特征層面的觀點。
該領域內的研究大多數都是著眼于發現文本中的顯式的特征,然而許多情況下特征詞是由觀點詞隱含表達的,比如:“電腦便宜”隱含的是主體——“電腦”的特征——“價格”具有觀點——“便宜”,這種不顯式出現在文本中的特征被稱為隱式特征。針對隱式特征的研究大多只考慮文本中特征詞與觀點詞之間的關聯,通過語料中特征詞與觀點詞的同現頻率矩陣挖掘它們之間的隱藏關聯,利用這種隱藏關聯能夠在得到觀點詞的情況下預測可能的隱式特征。
但如今很多文本都是混合領域文本,包含多種領域的內容,比如:政治、生物、經濟等等。前人提出的隱式特征識別方法只考慮文本中特征詞與觀點詞之間的關聯,沒有考慮在多領域文本中的應用,對如今日益增多的混合領域文本不能得到很好的效果。
發明內容
本發明的目的在于克服上述隱式特征識別方法在多領域文本效果不佳的問題,提供一種基于隱藏關聯網絡進行多領域文本隱式特征抽取的方法。本發明加入主體詞作為文本所屬領域的先驗知識約束,參與隱藏關聯網絡的構建,考慮了主體-特征-觀點三方間的隱藏關聯,使得本發明在多領域文本的隱式特征抽取中也能得到很好的應用。
為實現本發明目的,本發明實施例提供一種計算機可讀存儲介質,其上存儲有程序,該程序被執行時實現基于隱藏關聯網絡的多領域文本隱式特征抽取方法,所述方法包括:
步驟1:使用語料進行詞向量訓練得到語料中每個詞的詞向量,對語料進行預處理得到主體、特征、觀點詞集,統計得到詞集之間各個詞在語料中的同現頻率矩陣;
步驟2:根據同現頻率矩陣對主體-特征、特征-觀點詞集之間進行雙向增強聚類,然后重新聚類得到每個詞集內部的聚類結果;
步驟3:利用同現頻率矩陣計算兩個詞集的類之間的互信息作為類之間的關聯強度,構造主體與特征、特征與觀點詞集之間的二部圖,形成主體-特征-觀點關聯網絡;
步驟4:對于需要進行隱式特征抽取的句子,得到其中的主體、觀點詞,然后判斷在各自詞集中所屬類,根據主體-特征-觀點關聯網絡確定可能的隱式特征類,最終從該隱式特征類中得到最可能的隱式特征詞。
所述步驟1中使用語料進行詞向量訓練得到語料中每個詞的詞向量,通過對語料進行分句分詞、詞性標注、依存分析預處理得到每個句子的主體詞、特征詞、觀點詞,最終得到語料的主體、特征、觀點詞集合,同時統計得到主體-特征詞集、特征-觀點詞集之間各個詞在語料中的同現頻率矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中森云鏈(成都)科技有限責任公司,未經中森云鏈(成都)科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010623820.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種配電網綜合優化運行方法
- 下一篇:一種多料道擠塑模頭





