[發明專利]一種基于隱藏關聯網絡的多領域文本隱式特征抽取方法及計算機存儲介質在審
| 申請號: | 202010623820.1 | 申請日: | 2019-04-16 |
| 公開(公告)號: | CN111859898A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 中森云鏈(成都)科技有限責任公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/289;G06F16/35 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 614100 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 隱藏 關聯 網絡 領域 文本 特征 抽取 方法 計算機 存儲 介質 | ||
1.一種計算機可讀存儲介質,其上存儲有程序,其特征在于,該程序被執行時實現基于隱藏關聯網絡的多領域文本隱式特征抽取方法,其特征在于包括以下步驟:
步驟1:使用語料進行詞向量訓練得到語料中每個詞的詞向量,對語料進行預處理得到主體、特征、觀點詞集,統計得到詞集之間各個詞在語料中的同現頻率矩陣;
步驟2:根據同現頻率矩陣對主體-特征、特征-觀點詞集之間進行雙向增強聚類,然后重新聚類得到每個詞集內部的聚類結果;
步驟3:利用同現頻率矩陣計算兩個詞集的類之間的互信息作為類之間的關聯強度,構造主體與特征、特征與觀點詞集之間的二部圖,形成主體-特征-觀點關聯網絡;
步驟4:對于需要進行隱式特征抽取的句子,得到其中的主體、觀點詞,然后判斷在各自詞集中所屬類,根據主體-特征-觀點關聯網絡確定可能的隱式特征類,最終從該隱式特征類中得到最可能的隱式特征詞。
2.根據權利要求1所述的計算機可讀存儲介質,其特征在于:所述步驟1中使用語料進行詞向量訓練得到語料中每個詞的詞向量,對語料進行預處理得到主體、特征、觀點詞集,統計得到詞集之間各個詞在語料中的同現頻率矩陣,具體為:對語料進行分句、分詞處理得到訓練數據,使用訓練數據進行詞向量訓練得到語料中每個詞的詞向量;對語料進行分句、分詞、詞性標注、依存分析預處理,從句子中選擇可能的名詞作為主體詞加入主體詞集,否則作為特征詞候選,句子中的形容詞作為觀點詞候選,根據依存分析得到的依存樹,挑選被特定關系連接的候選特征詞和候選觀點詞加入特征詞集、觀點詞集;統計出主體-特征詞集、特征-觀點詞集之間各個詞在語料中的同現頻率矩陣。
3.根據權利要求1所述的計算機可讀存儲介質,其特征在于:所述步驟2中根據同現頻率矩陣對主體-特征、特征-觀點詞集之間進行雙向增強聚類,然后重新聚類得到每個詞集內部的聚類結果,具體為:首先根據所述步驟1訓練得到的詞向量在三個詞集內部進行初步聚類,然后在主體-特征詞集、特征-觀點詞集之間考慮一個詞集的每個詞與固定的另一個詞集內聚類類之間的關聯,得到相互關聯矩陣,利用詞與詞之間的關聯相似度和內容相似度進行相互增強的迭代聚類,最終收斂得到主體-特征、特征-觀點詞集的聚類結果;利用主體-特征詞集相互增強聚類得到的主體詞集聚類結果,對特征-觀點詞集相互增強聚類得到的特征詞集聚類結果進行重新聚類,保證最后得到的特征詞集聚類結果同時包含主體和觀點信息;
聚類時,詞之間的相似度度量定義如下:
其中,Scontent(Wi,Wj)表示詞Wi和詞Wj之間的詞向量相似度,這里稱Scontent(Wi,Wj)為詞Wi和詞Wj之間的內容相似度;Srel(Wi,Wj)表示詞Wi和詞Wj之間的相互關聯矩陣中對應的關聯向量相似度,這里稱Srel(Wi,Wj)為詞Wi和詞Wj之間的關聯相似度;表示內部相似度所占權重,對于兩個詞集F和O之間的相互增強聚類流程如下:
a.只考慮內容相似度,即詞向量間的余弦相似度,將集合F中的詞聚類成k個類;
b.根據集合F的聚類結果更新集合O的相互關聯矩陣M1,對于集合O中的任何一個詞Oi,詞Oi對應的與集合F聚類結果之間的關聯向量由表示,關聯向量中的每個分量對應集合F聚類后的k個類之一,其中詞Oi與集合F聚類后的第x個類之間的權重,是詞Oi與第x個類中的所有詞的同現頻率之和,x∈[1,k];最終由集合O中n個詞的關聯向量構成新的n×k維的相互關聯矩陣M1;
c.根據b中更新的集合O和集合F之間的相互關聯矩陣M1,將集合O中的數據對象聚類成l個類;
d.根據集合O的聚類結果更新集合F的相互關聯矩陣M2,對于集合F中的任何一個詞Fi,詞Fi對應的與集合O聚類結果之間的關聯向量由表示,關聯向量中的每個分量對應集合O聚類后的l個類之一,其中詞Fi與集合O聚類后的第y個類之間的權重,是詞Fi與第y個類中的所有詞的同現頻率之和,y∈[1,l];最終由集合F中m個詞的關聯向量構成新的m×l維的相互關聯矩陣M2;
e.根據d中更新的集合F和集合O之間的相互關聯矩陣M2,將集合F中的數據對象重新聚類為k個類;
f.迭代步驟b-e,直到兩個詞集的聚類結果收斂;
利用主體-特征詞集相互增強聚類得到的主體詞集聚類結果Sr,對特征-觀點詞集相互增強聚類得到的特征詞集聚類結果Fr進行重新聚類的過程如下:
假設主體詞集聚類結果Sr包含p個雙向增強聚類得到的類,特征詞集聚類結果Fr包含q個雙向增強聚類得到的類;對于需要重新聚類的特征詞集聚類結果Fr,Fr中的任意一個特征詞Yi對應的與主體詞集聚類結果Sr之間的關聯向量由表示;關聯向量R″i中的每個分量對應主體詞集聚類結果Sr的p個類之一,其中是特征詞Yi與主體詞集聚類結果Sr的第z個類之間的權重,z∈[1,p];在特征詞集聚類結果Fr的每個類中,特征詞兩兩配對計算關聯向量相似度進行比較,對關聯向量相似度小于閾值t的特征詞劃分到新的類中,最終得到重新聚類后的特征詞集Ffr。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中森云鏈(成都)科技有限責任公司,未經中森云鏈(成都)科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010623820.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種配電網綜合優化運行方法
- 下一篇:一種多料道擠塑模頭





