[發明專利]基于TextRank和深度神經網絡的情感摘要抽取方法在審
| 申請號: | 202111022446.0 | 申請日: | 2021-09-01 |
| 公開(公告)號: | CN113743113A | 公開(公告)日: | 2021-12-03 |
| 發明(設計)人: | 金勇;胡林利;陳宏明 | 申請(專利權)人: | 武漢長江通信產業集團股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F40/30;G06F40/117;G06F16/34;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海精晟知識產權代理有限公司 31253 | 代理人: | 劉點 |
| 地址: | 430000 湖北省武*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 textrank 深度 神經網絡 情感 摘要 抽取 方法 | ||
1.基于TextRank和深度神經網絡的情感摘要抽取方法,其特征在于:包括如下步驟:
S1、數據采集:采集源數據經過數據清洗之后,進行相應的數據標注和知識整理得到數據集;
S2、監督式模型訓練:針對LSTM+ATT+CNN網絡模型進行訓練,訓練得到文檔短句子向量;
S3、無監督式摘要提取:根據pearson系數計算句子向量相似度矩陣,利用監督式的句子向量更新文本網絡權重;
S4、文本情感摘要生成:根據最新的網絡權重得分進行排序,按照TopK原則選取關鍵句,并根據關鍵詞在文中出現的順序,組合成情感摘要。
2.根據權利要求1所述的基于TextRank和深度神經網絡的情感摘要抽取方法,其特征在于:所述步驟S2中對LSTM+ATT+CNN網絡模型的結構依次包括四個層次:輸入層、LSTM層、注意力機制層以及卷積全連接層,處理過程是:以sentence2vec得到的句子向量作為初始向量;通過LSTM網絡學習序列間的初始序列特征;構建sentence level的注意力機制模型進一步得到局部區域的文本向量表達形式;最后結合卷積神經網絡全連接方式進行監督式訓練網絡參數。
3.根據權利要求1所述的基于TextRank和深度神經網絡的情感摘要抽取方法,其特征在于:所述步驟S3中根據得到的句子向量計算句子權重W2,從而更新上述的句子權重,得到W3=λ*W1+(1-λ)*W2,其中λ是調節系數;針對W3構成的TextRank文本網絡圖,進行句子重要性排序。
4.根據權利要求1或3中所述的基于TextRank和深度神經網絡的情感摘要抽取方法,其特征在于:所述步驟S3中通過對文本進行分拆,以每一個句子或短語為節點,構建TextRank文本網絡圖;
上式中,WS(Vi)表示句子i的權重,右側的求和表示每個相鄰句子對本句子的貢獻程度,d是阻尼系數,設置為0.85;
文本圖結構中,節點之間的邊代表權重,也就是句子之間的相似度,利用BM25模型計算得到句子Q在文檔d中的權重W;
IDF指逆文檔頻率,n指文檔數量,k1,b是經驗調節參數,k1=2,b=0.75;fi表示詞qi在文檔d中出現的頻率,dl為文檔d的長度,avgdl為文檔D集合中所有文檔的平均長度。
5.根據權利要求1所述的基于TextRank和深度神經網絡的情感摘要抽取方法,其特征在于:所述步驟S4中根據句子重要性,截取TopK的關鍵句,根據在文中出現的順序組合成最終情感摘要,其中K為關鍵句數量,設置為文檔總數量的20%至40%之間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢長江通信產業集團股份有限公司,未經武漢長江通信產業集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111022446.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種濾芯
- 下一篇:一種工業泵性能測試系統和方法





