[發明專利]一種改進詞向量模型的文本聚類多文檔自動摘要方法及系統有效
| 申請號: | 201910291940.3 | 申請日: | 2019-04-12 |
| 公開(公告)號: | CN110413986B | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 陳剛 | 申請(專利權)人: | 上海晏鼠計算機技術股份有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/35;G06F40/289;G06F40/30;G06F40/216;G06N3/0464;G06N3/048;G06N3/09 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200082 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 改進 向量 模型 文本 聚類多 文檔 自動 摘要 方法 系統 | ||
1.一種改進詞向量模型的文本聚類多文檔自動摘要方法,其特征在于,文本預處理步驟:將原始文檔的內容按句子進行分詞,去除停用詞,去其他無意義詞;
改進詞向量模型步驟:基于HierarchicalSoftmax的CBOW模型屬于大規模模型訓練,先建立深度學習框架TensorFlow,再運行算法;將深度學習技術引入該模型訓練中能夠高效快速的得到詞向量模型;
句向量表示與聚類步驟:句向量基于維度平均值,并引入參數加權的TF-IDF算法得到句子的加權向量;根據句子的加權向量之間的語義相似度進行密度聚類得到若干子主題聚類文本,該子主題聚類文本中的句子同屬于一類語義主題;
文章摘要句抽取,生成摘要步驟:當獲取到子主題聚類文本后,采用的是卷積神經網絡的機器學習算法從各個集合中抽取摘要句,排序,最后進行格式化的輸出摘要;
進一步的,改進詞向量模型步驟,建立深度學習框架TensorFlow;
其次基于HierarchicalSoftmax的CBOW模型算法的流程,步驟如下:
輸入:基于CBOW的預料訓練樣本,詞向量的維度大小M,CBOW的上下文大小2c,步長為η
投影:將輸入的2c個向量做求和累加,即
輸出:霍夫曼樹的內部節點模型參數θ,所有的詞向量ω
①基于預料訓練樣本建立霍夫曼樹,從輸入層到隱藏層和投影層,這一步比較簡單,就是對ω周圍的2c個詞向量求和取平均即可,即:
②隨機初始化模型參數θ,所有的詞向量ω
③進行梯度上升迭代過程,對于訓練集中的每一個樣本(context(ω),ω)作如下處理:
e=0,計算
forj=2to,計算:
對于(context(ω),ω)中的每一個詞向量xi(共2c個)進行更新:
xi=xi+e
如果梯度收斂,則結束梯度迭代,否則回到步驟3繼續迭代。
2.根據權利要求1所述的一種改進詞向量模型的文本聚類多文檔自動摘要方法,其特征在于,關于句向量表示與聚類步驟:
對于句向量表示的步驟有:(1)基于維度平均值,公式如下:
其中為句子i的第k維權重值,為句子中第j個特征詞的第k維值,N表示句子包含的特征詞的數量;
(2)引入TF-IDF以及對TF-IDF進行參數加權得到詞語的權值,公式為:
Score(ti,d)=(α+β)×γ×Weight(ti,d)
其中,ti為文本d的第i詞,Weight(ti,d)表示文本d中的第詞語的TF-IDF值,α表示詞ti的段落位置參數,β表示詞ti與標題相關的加權參數,γ為無意義詞加權系數,
TF-IDF為逆文檔詞頻加權值,計算公式為:
TF-IDF=TF(詞頻)*IDF(逆文檔頻率)
(3)句子的加權向量表示為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海晏鼠計算機技術股份有限公司,未經上海晏鼠計算機技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910291940.3/1.html,轉載請聲明來源鉆瓜專利網。





