[發明專利]一種改進詞向量模型的文本聚類多文檔自動摘要方法及系統有效
| 申請號: | 201910291940.3 | 申請日: | 2019-04-12 |
| 公開(公告)號: | CN110413986B | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 陳剛 | 申請(專利權)人: | 上海晏鼠計算機技術股份有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/35;G06F40/289;G06F40/30;G06F40/216;G06N3/0464;G06N3/048;G06N3/09 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200082 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 改進 向量 模型 文本 聚類多 文檔 自動 摘要 方法 系統 | ||
本發明公開了一種改進詞向量模型的文本聚類多文檔自動摘要方法及系統,Hierarchical?Softmax的CBOW屬于大規模模型訓練,基于此本文通過將TesorFlow深度學習框架引入詞向量模型訓練中,通過流式處理計算解決對于大規模訓練集的時間效率問題,進行句向量表示時先引入了TF?IDF,再計算待抽取語義單元的語義相似度,設定了加權參數來綜合考慮,生成了“語義加權”的句向量;有益效果:綜合考慮了語義、深度學習、機器學習的優劣性,應用了密度聚類和卷積神經網絡算法,智能化程度較高,可以快速地抽取與中心內容相關度高的語句作為文本的摘要,在自動文本摘要中應用各類機器學習算法以達到更佳的摘要效果,可能將是該領域以后的主要研究方向。
技術領域
本發明涉及自然語言處理領域,具體來說,涉及一種改進詞向量模型的文本聚類多文檔自動摘要方法及系統。
背景技術
互聯網屬于傳媒領域。又稱國際網絡,互聯網始于1969年美國的阿帕網。是網絡與網絡之間所串連成的龐大網絡,這些網絡以一組通用的協議相連,形成邏輯上的單一巨大國際網絡。通常internet泛指互聯網,而Internet則特指因特網。這種將計算機網絡互相聯接在一起的方法可稱作“網絡互聯”,在這基礎上發展出覆蓋全世界的全球性互聯網絡稱互聯網,即是互相連接一起的網絡結構。互聯網并不等同萬維網,萬維網只是一建基于超文本相互鏈接而成的全球性系統,且是互聯網所能提供的服務其中之一。
隨著互聯網的快速發展,互聯網已經成為了人們獲取信息的主要渠道,互聯網上的文檔數據內容也呈現出指數級增長的趨勢。互聯網上的文檔數據中包含了豐富的信息,如何有效的閱讀和篩選對我們有用的信息已經成為我們關注的重點。自動文檔摘要技術對文檔信息進行壓縮表示,幫助用戶更好的瀏覽和吸收互聯網上的海量信息。
但目前句子融合、句子壓縮和語言生成的相關技術還不夠成熟,導致生成的摘要存在語法錯誤、邏輯不連貫或上下文銜接生硬等問題。
針對相關技術中的問題,目前尚未提出有效的解決方案。
發明內容
本發明的目的在于提供一種改進詞向量模型的文本聚類多文檔自動摘要方法及系統,以解決上述背景技術中提出的問題。
為實現上述目的,本發明提供如下技術方案:一種改進詞向量模型的文本聚類多文檔自動摘要方法及系統,文本預處理步驟:將原始文檔的內容按句子進行分詞,去除停用詞,去其他無意義詞;
改進詞向量模型步驟:基于HierarchicalSoftmax的CBOW模型屬于大規模模型訓練,先建立深度學習框架TensorFlow,再運行算法;本發明將深度學習技術引入該模型訓練中能夠高效快速的得到詞向量模型;
句向量表示與聚類步驟:句向量基于維度平均值,并引入參數加權的TF-IDF算法得到句子的加權向量;根據句子的加權向量之間的語義相似度進行密度聚類得到若干子主題聚類文本,該子主題聚類文本中的句子同屬于一類語義主題;
文章摘要句抽取,生成摘要步驟:當獲取到子主題聚類文本后,采用的是卷積神經網絡的機器學習算法從各個集合中抽取摘要句,排序,最后進行格式化的輸出摘要;
進一步的,改進詞向量模型步驟,建立深度學習框架TensorFlow;
其次基于HierarchicalSoftmax的CBOW模型算法的流程,主要步驟如下:
輸入:基于CBOW的預料訓練樣本,詞向量的維度大小M,CBOW的上下文大小2c,步長為η
投影:將輸入的2c個向量做求和累加,即
輸出:霍夫曼樹的內部節點模型參數θ,所有的詞向量ω
①基于語料訓練樣本建立霍夫曼樹,從輸入層到隱藏層(投影層),這一步比較簡單,就是對ω周圍的2c個詞向量求和取平均即可,即:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海晏鼠計算機技術股份有限公司,未經上海晏鼠計算機技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910291940.3/2.html,轉載請聲明來源鉆瓜專利網。





