[發(fā)明專利]一種文本總結方法、電子設備及存儲介質有效
| 申請?zhí)枺?/td> | 202110686988.1 | 申請日: | 2021-06-21 |
| 公開(公告)號: | CN113312897B | 公開(公告)日: | 2022-09-30 |
| 發(fā)明(設計)人: | 李曉鵬;孫浩然;鄒杰 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/216;G06N7/00;G06N20/00 |
| 代理公司: | 上海元好知識產權代理有限公司 31323 | 代理人: | 張雙紅;張靜潔 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 總結 方法 電子設備 存儲 介質 | ||
本發(fā)明公開了一種文本總結方法、電子設備及存儲介質,所述方法包括:獲取文本中各個句子自身的特征信息以及各個句子之間的相似程度信息;對所述特征信息和所述相似程度信息進行編碼,得到核矩陣;對所述核矩陣進行若干次行列式采樣,得到采樣結果:對所述采樣結果進行統(tǒng)計計算,得到最概然結果,與所述最概然結果對應的句子為所述文本的總結結果。本發(fā)明能夠降低行列式采樣到計算復雜度,可以顯著提高基于行列式采樣的機器學習的運算效率。
技術領域
本發(fā)明涉及文本總結方法領域,特別涉及一種文本總結方法、電子設備及存儲介質。
背景技術
行列式采樣在量子化學計算和機器學習等任務中有重要應用。因其中涉及到的基本的泡利不相容原理,行列式采樣生成的數(shù)據樣本有天然的多樣性,這一點對機器學習中的文本總結和推薦系統(tǒng)等任務都具有重要意義。但是,此前行列式采樣的算法的計算效率不高,計算復雜度限制了相關應用的推廣。尤其在文本的語義總結中,傳統(tǒng)的行列式采樣算法的低效性極大的限制了能夠進行總結的文本的長度。
目前的行列式采樣算法有兩種,一種是科學計算中經常采用的馬爾可夫鏈的方法,一種是機器學習任務中通常采用的determinantal-point-process(DPP)的算法。這些方法應用于自動化文本總結,均存在比較顯著的問題。
具體的,馬爾可夫鏈的算法應用于文本總結存在顯著的任務依賴的問題,采樣中的自關聯(lián)問題會導致算法可能在某些文本總結的任務上失效,并且這種失效不可預判;而DPP算法在長文本總結的問題應用中,需要耗費大量的計算時間進行機器學習訓練,而且隨著文本長度的增加呈高階的多項式增長。這就導致了行列式采樣的模型在文本總結的機器學習應用中存在顯著的局限性。
發(fā)明內容
本發(fā)明的目的在于提供一種文本總結方法、電子設備及存儲介質,以解決目前的行列式采樣的模型在文本總結的機器學習應用中存在顯著的局限性的問題。
為了解決以上問題,本發(fā)明通過以下技術方案實現(xiàn):
一種文本總結方法,包括:
步驟S1、獲取文本中各個句子自身的特征信息以及各個句子之間的相似程度信息;
步驟S2、對所述特征信息和所述相似程度信息進行編碼,得到核矩陣;
步驟S3、對所述核矩陣進行若干次行列式采樣,得到采樣結果;
步驟S4、對所述采樣結果進行統(tǒng)計計算,得到最概然結果,與所述最概然結果對應的句子為所述文本的總結結果。
可選地,所述特征信息包括文本中每個句子的長度特征和位置特征。
可選地,所述特征信息中的每一特征對應一可調參數(shù)。
可選地,所述步驟S3包括:
所述核矩陣為L×N矩陣U,且滿足UTU=I,I為單位矩陣;
對所述L×N矩陣U進行行列式抽樣處理,抽樣一次得到的樣本為N維向量要求每個樣本xi∈[1,L],且N維向量服從概率分布其中向量其中,表示抽樣一次得到向量的概率;表示矩陣U中行指標為列指標為的部分所構成的子矩陣的行列式的值。
可選地,所述步驟S3還包括:步驟S3.1、將所述向量中的N個元素進行一次隨機排列,生成一隨機向量,記為向量;
步驟S3.2、從k=1開始迭代N次,直至k=N,N次迭代均按照以下條件概率生成目標向量
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110686988.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種服裝加工中具有壓平的裁剪裝置
- 下一篇:一種水稻人造育秧基質的制備方法





