[發明專利]一種結合集束搜索間隔最大化約束的文本摘要生成方法有效
| 申請號: | 201811321380.3 | 申請日: | 2018-11-07 |
| 公開(公告)號: | CN109508371B | 公開(公告)日: | 2022-03-15 |
| 發明(設計)人: | 葉梓;潘嶸 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/216;G06F40/289 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 集束 搜索 間隔 最大化 約束 文本 摘要 生成 方法 | ||
1.一種結合集束搜索間隔最大化約束的文本摘要生成方法,其特征在于:包括以下步驟:
S1.構建循環神經網絡模型;
S2.向循環神經網絡模型輸入一批訓練數據;
S3.設循環神經網絡模型輸出了前k個詞,即{y0,y1,…,yk-1};接下來輸出的目標是yk,則針對詞匯表V={v0,v1,…,v|v|-1},循環神經網絡模型針對某一個詞vg計算得到輸出概率pk(vg);
S4.以目標詞組ykyk+1的概率高于其他詞組為目標,通過最大間隔化的優化函數對yk進行求解;令候選詞匯組為優化函數表示為:
Lossmm=max(0,γ+logp(ri)-logp(ykyk+1))
其中γ是為超參;
計算交叉熵函數
其中L為摘要y的文本長度,p(yk)為生成yk的概率;
定義yk的目標函數為:
Loss=Lossce+λLossmm
通過上式計算得到目標函數;
S5.梯度下降優化目標函數;
S6.驗證循環神經網絡模型效果;
S7.判斷循環神經網絡模型是否收斂,若否則執行步驟S2,若是則結束訓練,執行步驟S8;
S8.輸入一段文本;
S9.通過集束搜索,擴展下一個可能出現的詞;
S10.通過步驟S9產生新的候選摘要,更新它們的概率;
S11.保留概率最大的候選摘要生成新的集束;
S12.判斷集束中的候選摘要是否都輸出了終止符,若是則執行步驟S14,若否則執行步驟S13;
S13.判斷產生的摘要統一長度是否超出循環神經網絡模型限制,若是則執行步驟S14,若否則執行步驟S8;
S14.從集束中挑選概率最大的摘要作為輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811321380.3/1.html,轉載請聲明來源鉆瓜專利網。





