[發明專利]一種文本填充方法及裝置在審
| 申請號: | 202010801195.5 | 申請日: | 2020-08-11 |
| 公開(公告)號: | CN112069810A | 公開(公告)日: | 2020-12-11 |
| 發明(設計)人: | 蔡曉東;田文靖 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京輕創知識產權代理有限公司 11212 | 代理人: | 尉保芳 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 填充 方法 裝置 | ||
本發明提供一種文本填充方法及裝置,方法包括:對輸入樣本進行預處理,得到帶有多個空白位置的缺失樣本;對所述缺失樣本進行編碼,得到編碼層語義向量;基于注意力機制算法對所述編碼層語義向量中的多個空白位置進行填充,得到預測層語義向量和多個用于填充所述空白位置的填充詞,并分別對各個填充至所述空白位置的詞進行標記,得到多個標記填充詞;根據多個所述標記填充詞對所述編碼層語義向量和所述預測層語義向量進行損失分析,得到填充文本。本發明迭代減小語義損失,能捕獲文本長距離關系且網絡結構簡單,相對現有技術,能夠提升填充后的文文本語義連貫性和流暢性。
技術領域
本發明主要涉及語言處理技術領域,具體涉及一種文本填充方法及裝置。
背景技術
文本填充,即自動填充文本缺失部分,文本填充的目的是利用缺失部分的上下文信息來填充句子或段落的缺失部分,可以用于許多現實世界中的自然語言生成場景,例如填充空白圖像,詞匯約束句子生成,古代文本恢復,藏頭詩生成。目前的文本填充主要基于循環神經網絡,但現有的方法存在填充后的文本缺乏語義連貫性和流暢性較差的問題。
發明內容
本發明所要解決的技術問題是針對現有技術的不足,提供一種文本填充方法及裝置。
本發明解決上述技術問題的技術方案如下:一種文本填充方法,包括如下步驟:
S1:對輸入樣本進行預處理,得到帶有多個空白位置的缺失樣本;
S2:對所述缺失樣本進行編碼,得到編碼層語義向量;
S3:基于注意力機制算法對所述編碼層語義向量中的多個空白位置進行填充,得到預測層語義向量和多個用于填充所述空白位置的填充詞,并分別對各個填充至所述空白位置的詞進行標記,得到多個標記填充詞;
S4:根據多個所述標記填充詞對所述編碼層語義向量和所述預測層語義向量進行損失分析,得到填充文本。
本發明解決上述技術問題的另一技術方案如下:一種文本填充裝置,包括:
樣本處理模塊,用于對輸入樣本進行預處理,得到帶有多個空白位置的缺失樣本;
缺失樣本編碼模塊,用于對所述缺失樣本進行編碼,得到編碼層語義向量;
向量處理模塊,用于基于注意力機制算法對所述編碼層語義向量中的多個空白位置進行填充,得到預測層語義向量和多個用于填充所述空白位置的填充詞,并分別對各個填充至所述空白位置的詞進行標記,得到多個標記填充詞;
填充文本獲得模塊,用于根據多個所述標記填充詞對所述編碼層語義向量和所述預測層語義向量進行損失分析,得到填充文本。
本發明的有益效果是:通過對輸入樣本的預處理得到帶有多個空白位置的缺失樣本,對缺失樣本的編碼得到編碼層語義向量,基于注意力機制算法對編碼層語義向量中的多個空白位置的填充得到預測層語義向量和多個用于填充空白位置的填充詞,并分別對各個填充至空白位置詞的標記得到多個標記填充詞,根據多個標記填充詞對編碼層語義向量和預測層語義向量的損失分析得到填充文本,迭代減小語義損失,能捕獲文本長距離關系且網絡結構簡單,相對現有技術,能夠提升填充后的文文本語義連貫性和流暢性。
附圖說明
圖1為本發明一實施例提供的文本填充方法的流程示意圖;
圖2為本發明一實施例提供的文本填充裝置的模塊框圖。
具體實施方式
以下結合附圖對本發明的原理和特征進行描述,所舉實例只用于解釋本發明,并非用于限定本發明的范圍。
圖1為本發明一實施例提供的文本填充方法的流程示意圖。
如圖1所示,一種文本填充方法,包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010801195.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種紅外線額溫槍的探頭結構
- 下一篇:一種鋼筋用多變式彎曲機構





