[發明專利]文本處理方法、裝置、設備以及計算機可讀存儲介質在審
| 申請號: | 201910768816.1 | 申請日: | 2019-08-20 |
| 公開(公告)號: | CN112487136A | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 郭垿宏;郭心語;李安新;陳嵐;池田大志;吉村健;藤本拓 | 申請(專利權)人: | 株式會社NTT都科摩 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/211;G06F40/284 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 孫宛晨 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 裝置 設備 以及 計算機 可讀 存儲 介質 | ||
本申請涉及一種文本處理裝置、方法、設備以及計算機可讀存儲介質。所述文本處理裝置包括:預處理單元,配置成對源文本進行預處理,以產生用于所述多個詞語的多個詞向量;句向量確定單元,配置成基于多個初始推薦權重向量和所述多個詞向量確定多個句向量;推薦概率確定單元,配置成基于每個句向量與所述多個句向量中另一句向量之間的相關性調整所述多個初始推薦權重向量,以確定用于所述多個詞語的推薦概率分布;以及輸出單元,配置成基于所述推薦概率分布確定要輸出的詞語。
技術領域
本公開涉及文本處理領域,并且具體涉及一種文本處理方法、裝置、設備以及計算機可讀存儲介質。
背景技術
在現有的文本生成過程中,生成文本的網絡的輸出的內容是通過學習訓練數據獲得的結果。對于例如摘要這樣的文本生成場景,由于大部分的訓練數據的正解集中在文本內容的前幾句話中,因此,利用這樣的訓練數據訓練得到的網絡也傾向于將文本內容的前幾句話生成新的文本內容。因此,目前的文本處理方法缺乏有效的對文本內容進行概括和提取的方法。
發明內容
為了有效地從文本中提取和生成摘要,本公開提供了一種文本處理方法、裝置、設備以及計算機可讀存儲介質。
根據本公開的一個方面,提供了一種文本處理裝置,包括:預處理單元,配置成對源文本進行預處理,以產生用于所述多個詞語的多個詞向量;句向量確定單元,配置成基于多個初始推薦權重向量和所述多個詞向量確定多個句向量;推薦概率確定單元,配置成基于每個句向量與所述多個句向量中另一句向量之間的相關性調整所述多個初始推薦權重向量,以確定用于所述多個詞語的推薦概率分布;以及輸出單元,配置成基于所述推薦概率分布確定要輸出的詞語。
在一些實施例中,所述句向量確定單元配置成:利用編碼神經網絡對所述多個詞向量進行處理,以確定分別與各詞向量對應的當前編碼隱藏狀態向量,基于每個初始推薦權重向量和所述當前編碼隱藏狀態向量確定對應于該初始推薦權重向量的句向量。
在一些實施例中,所述輸出單元配置成:基于所述當前編碼隱藏狀態向量,利用解碼神經網絡確定當前解碼隱藏狀態向量;利用所述當前編碼隱藏狀態向量和所述當前解碼隱藏狀態向量確定當前詞語概率分布;基于所述當前詞語概率分布和所述推薦概率分布確定要輸出的詞語。
在一些實施例中,所述當前詞語概率分布包括生成概率分布和注意力概率分布,所述輸出單元配置成:利用所述推薦概率分布對所述注意力概率分布進行調整,以確定調整后的注意力概率分布;對所述生成概率分布和所述調整后的注意力概率分布進行加權求和以確定輸出詞語概率分布;以及并將輸出詞語概率分布中概率最大的詞語確定為要輸出的詞語。
在一些實施例中,所述當前詞語概率分布包括生成概率分布和注意力概率分布,所述輸出單元配置成:確定用于所述生成概率分布、所述注意力概率分布以及所述推薦概率分布的權重,以基于所述權重確定所述輸出詞語概率分布;以及將輸出詞語概率分布中概率最大的詞語確定為要輸出的詞語。
在一些實施例中,推薦概率確定單元還包括相關性確定子單元,所述相關性確定子單元配置成:針對每個句向量,將該句向量與另一句向量進行組合,以生成組合句向量;利用相關性矩陣對所述組合句向量進行處理,以確定該句向量與該另一句向量之間的相關性。
在一些實施例中,推薦概率確定單元還包括調整子單元,所述調整子單元配置成:基于該句向量與所述多個句向量中每個其他句向量的相關性確定該句向量的推薦系數;對于所述初始推薦權重向量中的每一個,利用對應于該初始推薦權重向量的句向量的推薦系數對該初始推薦權重向量進行調整,以得到調整后的詞概率向量;基于調整后的詞概率向量確定所述多個詞語的推薦概率分布。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社NTT都科摩,未經株式會社NTT都科摩許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910768816.1/2.html,轉載請聲明來源鉆瓜專利網。





