[發明專利]提取摘要信息的方法、裝置、語言處理引擎和介質有效
| 申請號: | 201811150949.4 | 申請日: | 2018-09-29 |
| 公開(公告)號: | CN110162617B | 公開(公告)日: | 2022-11-04 |
| 發明(設計)人: | 侯皓文 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/232;G06F40/295 |
| 代理公司: | 深圳市聯鼎知識產權代理有限公司 44232 | 代理人: | 劉抗美 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 提取 摘要 信息 方法 裝置 語言 處理 引擎 介質 | ||
1.一種從目標文本中提取摘要信息的方法,其特征在于,包括:
獲取目標文本;
在所述目標文本之前和之后分別設置指針和結束符;
將指針的當前位置和所述目標文本輸入機器學習模型,由機器學習模型預測所述目標文本中所述指針的當前位置之后指向的下一個位置,直到指向結束符;所述機器學習模型包括級聯的編碼網絡和解碼網絡,編碼網絡和解碼網絡各自包括級聯的門控循環單元,其中,編碼網絡中的每級門控循環單元與目標文本的一個字符對應,每級門控循環單元的輸入為對應字符的向量、以及前一級門控循環單元的輸出;解碼網絡中的每級門控循環單元與摘要信息的一個字符對應,每級門控循環單元的輸入為對應字符的向量、以及前一級門控循環單元的輸出;
將指針指向結束符之前在目標文本中指向的所有位置的字符順序取出,作為所述摘要信息;
其中,預測所述目標文本中所述指針的當前位置之后指向的下一個位置,包括:
通過以下公式求所述解碼網絡中所述指針當前位置的字符對應的門控循環單元的輸出、與所述編碼網絡中各門控循環單元的輸出的加權和向量:
其中,j∈(1,……,n);n為目標文本的字符數;表示解碼網絡中第i-1個門控循環單元的輸出、與編碼網絡中第j個門控循環單元的輸出的加權和向量;hj表示編碼網絡中第j個門控循環單元的輸出,維數與字符向量的維數相等;di-1表示解碼網絡中第i-1個門控循環單元輸出的向量,維數與字符向量的維數相等;W1、W2是hj和di-1相應的權重矩陣,列和行數都與字符向量的維數相等;vT是常向量v的轉置,常向量v的維數與字符向量的維數相等;
基于所述加權和向量,確定預測的所述下一個位置。
2.根據權利要求1所述的方法,其特征在于,所述機器學習模型事先如下訓練:
獲取目標文本樣本集,該目標文本樣本集包括多個目標文本樣本,其中,每個目標文本樣本之前和之后分別設置指針和結束符,且摘要信息已知;
將每個目標文本樣本輸入機器學習模型,由機器學習模型預測所述目標文本樣本中所述指針的當前位置之后指向的下一個位置,直到指向結束符;
將指針指向結束符之前在目標文本樣本中順序指向的所有位置的字符,與已知摘要信息比較,從而調整機器學習模型的參數,使指針指向結束符之前在目標文本樣本中順序指向的所有位置的字符與已知摘要信息一致。
3.根據權利要求1所述的方法,其特征在于,所述目標文本是實體全稱,所述摘要信息是實體簡稱。
4.根據權利要求3所述的方法,其特征在于,所述獲取目標文本包括:
將目標語段分解成語句;
基于分解成的語句,按照預定規則獲取實體全稱。
5.根據權利要求4所述的方法,其特征在于,所述預定規則包括:
將語句分成詞;
識別分成的詞中的地理名詞和實體類型詞;
針對所述語句中從識別出的地理名詞開始到識別出的實體類型詞之間的部分,在互聯網上進行搜索;
如果搜索結果滿足預定條件,確定所述部分是實體全稱。
6.根據權利要求5所述的方法,其特征在于,所述預定條件包括:包含所述部分的搜索結果數目超出預定數目閾值。
7.根據權利要求5所述的方法,其特征在于,確定所述部分是實體全稱還基于所述部分與實體工商登記網站信息的匹配。
8.根據權利要求7所述的方法,其特征在于,所述確定所述部分是實體全稱,具體包括:
確定所述部分在互聯網上搜索結果的搜索得分,該搜索得分取決于互聯網上包含所述部分的搜索結果數目;
確定所述部分與實體工商登記網站信息的匹配得分,該匹配得分取決于所述部分與實體工商登記網站信息的匹配程度;
在所述搜索得分與匹配得分的加權和大于預定加權和閾值時,確定所述部分是實體全稱。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811150949.4/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





