[發明專利]一種基于計劃機制和知識圖譜引導的摘要生成方法有效
| 申請號: | 202011495634.0 | 申請日: | 2020-12-17 |
| 公開(公告)號: | CN112597296B | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 林鎮坤;蘇勤亮 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/36;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 劉俊 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 計劃 機制 知識 圖譜 引導 摘要 生成 方法 | ||
本發明提供一種基于計劃機制和知識圖譜引導的摘要生成方法,該方法直接將知識圖譜作為模型的輸入,并且在摘要解碼的過程中無間斷的知識圖譜的全局語義特征上抽取注意力特征,維持摘要上下文的語義一致性;相對于采用圖神經網絡作為編碼器的文本生成模型,本發明通過有監督的標注摘要中各個句段所涵蓋的實體信息,以訓練模型的計劃機制模塊能夠在生成句段前捕獲已生成文本的語義特征,由此進一步顯式的抽取知識圖譜的子圖作為細粒度的引導,從而指引模型生成語義更加流暢,邏輯更加自洽的摘要文本。
技術領域
本發明涉及人工智能算法領域,更具體地,涉及一種基于計劃機制和知識圖譜引導的摘要生成方法。
背景技術
互聯網的資訊呈指數級增長,為數億互聯網用戶提供各種內容和信息。用戶的期望是能夠快速,便利的獲取資訊的主要信息和閱讀摘要,然而,目前互聯網上各類長文的摘要文本生成和提煉主要通過專業編輯人工撰寫完成,不僅耗時耗力,還無法滿足市場的需求。
近年來,隨著人工智能和大數據的發展,機器寫稿和文本類信息摘要技術取得了顯著的進展。摘要自動生成技術逐漸商用,并且在各個應用場景中逐漸取代人工進行生產和服務。摘要生成是自然語言處理的一個重要領域,其可以分為抽取式摘要和生成式摘要。抽取式摘要主要是計算機程序從較長的源文本中篩選出重要的,具有代表性的短句,作為該文的摘要,而生成式摘要的任務是計算機程序在理解源文本蘊含的語義后,重新自主的生成摘要內容。生成式摘要的適用場景較為靈活,困難和問題也更有挑戰。
生成式摘要主要有2大局限和挑戰:首先,計算機程序在進行源文本的輸入和處理時,往往無法捕捉關鍵信息和理解復雜的語義邏輯,更進一步的,在本發明;其次是現有的自動撰寫系統還無法很好的利用人類高度概括和總結的知識和經驗以輔助文本的生成,導致生成式摘要大多會出現邏輯矛盾,語序不通,重復等缺陷。這種情況下,就需要計算機程序既能夠理解和處理輸入端的復雜領域知識,又能夠利用人類知識來提升生成文本的語法和語義質量。
發明內容
本發明提供一種提高模型表達能力的基于計劃機制和知識圖譜引導的摘要生成方法。
為了達到上述技術效果,本發明的技術方案如下:
一種基于計劃機制和知識圖譜引導的摘要生成方法,該方法應用在一種基于計劃機制和知識圖譜引導的摘要生成系統上,該系統包括語義編碼器、計劃機制模塊、摘要解碼器和內容理解器,包括以下步驟:
S1:語義編碼器提取知識圖譜特征,得到命名實體在多關系描述下的全局語義特征;
S2:內容理解器將已經生成的句段進行內容理解,得到已經表達的三元組子序列的特征;計劃機制模塊利用雙向注意力流,計算三元組的在當前語境下的注意力權重,進而得出當前語境下需要蘊含的局部語義特征;
S3:摘要解碼器將S1和S2得到的全局和局部語義特征進行融合,以句段為單位生成文本摘要。
進一步地,所述步驟S1的具體過是:
首先對其本發明通過信息抽取工具在大規模語料上進行命名實體識別和關系抽取,得到專業領域的知識經驗,從而顯式的描述和用戶期望生成摘要的語義;
特征向量初始化模塊,將異構的知識圖譜轉換為特征向量初始化表示:
s=node_encode(xs) (1)
r=relation_encode(xt) (2)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011495634.0/2.html,轉載請聲明來源鉆瓜專利網。





