[發明專利]一種英語文本概念理解方法有效
| 申請號: | 202011382136.5 | 申請日: | 2020-11-30 |
| 公開(公告)號: | CN112487806B | 公開(公告)日: | 2023-05-23 |
| 發明(設計)人: | 李俊;姜蘭蘭;黃桂敏 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/194;G06F40/30;G06F40/216 |
| 代理公司: | 桂林市華杰專利商標事務所有限責任公司 45112 | 代理人: | 楊雪梅 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 英語 文本 概念 理解 方法 | ||
本發明公開一種英語文本概念理解方法,該方法是一個由順序連接的英語文本理解預處理模塊、英語文本關鍵詞概念語義特征提取模塊、英語文本關鍵詞及其概念語義依存關系提取模塊、候選答案選擇模塊組成的理解模型。一篇英語文本以及和該英語文本相關的問題通過本發明理解方法處理后,最后能夠得到該問題的相關概念答案。本發明的方法解決了英語文本概念理解的問題,其回答的結果比傳統的英語文本理解方法結果更準確。
技術領域
本發明涉及自然語言處理技術,是一種英語文本概念理解方法,本發明的理解方法只適合英語文本,不適合中文文本。
背景技術
機器自動化的英語文本理解是通過輸入一段英語文本以及與文本相關的若干問題,機器依靠自身的算法從輸入的英語文本找出問題的答案。傳統的英語文本理解方法主要有文本-問題語義分析理解方法和文本-問題詞匯匹配理解方法。文本-問題語義分析理解方法主要依賴于預先定義的規則模板,利用手工設計的語言特征對文本和問題之間的關系進行學習,這種方法首先需要大量的手工標注數據,這些數據會造成語義特征稀疏的問題,而且這種方法只適合于某些限定的領域。文本-問題詞匯匹配理解方法通過計算文本和問題中關鍵詞語的語義相似度,從而選擇相似度較高的詞語或短語作為答案,這種方法僅僅通過匹配問題和英語文本中詞語之間的相似度信息,難以獲得英語文本中多義詞的準確語義,從而導致閱讀理解答案選擇不準確的問題。針對上述問題,本發明提出一種英語文本概念理解方法,該方法通過挖掘英語文本中關鍵詞語的深層概念語義特征,獲取英語文本的概念化的語義信息,并通過英語文本和問題中詞語之間的概念語義依存關系,最終獲取更為準確的答案。
發明內容
本發明的一種英語文本概念理解方法的總體處理流程如圖1所示,其中包括英語文本理解預處理模塊、英語文本關鍵詞概念語義特征提取模塊、英語文本關鍵詞及其概念語義依存關系提取模塊、候選答案選擇模塊。
其中的英語文本理解預處理模塊的處理流程是:第一,輸入待閱讀的英語文本及問題,并對待閱讀的英語文本及問題分別進行分詞、去除停用詞、單詞小寫化處理,并對待閱讀的英語文本分句形成有若干句子組成的文本序列;第二,對第一步中輸出的文本序列進行分詞、短語切分處理、詞性標注,得到待閱讀英語文本及問題的單詞和短語組成的序列;第三,分別輸出待閱讀英語文本中句子序列的名詞及名詞短語、動詞、形容詞列表,問題句子序列的名詞及名詞短語、動詞、形容詞列表。
其中的英語文本關鍵詞概念語義特征提取模塊的處理流程是:第一,輸入英語文本預處理模塊中待閱讀英語文本及問題的預處理結果,選擇其中的名詞或名詞短語;第二,通過使用預先訓練好的閱讀理解數據集,對第一步中選擇的名詞或名詞短語進行詞向量表示;第三,分別計算問題中名詞或名詞短語與待閱讀英語文本中選取的名詞或名詞短語之間的余弦相似度,并對計算結果進行降序排序,選擇排名前五的結果作為候選的關鍵名詞或名詞短語;第四,通過計算候選的關鍵名詞或名詞短語與其所屬候選概念的共現概率,如果共現概率結果為零,則繼續執行第五步,否則選擇概率最大的結果作為候選關鍵名詞或名詞短語所屬的概念;第五,若候選的關鍵名詞或名詞短語與其所屬概念的共現概率結果為零,則直接使用當前名詞或名詞短語作為其所屬概念;第六,對選取的關鍵詞進行重要程度計算,通過計算當前關鍵詞同其上下文單詞之間的權重系數,然后加權求和得到當前關鍵詞最終重要程度得分。
其中英語文本關鍵詞及其概念語義依存關系提取模塊的處理流程是:第一,輸入候選的關鍵名詞或名詞短語的詞向量表示;第二;輸入候選的關鍵名詞或名詞短語的概念化表示;第三,使用預先訓練好的語義依存關系集,提取候選關鍵名詞或名詞短語之間的語義依存關系;第四,使用預先訓練好的概念依存關系集,提取候選關鍵名詞或名詞短語之間的概念依存關系;第五,計算候選關鍵名詞或名詞短語的語義依存關系和概念依存關系之間的余弦相似度,并對計算的結果進行降序排序,并選擇相似度最高的結果作為當前關鍵詞及其概念語義依存關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011382136.5/2.html,轉載請聲明來源鉆瓜專利網。





