[發明專利]一種基于極簡摘要策略的科技文本問題方法抽取的方法在審
| 申請號: | 202011441092.9 | 申請日: | 2020-12-08 |
| 公開(公告)號: | CN112487134A | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 陸偉;李鵬程;張國標;程齊凱 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/34;G06F40/211;G06F40/268;G06F40/289 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 彭艷君 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 摘要 策略 科技 文本 問題 方法 抽取 | ||
本發明涉及計算機技術,具體涉及一種基于極簡摘要策略的科技文本問題方法抽取的方法,包括獲取科技文檔數據集;對非結構化文本進行預處理,獲取訓練語料標簽;利用BERT預訓練模型對預處理后的文本進行向量化表征;采用Transformer模型搭建seq2seq架構的深度神經網絡作為編碼器、解碼器,生成限定內容與樣式的極簡摘要;應用詞性分析和句法分析算法抽取所生成極簡摘要中的問題方法詞。該方法包括數據爬取、自然語言處理和深度學習,能夠實現大規模的科技文本自動化處理,并從中抽取出具有對應關系的問題詞與方法詞。
技術領域
本發明屬于計算機技術領域,尤其涉及一種基于極簡摘要策略的科技文本問題方法抽取的方法。
背景技術
可獲取數字圖書資源的日益激增,使得信息精準檢索和知識快速獲取愈發困難。為方便文獻的索引和知識的獲取,現有符號系統制定了類目繁多的分類標引框架以提高檢索效率。然而,以文獻為粒度單元的檢索策略,無法滿足讀者們細粒度、導向性的知識獲取需求。研究表明,科研人員的信息獲取行為往往基于目標和任務驅動,更為關注文獻中的問題、方法或結果等特定內容。因此,在理解文本語義信息的基礎上實現詞匯粒度層面的問題方法抽取,具有重要的理論意義和實踐價值。
現有的問題方法抽取研究,多將信息抽取問題轉換為機器可解的標簽判定問題或分類問題,通過判別詞匯或詞組是否屬于特定類別完成問題方法詞的識別。然而,‘人工標注語料+機器學習算法’模式下的問題方法抽取依賴于大規模、高質量的標注語料,訓練數據的獲取高成本使得模型在性能提升上頗受掣肘。其次,對于涉及多問題、多方法的科技文本,現有方法難以判別問題與方法間的對應關系。
發明內容
針對背景技術存在的問題,本發明提供一種采用極簡摘要策略進行科技文本中的問題方法抽取的方法。
為解決上述技術問題,本發明采用如下技術方案:一種基于極簡摘要策略的科技文本問題方法抽取的方法,包括以下步驟:
S1.輸入科技文檔,對非結構化文本進行預處理,得到語料標簽;
S2.對預處理后的文本進行多粒度向量化表征;
S3.搭建seq2seq架構的神經網絡模型,生成限定內容與樣式的極簡摘要;
S4.從S3生成的極簡摘要中抽取問題詞與方法詞。
在上述的基于極簡摘要策略的科技文本問題方法抽取的方法中,S1的具體實施包括:
S1.1.使用正則表達式去除非結構化文本中的特殊字符;
S1.2.使用NLTK工具包對非結構化文本進行句子切分;
S1.3.歸約科技文本中對于問題方法的描述范式,構建字符串匹配模板集,從目標文檔中獲取訓練語料標簽。
在上述的基于極簡摘要策略的科技文本問題方法抽取的方法中,S2的具體實施包括:使用BERT預訓練模型對S1預處理后的文本進行向量化表征,得到含文本語義信息的特征向量。
在上述的基于極簡摘要策略的科技文本問題方法抽取的方法中,S3的具體實施包括:
S3.1.采用Transformers模型搭建seq2seq架構的神經網絡模型作為編碼器,對S2所得特征向量進行編碼,生成語義編碼向量;
S3.2.將S3.1所得語義編碼向量輸入多頭注意力網絡層,輸出中間狀態向量;
S3.3.采用Transformers模型搭建seq2seq架構的神經網絡模型作為解碼器,對S3.2所得中間狀態向量進行解碼操作,生成限定內容與樣式的極簡摘要。
在上述的基于極簡摘要策略的科技文本問題方法抽取的方法中,S4的具體實施包括:使用句法分析和詞性分析從S3生成的極簡摘要中抽取出問題詞和方法詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011441092.9/2.html,轉載請聲明來源鉆瓜專利網。





