[發明專利]一種基于極簡摘要策略的科技文本問題方法抽取的方法在審
| 申請號: | 202011441092.9 | 申請日: | 2020-12-08 |
| 公開(公告)號: | CN112487134A | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 陸偉;李鵬程;張國標;程齊凱 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/34;G06F40/211;G06F40/268;G06F40/289 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 彭艷君 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 摘要 策略 科技 文本 問題 方法 抽取 | ||
1.一種基于極簡摘要策略的科技文本問題方法抽取的方法,其特征是,包括以下步驟:
S1.輸入科技文檔,對非結構化文本進行預處理,得到語料標簽;
S2.對預處理后的文本進行多粒度向量化表征;
S3.搭建seq2seq架構的神經網絡模型,生成限定內容與樣式的極簡摘要;
S4.從S3生成的極簡摘要中抽取問題詞與方法詞。
2.如權利要求1所述的基于極簡摘要策略的科技文本問題方法抽取的方法,其特征是,S1的具體實施包括:
S1.1.使用正則表達式去除非結構化文本中的特殊字符;
S1.2.使用NLTK工具包對非結構化文本進行句子切分;
S1.3.歸約科技文本中對于問題方法的描述范式,構建字符串匹配模板集,從目標文檔中獲取訓練語料標簽。
3.如權利要求1所述的基于極簡摘要策略的科技文本問題方法抽取的方法,其特征是,S2的具體實施包括:使用BERT預訓練模型對S1預處理后的文本進行向量化表征,得到含文本語義信息的特征向量。
4.如權利要求3所述的基于極簡摘要策略的科技文本問題方法抽取的方法,其特征是,S3的具體實施包括:
S3.1.采用Transformers模型搭建seq2seq架構的神經網絡模型作為編碼器,對S2所得特征向量進行編碼,生成語義編碼向量;
S3.2.將S3.1所得語義編碼向量輸入多頭注意力網絡層,輸出中間狀態向量;
S3.3.采用Transformers模型搭建seq2seq架構的神經網絡模型作為解碼器,對S3.2所得中間狀態向量進行解碼操作,生成限定內容與樣式的極簡摘要。
5.如權利要求1所述的基于極簡摘要策略的科技文本問題方法抽取的方法,其特征是,S4的具體實施包括:使用句法分析和詞性分析從S3生成的極簡摘要中抽取出問題詞和方法詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011441092.9/1.html,轉載請聲明來源鉆瓜專利網。





