[發明專利]基于單詞重要性加權的問題生成方法有效
| 申請號: | 202110454046.0 | 申請日: | 2021-04-26 |
| 公開(公告)號: | CN113128206B | 公開(公告)日: | 2022-04-19 |
| 發明(設計)人: | 毛震東;張勇東;于尊瑞 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/284;G06F16/33 |
| 代理公司: | 北京凱特來知識產權代理有限公司 11260 | 代理人: | 鄭立明;韓珂 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 單詞 重要性 加權 問題 生成 方法 | ||
1.一種基于單詞重要性加權的問題生成方法,其特征在于,包括:
訓練階段:通過統計數據集中所有文本段落每個單詞出現的頻率以及單個文本段落中每個單詞出現的頻率,確定各個文本段落中每個單詞的重要程度,并得到重要程度排序向量;同時,對于單個文本段落,通過依存句法分析建立單詞與答案之間的相對關系矩陣;將文本段落及相應的問題文本、文本段落的重要程度排序向量與每個單詞的重要程度、以及單詞與答案之間的相對關系矩陣輸入至問題生成模型;所述問題生成模型計算問題文本中每個單詞的嵌入向量,以及根據文本段落與重要程度排序向量計算文本段落每個單詞的嵌入向量,并將所有單詞的嵌入向量輸入至添加有單詞之間的相對關系矩陣的自注意力編碼器中,獲得所有單詞的編碼向量構成的隱向量矩陣,最終結合單詞的重要程度預測出問題文本中每個單詞的概率分布;結合輸入的文本段落對應的問題文本與預測出的問題文本中每個單詞的概率分布訓練問題生成模型,直至滿足終止條件;
測試階段:給定待生成的問題文本的長度,將輸入的文本段落、文本段落的重要程度排序向量與每個單詞的重要程度、以及單詞與答案之間的相對關系矩陣輸入至訓練后的問題生成模型,預測出不超過給定長度的問題文本。
2.根據權利要求1所述的一種基于單詞重要性加權的問題生成方法,其特征在于,所述通過統計數據集中所有文本段落每個單詞出現的頻率以及單個文本段落中每個單詞出現的頻率,確定各個文本段落中每個單詞的重要程度以及重要程度排序向量包括:
統計整個數據集中所有文本段落中每個單詞出現的頻率,將所有單詞按出現的頻率降序排序,所得序列向量記為S1;
每一文本段落,統計其中每個單詞出現的頻率,并按頻率按出現的降序排序,所得序列向量記為S2;
對于每一文本段落,比較其中每個單詞在序列向量在S1和S2中的排名,將其在序列向量S2中的排名和其在序列向量S1中的排名作差,得到單詞的重要程度D(Ti);之后,將文本段落中各單詞按照重要程度降序排序,得到重要程度排序向量ΔS,并以此可以確定各單詞在重要程度排序向量中的位置;公式表示為:
D(Ti)=S2(Ti)-S1(Ti)
ΔS=sort(D(Ti)),i=1,...,LT
其中,S2(Ti)表示文本段落中第i個單詞Ti在序列向量S2中的排名,S1(Ti)表示文本段落中第i個單詞Ti在序列向量S1中的排名,LT為文本段落的長度,sort(.)為排序函數。
3.根據權利要求1所述的一種基于單詞重要性加權的問題生成方法,其特征在于,所述對于單個文本段落,通過依存句法分析建立單詞與答案之間的相對關系矩陣的步驟包括:
提取文本段落中包含答案的句子,并構建單向樹:單向樹中每個節點表示一個單詞,答案中所包含的單詞作為根節點詞語,兩個節點之間的連接表示兩個單詞之間的單向依存關系;所述答案為文本段落中的連續文本;
在得到的單詞之間的單向依存關系基礎上,對每個單向關系均添加一個反向的關系,形成雙向關系的樹結構;
最后,遍歷整個雙向關系的樹結構,保留其他單詞到答案詞的路徑上的依存關系,而刪除答案詞到其他單詞的路徑上的依存關系,剩余的單向關系作為最終的相對關系,并根據最終的相對關系構建相對關系矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110454046.0/1.html,轉載請聲明來源鉆瓜專利網。





