[發明專利]一種使用神經網絡和機器學習排序算法的問答系統實現方法在審
| 申請號: | 201811298287.5 | 申請日: | 2018-10-26 |
| 公開(公告)號: | CN111190997A | 公開(公告)日: | 2020-05-22 |
| 發明(設計)人: | 何鐵科;黎宇;鄒智鵬;顧宇;陳振宇;史洋洋 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F16/35;G06F40/289 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210093 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 使用 神經網絡 機器 學習 排序 算法 問答 系統 實現 方法 | ||
1.一種使用神經網絡和機器學習排序算法的問答系統實現方法,其特征在于在文檔檢索階段使用LSI構建文檔和問題的主題和相似特征,并在閱讀理解部分將機器學習排序算法的結果添加到文本的特征向量中。方法可以分為兩個部分,第一部分為文檔檢索,會根據已知的問題從文檔集中篩選出最相關的五篇文檔,第二階段為機器閱讀理解部分,即從返回的文檔中找到最終的文本片段作為答案返回。兩個階段可以分開使用,也可以合起來作為開放領域問答系統的完整設計方法,并且可以應用于富含知識的純文本數據集。對于問答問題,完整的步驟如下所示:
1)使用corenlp對文檔集中的文本和問題進行分詞處理,并且去除與文章主題無關的停用詞。文檔集的分詞結果可以重復使用,問題則需要針對不同的情況分別處理。
2)使用gensim工具構建詞袋模型及索引,然后計算詞頻和逆文檔頻率,生成tf-idf模型。同樣的,文檔集的tf-idf模型可以重復使用。
3)根據已有的詞袋模型,使用LSI進行奇異值分解,通過計算余弦相似度,得到最相關的五篇文檔作為輸出結果。
利用步驟3)得到的五篇最相關文檔,進行機器閱讀理解處理:
4)文檔預處理。由于文檔粒度太大,我們將文檔切分為段落進行特征向量的構建。然后對段落進行分詞。
5)計算段落的詞嵌入特征。我們選擇使用微調的300維G-love詞嵌入特征,其針對問答系統進行了調整,考慮了“what”“when”“who”“where”的重要性。
6)計算段落的精確匹配特征。使用三個二進制的特征來分別表示段落是否匹配了問題中詞語的原本格式、小寫格式或者引理格式,1表示匹配,0表示不匹配。
7)計算問題對齊嵌入特征。考慮文本和問題中相似但是卻不完全相同的詞語的對齊問題。
8)計算機器學習排序特征。對劃分后的段落使用機器學習排序,排序靠前的段落包含答案的可能性更高,但是也并不能作為決定性的因素,所以我們將其作為段落的特征之一。
9)問題的語義建模。問題通常是短文本的格式,所以沒有段落文本那么多的特征,我們同樣對其進行分詞后取其詞嵌入特征向量,作為雙向長短期記憶神經網絡的輸入,通過學習的到每個詞的關注度,作為問題文本特征向量的構建模型。
10)計算每個詞作為開始詞和終止詞的概率大小。將段落的向量特征和問題特征作為輸入,通過訓練簡單的分類器,使用雙線性函數來計算段落中每個詞和問題詞之間的相似度,然后計算該詞作為開始詞和終止詞的概率。
11)確定最終答案。通過尋找起始次和終止詞概率乘積的最大值,來確定起止點,二者之間的文本片段即為問題對應的答案。
2.根據權利要求1所述的一種使用神經網絡和機器學習排序算法的問答系統實現方法,其特征在于,在步驟1)中,使用corenlp對文檔集中的文本和問題進行分詞處理,并且去除對文章主題無關的停用詞。文檔集的分詞結果可以重復使用,問題則需要針對不同的情況分別處理。
3.根據權利要求1所述的一種使用神經網絡和機器學習排序算法的問答系統實現方法,其特征在于,在步驟2)中,使用gensim工具構建詞袋模型及索引,然后計算詞頻和逆文檔頻率,生成tf-idf模型。同樣的,文檔集的tf-idf模型可以重復使用。
4.根據權利要求1所述的一種使用神經網絡和機器學習排序算法的問答系統實現方法,其特征在于,在步驟3)中,根據已有的詞袋模型,使用LSI進行奇異值分解,通過計算余弦相似度,得到最相關的五篇文檔作為輸出結果。
5.根據權利要求1所述的一種使用神經網絡和機器學習排序算法的問答系統實現方法,其特征在于,在步驟4)中,根據步驟3)得到的五篇文檔最相關的文檔,進行文檔預處理。由于文檔粒度太大,我們將文檔且分為段落進行特征向量的構建。然后對段落進行分詞處理。
6.根據權利要求1所述的一種使用神經網絡和機器學習排序算法的問答系統實現方法,其特征在于,在步驟5)中,根據步驟4)中得到的段落的分詞結果,計算段落的詞嵌入特征。我們選擇了微調的300維G-love詞嵌入特征,其針對問答系統特別進行了調整,考慮了“what”“when”“who”“where”等詞在文檔中的重要性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811298287.5/1.html,轉載請聲明來源鉆瓜專利網。





