[發明專利]編程環境下問答內容的提取方法、系統、電子設備及介質有效
| 申請號: | 202110449778.0 | 申請日: | 2021-04-25 |
| 公開(公告)號: | CN113076127B | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 陳林;趙恒輝;李言輝 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F8/70 | 分類號: | G06F8/70;G06F16/33;G06F16/332;G06F16/34;G06F40/211;G06F40/295 |
| 代理公司: | 南京華鑫君輝專利代理有限公司 32544 | 代理人: | 王方超 |
| 地址: | 210000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 編程 環境 問答 內容 提取 方法 系統 電子設備 介質 | ||
1.編程環境下問答內容的提取系統,其特征在于,包括:
數據處理模塊,用于執行:對輸入的網絡問答文本數據進行預處理,去除無用信息并進行分詞;
實體識別模塊,用于執行:對經過所述數據處理模塊處理后的文本進行軟件工程領域的實體識別;所述實體識別模塊具體執行包括:起始狀態;計算得到單詞的拼寫特征,包含單詞首字母是否大寫、是否包含下劃線以及是否包含“.”;計算得到單詞的上下文特征,具體是利用一個[-2,2]的窗口,將窗口內,即前后兩個單詞,相加作為特征;計算得到單詞的比特流特征,具體是利用大規模的軟件工程領域未標注的文本,使用聚類的方法將相似分布的單詞聚為一類,類別用長短不一的比特流表示,作為特征;計算得到單詞的外部詞典特征,具體是收集大量已知的實體構成外部字典,檢查單詞是否存在于外部字典中;利用工具CRF++訓練得到的CRF模型進行實體識別;實體識別完畢;
文檔讀取模塊,用于執行:將經過所述實體識別模塊識別后的文本輸入神經網絡進行文檔讀取;
摘要抽取模塊,用于執行:利用另一個神經網絡抽取出問答文本中的關鍵內容。
2.根據權利要求1所述的編程環境下問答內容的提取系統,其特征在于,所述數據處理模塊具體執行包括:起始狀態;處理問答文本中的代碼段;處理HTML標簽;處理URL;處理表情符號;處理“@”信息;利用nltk工具進行分詞;數據處理完畢。
3.根據權利要求1所述的編程環境下問答內容的提取系統,其特征在于,所述文檔讀取模塊具體執行包括:起始狀態;通過帶有最大池化的單層卷積神經網絡,獲取句子級別的向量表示;通過遞歸神經網絡,將句子級別的向量表示轉化為文檔級別的向量表示;?文檔讀取完畢;所述摘要抽取模塊,具體執行包括:起始狀態;借鑒注意力機制的思想,使用一個循環神經網絡來依次標注每一個句子是否能被當做摘要;?摘要抽取完畢。
4.編程環境下問答內容的提取方法,其特征在于,包括如下步驟:
數據處理步驟,具體包括:對輸入的網絡問答文本數據進行預處理,去除無用信息并進行分詞;
實體識別步驟,具體包括:對經過所述數據處理步驟處理后的文本進行軟件工程領域的實體識別;所述實體識別步驟具體執行包括:起始狀態;計算得到單詞的拼寫特征,包含單詞首字母是否大寫、是否包含下劃線以及是否包含“.”;計算得到單詞的上下文特征,具體是利用一個[-2,2]的窗口,將窗口內,即前后兩個單詞,相加作為特征;計算得到單詞的比特流特征,具體是利用大規模的軟件工程領域未標注的文本,使用聚類的方法將相似分布的單詞聚為一類,類別用長短不一的比特流表示,作為特征;計算得到單詞的外部詞典特征,具體是收集大量已知的實體構成外部字典,檢查單詞是否存在于外部字典中;利用工具CRF++訓練得到的CRF模型進行實體識別;實體識別完畢;
文檔讀取步驟,具體包括:將經過所述實體識別步驟識別后的文本輸入神經網絡進行文檔讀取;
摘要抽取步驟,具體包括:利用另一個神經網絡抽取出問答文本中的關鍵內容。
5.根據權利要求4所述的編程環境下問答內容的提取方法,其特征在于,所述數據處理步驟具體執行包括:起始狀態;處理問答文本中的代碼段;處理HTML標簽;處理URL;處理表情符號;處理“@”信息;利用nltk工具進行分詞;數據處理完畢。
6.根據權利要求4所述的編程環境下問答內容的提取方法,其特征在于,所述文檔讀取步驟具體執行包括:起始狀態;通過帶有最大池化的單層卷積神經網絡,獲取句子級別的向量表示;通過遞歸神經網絡,將句子級別的向量表示轉化為文檔級別的向量表示;?文檔讀取完畢;所述摘要抽取步驟,具體執行包括:起始狀態;借鑒注意力機制的思想,使用一個循環神經網絡來依次標注每一個句子是否能被當做摘要;?摘要抽取完畢。
7.電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現權利要求4至6中任一項所述方法的步驟。
8.介質,其上存儲有計算機程序,其特征在于,該計算機程序被處理器執行時實現權利要求4至6中任一項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110449778.0/1.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





