[發明專利]編程環境下問答內容的提取方法、系統、電子設備及介質有效
| 申請號: | 202110449778.0 | 申請日: | 2021-04-25 |
| 公開(公告)號: | CN113076127B | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 陳林;趙恒輝;李言輝 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F8/70 | 分類號: | G06F8/70;G06F16/33;G06F16/332;G06F16/34;G06F40/211;G06F40/295 |
| 代理公司: | 南京華鑫君輝專利代理有限公司 32544 | 代理人: | 王方超 |
| 地址: | 210000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 編程 環境 問答 內容 提取 方法 系統 電子設備 介質 | ||
本發明公開編程環境下問答內容的提取方法、系統、電子設備及介質,所述系統包括:數據處理模塊,用于執行:對輸入的網絡問答文本數據進行預處理,去除無用信息并進行分詞;實體識別模塊,用于執行:對經過所述數據處理模塊處理后的文本進行軟件工程領域的實體識別;文檔讀取模塊,用于執行:將經過所述實體識別模塊識別后的文本輸入神經網絡進行文檔讀??;摘要抽取模塊,用于執行:利用另一個神經網絡抽取出問答文本中的關鍵內容。本發明能將技術問答中的關鍵內容提取出來,減少開發人員瀏覽時間,提高編程現場開發效率。
技術領域
本發明涉及一種編程環境下問答內容的提取方法、系統、電子設備及介質,屬于互聯網技術領域。
背景技術
軟件開發是一項靈活且具有挑戰性的工作,開發人員需要較強的學習能力和解決問題的能力。在編程現場,開發人員遇到問題除了會查閱工具書,還經常會尋求網絡幫助,詢問遇到類似問題的其他開發者,借鑒他人的解決方案,避免重復勞動,提高開發效率。因此,軟件問答社區逐漸活躍起來,致力于為開發人員提供一個互幫互助、記錄問題的平臺。
技術問答平臺上活躍的開發者越來越多,他們在上面提出問題回答問題,同時也為遇到相似問題的其他開發者提供了解決問題的思路,但是并不是所有問題都能在平臺得到解決,平臺上存在大量的冗余信息和無關信息,會對開發者尋求幫助造成障礙。技術問答平臺上的一個問題往往會對應不止一個回答,有回答跟問題不相關的情況,有回答之間重復相似的情況,也有回答內部分相關部分不相關以及部分重復的情況。針對這些情況,平臺也做出了大量努力,例如Stack?Overflow讓用戶給問題的每個回答打分,盡量讓得分高的回答讓更多人看到。這一定程度解決了無關信息的干擾,但還是存在相當大的局限性。如果將同一個問題下的所有回答當作是一篇文檔,對所有回答進行摘要抽取,標出關鍵內容,可以起到類似“高亮”的作用,幫助用戶減少瀏覽時間,提高編程現場的開發效率。
文本摘要技術可以將文本或者文本集合轉化為包含關鍵信息的簡短摘要。文本摘要按輸出類型可分為抽取式摘要和生成式摘要,抽取式摘要是從原文本中直接提取出若干個句子,并將它們進行排序和重組形成的摘要。將抽取式摘要應用到技術問答社區,可以將回答中的關鍵內容提取出來,幫助開發者迅速定位到想要的答案內容。
近些年,學者們針對摘要抽取提出了許多的方法。Julian?Kupiec等人提出可以把摘要抽取當做經典的分類問題,給定一系列訓練文檔數據和人工抽取的摘要結果,訓練得到一個分類器,得到給定句子可以被納入摘要的概率;Conroy和O’Leary提出用隱馬爾可夫模型來進行摘要抽取,并取得了與當時其他模型相比最好的效果;Erkanand提出基于圖的算法LexPageRank,當兩句話的余弦相似度超過某個閾值,就在連接矩陣中加入一條相應的邊,進而通過連接矩陣來計算句子的重要性;Woodsend等人提出了一個聯合內容選擇和壓縮的模型來進行文檔摘要,該模型利用整數線性規劃,根據長度、覆蓋范圍和語法約束來選擇和組合詞語構成摘要;Kageback等人通過連續向量空間表示來計算句子之間的相似性,并利用遞歸自動編碼器對文檔進行摘要抽??;Yin等人通過卷積神經網絡(CNN)將句子投射到連續向量空間,基于“威望”和“多樣性”,最小化代價,抽取出合適的句子,在多文檔抽取式摘要任務中取得了不錯的效果;Cao等人同樣利用CNN,解決了面向查詢的多文檔摘要問題,他們在句子表示基礎上利用加權的sum-pooling來表示文檔,權重是基于查詢從句子表示的注意力機制中學習得到的;Cheng等人提出了一種基于分層文檔編碼器和注意力機制的自動摘要框架,可以在不借助語言標注的情況下得到相當不錯的摘要抽取效果。然而,目前的摘要抽取工作都是針對通用領域的,還沒有學者針對軟件工程領域的摘要抽取提出過技術和方法。
發明內容
本發明的第一個目的是提供一種編程現場技術問答關鍵內容自動提取系統,能將技術問答中的關鍵內容提取出來,減少開發人員瀏覽時間,提高編程現場開發效率。本發明的第二個目的是提供一種編程現場技術問答關鍵內容自動提取方法。
本發明具體采用如下技術方案:編程環境下問答內容的提取系統,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110449778.0/2.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





