[發明專利]一種面向程序設計答疑系統的知識庫檢索方法在審
| 申請號: | 201910333734.4 | 申請日: | 2019-04-24 |
| 公開(公告)號: | CN110297891A | 公開(公告)日: | 2019-10-01 |
| 發明(設計)人: | 薛景;施寅瑞;孫彤;李洲洋;林丹 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F17/27 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 姚姣陽 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 知識庫 代碼文本 檢索 詞頻 余弦相似度 程序設計 答疑系統 文本匹配 文本屬性 度量 權重 算法 預處理 哈希值計算 相似度計算 檢索問題 算法融合 文本特征 文本替換 相似程度 向量計算 相似度 準確率 哈希 加權 向量 詞匯 存儲 文本 學生 | ||
一種面向程序設計答疑系統的知識庫檢索方法,獲取學生檢索的問題;系統對檢索的問題和知識庫中問題進行處理獲取代碼文本;再對代碼文本進行預處理,將文本替換后獲取標記串及文本屬性度量向量;根據simhash算法對標記串分別進行詞頻計算,將詞匯作為文本特征,詞頻作為特征的權重,計算出對應權重,并獲取標記串的全文哈希值,根據哈希值計算出文本相似程度;根據文本屬性度量向量計算出余弦相似度;根據標記串計算出文本匹配度;余弦相似度和文本匹配度通過Sim?win三權法計算出檢索問題與知識庫問題中的代碼文本相似度,并將知識庫中存儲的問題由高到低排列。該方法通過加權的方式將sim?win三權法、Simhash算法和Winnowing算法融合,有效提升了代碼文本相似度計算的準確率。
技術領域
本發明屬于智能檢索技術領域,具體涉及一種面向程序設計答疑系統的知識庫檢索方法。
背景技術
隨著互聯網時代的到來,計算機快速發展,逐漸成為炙手可熱的話題性行業。現代大學紛紛開設計算機相關專業,培養學生的計算機編程能力。其中,程序設計作為計算機專業的基礎課程,在各大高校有著龐大的學生需求。
為了保證學生們作業以及實驗項目等內容的時效性,我們需要能夠高效快捷地解決學生的問題的方法。而在科學技術飛速發展的今天,教育的方式、輔助手段和工具也發生著日新月異的變化,尤其是計算機在教育教學上的普遍運用,越來越多的學生把網站在線交流作為一種學習的重要方法。
以往經驗來看,學生們通常在遇到疑難問題無法解決時會嘗試不同的方法,包括:1、上網檢索。雖然很多時候學生提出的各種問題能得到網友回復,但是成功解決的概率并不算高,更多的時候無法找到解決方法,尤其代碼類問題通常只包含答案,無法給出思路或指導幫助。2、向老師尋求幫助。大學不同于中學,授課老師通常在校時間短,課下尋找老師,時間往往需要調節;如果學生在線上提問,老師又無法保證及時給出回復。
由此可見,程序設計答疑系統的建立是必要的。有了這樣的知識庫,學生們可以通過輸入問題來查找知識庫內已經存在的相似問題及其答案,更好的弄懂自己的問題,得到具體的解決方案或建議。
然而,目前常見的知識庫檢索算法一般只適用于以自然語言組織的問答內容,而在程序設計類課程的答疑系統知識庫檢索領域,由于課程的特殊性,需要對包含代碼片段的問句進行檢索。所以當問題文本并非自然語言,而是代碼文本的時候。檢索的效率往往很低,無法找到自己需要解決的問題的解決方案。
發明內容
本發明所要解決的技術問題是克服現有技術的不足,提供一種面向程序設計答疑系統的知識庫檢索方法,通過加權的方式將sim-win三權法、Simhash 算法和Winnowing算法融合,有效提升了代碼文本相似度計算的準確率。
本發明提供一種面向程序設計答疑系統的知識庫檢索方法,包括如下步驟:
步驟S1、從前端獲取學生檢索的問題test A;
步驟S2、系統對test A進行處理獲取代碼文本code A,并對知識庫中存儲的問題文本tset B進行處理,獲取代碼文本code B;
步驟S3、對代碼文本code A和code B進行預處理,文本替換后獲取標記串TA=(v1,v2,…,vn),TB=(u1,u2,…,un),文本屬性度量向量AttrA, AttrB;
步驟S4、根據simhash算法對TA和TB分別進行詞頻計算,將詞匯作為文本特征,詞頻作為特征的權重,計算出對應權重和并獲取TA和TB的全文哈希值和并根據哈希值計算出文本相似程度
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910333734.4/2.html,轉載請聲明來源鉆瓜專利網。





