[發明專利]面向開源社區的跨項目issue參與者推薦框架在審
| 申請號: | 202111390863.0 | 申請日: | 2021-11-23 |
| 公開(公告)號: | CN114064990A | 公開(公告)日: | 2022-02-18 |
| 發明(設計)人: | 汪亮;江會煜;陶先平 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F16/9035 | 分類號: | G06F16/9035;G06F40/30;G06F40/216;G06K9/62;G06F16/901 |
| 代理公司: | 南京鐘山專利代理有限公司 32252 | 代理人: | 王磊 |
| 地址: | 210023 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 社區 項目 issue 參與者 推薦 框架 | ||
本發明針對開源社區中issue參與者推薦局限于項目內的問題,提出了一種面向開源社區的跨項目issue參與者推薦框架,包括數據采集與文本預處理模塊、關聯文本語義嵌入模塊、開源社區實體結構嵌入模塊和推薦結果排序模塊。本發明結合開源社區場景特性,利用issue的引用關系拓展項目外的開發者參與進來,利用開源社區的結構關系增強推薦的準確性和可解釋性,克服了傳統bug分流技術在開源社區中的不足,提高了對跨項目issue的推薦能力。此外,該框架的各部分耦合較低,其中的關聯文本語義嵌入模塊可拓展為通用關聯文本向量嵌入算法。
技術領域
本發明屬于計算機軟件工程應用領域,具體涉及一種面向開源社區的跨項目issue參與者推薦框架。
背景技術
開源軟件的蓬勃發展使開源社區(例如GitHub)中維護了越來越多的軟件倉庫,每個人都可以在公共軟件倉庫中提交issue,issue可以幫助開發人員發現軟件漏洞,但由于數目太多致使維護人員往往無法及時檢查這些issue。此外,人工查看issue并選擇合適的參與者困難且乏味,而且在更大的軟件倉庫中這種情況會更加糟糕。
類似的問題也在bug跟蹤系統(另一種開源社區,通常維護單一倉庫,例如Mozilla)中出現,在bug跟蹤系統中,bug分流技術將此問題視為從bug報告文本到開發者或修復者的分類問題。關于bug分類的現有工作只關注于從維護倉庫的開發人員中推薦,但是在GitHub中,這個問題變得復雜,因為每個人都可以參與問題的討論,或者提交關于這個問題的額外信息,有些人可能是專家,但并不維護此倉庫。
最經典的bug分流技術已經研究了將其作為簡單的文本分類問題的可能,并取得了一定的成果。但是在不限制開發者的范圍下,若仍采用文本分類方法將會面臨維數災難而難以取得良好的效果。在bug分流技術方面,有研究在考慮issue到開發者的投遞序列,在建立語言主題模型等方案上分別取得了各自的成功。
在開源社區中的推薦問題上,已有pull-request審閱者推薦問題從開源社區的結構上進行研究,審閱者推薦問題的研究結果表明從開源社區中各個實體的歷史交互結構上預測未來關系的可能。另外,在圖的邊預測問題中也揭示了歷史關系組成的結構的有效性。
在開源社區中,大量開源倉庫中存在著交互關系,主要表現在issue之間的相互引用關系上,有研究表明跨項目的issue相比于一般issue更加難以修復,需要消耗更多的人力和時間,也有研究表明不同倉庫會出現相似bug,因此某個倉庫現有的issue或bug可以為其它倉庫提供解決思路。這些研究都為開源社區中跨項目issue的參與者推薦問題提供了新的解決思路。
發明內容
為了克服傳統bug分流技術在開源社區中的不足,提高對跨項目issue的推薦能力,本發明結合開源社區場景特性,提出一種面向開源社區的跨項目issue參與者推薦框架,利用issue的引用關系拓展項目外的開發者參與進來,利用開源社區的結構關系增強推薦的準確性和可解釋性。為實現上述目的,本發明采用以下技術方案:
面向開源社區的跨項目issue參與者推薦框架,包括數據采集與文本預處理模塊、關聯文本語義嵌入模塊、開源社區實體結構嵌入模塊和推薦結果排序模塊,
所述數據采集與文本預處理模塊:用于從開源社區中獲取信息并以一定格式加以處理,包括,去除質量差的issue和issue中的干擾部分,對issue文本進行詞干提取、詞形還原并去除停止詞以得到issue文本集,提取每個issue對其他issue的引用關系以構建issue關系集;
所述關聯文本語義嵌入模塊:定義訓練目標函數并利用issue文本集和issue關系集訓練語義嵌入模型,通過語義嵌入模型獲取待推薦issue的文本語義嵌入向量,并通過其與issue文本集中issue文本語義嵌入向量的距離找出與待推薦issue語義相似的issue集合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111390863.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于區塊鏈的數字化防偽方法
- 下一篇:智能化便攜式醫療儀





