[發(fā)明專利]基于半監(jiān)督學(xué)習(xí)的軟件工程知識庫的自動化構(gòu)建實現(xiàn)方法有效
| 申請?zhí)枺?/td> | 201710120880.X | 申請日: | 2017-03-02 |
| 公開(公告)號: | CN106875014B | 公開(公告)日: | 2021-06-15 |
| 發(fā)明(設(shè)計)人: | 董翔;沈備軍;陳凱 | 申請(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號: | G06N5/02 | 分類號: | G06N5/02;G06F16/21 |
| 代理公司: | 上海交達專利事務(wù)所 31201 | 代理人: | 王毓理;王錫麟 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 監(jiān)督 學(xué)習(xí) 軟件工程 知識庫 自動化 構(gòu)建 實現(xiàn) 方法 | ||
1.一種基于半監(jiān)督學(xué)習(xí)的軟件工程知識庫的自動化構(gòu)建實現(xiàn)系統(tǒng),其特征在于,包括:用于解析維基百科的概念數(shù)據(jù)和StackOverflow的標(biāo)簽數(shù)據(jù)的數(shù)據(jù)解析模塊、領(lǐng)域數(shù)據(jù)擴充模塊、數(shù)據(jù)標(biāo)注模塊、關(guān)系擴充模塊以及RDF格式化模塊,其中:數(shù)據(jù)解析模塊與領(lǐng)域數(shù)據(jù)擴充模塊相連并傳輸解析后的維基百科概念集合以及StackOverflow標(biāo)簽數(shù)據(jù)集合的信息,領(lǐng)域數(shù)據(jù)擴充模塊基于StackOverflow標(biāo)簽在維基百科概念集合中擴充軟件工程領(lǐng)域知識集合,與數(shù)據(jù)標(biāo)注模塊和關(guān)系擴充模塊相連并傳輸軟件工程領(lǐng)域知識集合的信息,數(shù)據(jù)標(biāo)注模塊標(biāo)注機器學(xué)習(xí)需要用到的標(biāo)注數(shù)據(jù)包括正例、反例數(shù)據(jù),該模塊與關(guān)系擴充模塊相連并傳輸標(biāo)注數(shù)據(jù)信息,關(guān)系擴充模塊采用機器學(xué)習(xí)的方法構(gòu)建上下位關(guān)系的機器學(xué)習(xí)特征,并采用軟件工程知識集合提取軟件工程領(lǐng)域上下位關(guān)系的集合后輸出至RDF格式化模塊,RDF格式化模塊將軟件工程領(lǐng)域上下位關(guān)系的集合進行RDF化,完成軟件工程領(lǐng)域知識庫的最終構(gòu)建;
所述的自動化構(gòu)建,包括以下步驟:
步驟一、以StackOverflow上提供的軟件工程領(lǐng)域標(biāo)簽作為種子詞匯,并獲得維基百科提供的概念數(shù)據(jù)集,通過種子詞匯標(biāo)簽迭代傳播,擴充維基百科上全部軟件工程領(lǐng)域概念并得到包含維基結(jié)構(gòu)的軟件工程領(lǐng)域知識集合;
步驟二、結(jié)合語義及概念在維基百科中的結(jié)構(gòu)特征,對軟件工程領(lǐng)域概念構(gòu)建上下位關(guān)系的機器學(xué)習(xí)特征,即將步驟一得到的軟件工程領(lǐng)域知識集合中每一個概念與當(dāng)前概念在維基百科頁面中所有錨鏈接的軟件工程領(lǐng)域概念進行上下位關(guān)系的判別;
步驟三、根據(jù)機器學(xué)習(xí)特征,分別采用模版匹配和規(guī)則匹配的方法對軟件工程領(lǐng)域知識集合中的正例數(shù)據(jù)和反例數(shù)據(jù)進行標(biāo)注,得到基于模板匹配和規(guī)則匹配的數(shù)據(jù)標(biāo)注;
步驟四、采用半監(jiān)督的學(xué)習(xí)方法從包含維基結(jié)構(gòu)的軟件工程領(lǐng)域知識集合中進行迭代的關(guān)系抽取工作,并建立迭代結(jié)果的評估規(guī)則以進行優(yōu)化,具體為:首次迭代采用步驟三得到的基于模板匹配和規(guī)則匹配的數(shù)據(jù)標(biāo)注進行學(xué)習(xí),隨后每次迭代均以上次迭代的學(xué)習(xí)結(jié)果為輸入,進行新一輪迭代的學(xué)習(xí);對于每一次迭代結(jié)果,通過優(yōu)化規(guī)則進行迭代結(jié)果的判斷與過濾,從而通過半監(jiān)督學(xué)習(xí)的方式逐漸提高關(guān)系抽取結(jié)果,即構(gòu)建的知識庫的準(zhǔn)確度;
步驟五、對構(gòu)建得到的知識庫進行RDF標(biāo)準(zhǔn)化,完成最終大規(guī)模軟件工程領(lǐng)域知識庫的構(gòu)建;
所述的概念數(shù)據(jù)集是指:基于原始的StackOverflow標(biāo)簽和維基百科概念均以XML數(shù)據(jù)源的形式存在,具體為:以JAVA為編程語言,通過采用SAX工具分別解析XML文件得到軟件工程領(lǐng)域種子詞匯和維基百科概念數(shù)據(jù)集;
所述的上下位關(guān)系的機器學(xué)習(xí)特征包括:詞干共現(xiàn)度、非對稱的公共字串相似度、基于維基結(jié)構(gòu)的錨鏈接共現(xiàn)度、基于維基結(jié)構(gòu)的結(jié)構(gòu)體信息相似度和基于KL散度的主題分布相似度,其中:
所述的詞干共現(xiàn)度是指:對于概念的詞義進行相關(guān)性計算,通過采用StandfordParser工具提取概念的詞干,即中心詞,并計算詞干的共現(xiàn)度其中:HA,HB為概念A(yù)、B的詞干,LCA(HA,HB)計算詞干HA和HB的最小公共祖先,depth(HA)計算詞干HA在WordNet中的深度;
所述的非對稱的公共字串相似度是指:由于上下位是一種非對稱的關(guān)系,因此該特征可以有效避免概念間存在關(guān)系密切但不為上下位關(guān)系的干擾,即計算概念間公共字串的相似值其中:LCS(A,B)計算概念A(yù),B的最長公共子串長度,Len(A)計算概念A(yù)的名稱長度;
所述的基于維基結(jié)構(gòu)的錨鏈接共現(xiàn)度是指:由于每一個概念均與維基百科的某一頁面相對應(yīng),因此,維基百科頁面中的結(jié)構(gòu)及結(jié)構(gòu)中的文本信息可以良好地反映概念指代的信息與含義;通過采用NGD分別對概念的維基百科頁面的各個結(jié)構(gòu)進行共現(xiàn)相似度的分析;
所述的共現(xiàn)相似度其中:N為常量,指代維基百科錨鏈接的總數(shù)目;IA和IB分別指代概念A(yù)、B的維基百科頁面中某一特定結(jié)構(gòu)中錨鏈接的集合;由于維基百科頁面中的引文、正文、屬類中的錨鏈接集合均能良好反映概念的含義,因此分別基于上述三種結(jié)構(gòu)進行NGD的計算,得到三個不同的特征值,其中:f(A)、f(B)分別指代概念A(yù)、B頁面中的錨鏈接數(shù)目,f(A,B)指代概念A(yù)、B在維基百科頁面中共同出現(xiàn)的錨鏈接的數(shù)目,當(dāng)關(guān)聯(lián)關(guān)系的NGD值達到限定標(biāo)準(zhǔn),則將其關(guān)系判定為關(guān)聯(lián)關(guān)系;
由于屬類結(jié)構(gòu)能明確表示上下位的關(guān)系,當(dāng)概念A(yù)包含在概念B的屬類的錨鏈接集合中或概念B包含在概念A(yù)的屬類錨鏈接的集合中,則為計算的屬類結(jié)構(gòu)NGD值等于當(dāng)前計算結(jié)果加附加系數(shù)V,根據(jù)NGD的取值范圍,設(shè)定附加系數(shù)V=0.05;
所述的基于維基結(jié)構(gòu)的結(jié)構(gòu)體信息相似度是指:維基百科為每個概念提供了大綱和信息框兩個維基結(jié)構(gòu),上述兩個結(jié)構(gòu)體都通過關(guān)鍵字來體現(xiàn)概念的主要信息,其中大綱主要描述當(dāng)前概念維基頁面主要從哪幾個方面進行描述,而信息框主要描述當(dāng)前概念所具有的特性和屬性;而關(guān)聯(lián)密切的軟件工程領(lǐng)域概念往往具有較為相近的大綱和信息框結(jié)構(gòu),因此通過如下Jaccard對結(jié)構(gòu)所描述信息的相似度進行計算,其中:KA和KB表示概念A(yù)、B分別在結(jié)構(gòu)體,即大綱或信息框中的關(guān)鍵字集合,根據(jù)大綱和信息框兩種結(jié)構(gòu),分別進行兩次結(jié)構(gòu)體信息相似度的計算;
所述的基于KL散度的主題分布相似度是指:對于存在上下位關(guān)系的軟件工程領(lǐng)域概念,部分概念不具備完整的維基結(jié)構(gòu);為了挖掘結(jié)構(gòu)不完整的軟件工程領(lǐng)域概念的上下位關(guān)系,通過KL散度進行概念之間關(guān)聯(lián)度的計算;首先采用LDA對軟件工程領(lǐng)域概念進行主題分布的建模;在判斷任意兩個概念之間的關(guān)系時,首先根據(jù)主題分布計算概念分布在不同主題內(nèi)的概率分布;隨后采用KL散度計算兩個概念之間的主題分布相似性其中:PwA(n)和PwB(n)分別指代概念A(yù)、B分布在第n個主題內(nèi)的概率;
所述的標(biāo)簽迭代傳播是指:從構(gòu)建的軟件工程領(lǐng)域種子詞匯出發(fā),分多次迭代進行傳播,每次迭代僅傳播至與當(dāng)前概念相鄰步數(shù)為1,即當(dāng)前概念的頁面包含目標(biāo)概念的錨鏈接,并且滿足任一傳播關(guān)系的概念,當(dāng)?shù)諗浚串?dāng)前迭代沒有新的概念被標(biāo)記時標(biāo)簽傳播結(jié)束,得到擴充完成的軟件領(lǐng)域知識集合;
所述的傳播關(guān)系包括:同義關(guān)系、上下位關(guān)系、關(guān)聯(lián)關(guān)系,滿足任一關(guān)系即可獲得被傳播的標(biāo)簽,其中:
所述的同義關(guān)系,其判定方法具體為:當(dāng)待定概念在當(dāng)前概念中的Redirect結(jié)構(gòu)中出現(xiàn),或當(dāng)前概念在待定概念的Redirect結(jié)構(gòu)中出現(xiàn),則判定為同義概念;上下位關(guān)系判定方法:當(dāng)待定概念在當(dāng)前概念的Category結(jié)構(gòu)中出現(xiàn),或當(dāng)前概念在待定概念的Category中出現(xiàn),則判定為上下位概念;
所述的關(guān)聯(lián)關(guān)系,其判定具體通過歸一化Google距離NGD進行判斷;
所述的標(biāo)注數(shù)據(jù)是指:給定概念間的關(guān)系,標(biāo)注當(dāng)前關(guān)系是否為上下位關(guān)系;
所述的正例數(shù)據(jù)是指:給定的概念間關(guān)系,標(biāo)注當(dāng)前關(guān)系是上下位關(guān)系;
所述的反例數(shù)據(jù)是指:給定的概念間關(guān)系,標(biāo)注當(dāng)前關(guān)系為非上下位關(guān)系;
對于正例數(shù)據(jù)的標(biāo)注,采用以下模版,以維基百科文本為數(shù)據(jù)源,抽取部分上下位關(guān)系標(biāo)注為正例:
NP1{,}“such as”NPList2;
NP1{,}“and other”NP2;
NP1{,}“including”NPList2;
NP1“is a”NP2;
NP1“is the”NP2“of”NP3;
當(dāng)匹配任一上述模版時,即確定概念之間存在上下位關(guān)系,抽取正例的上下位關(guān)系后進行特征值的計算以投入到步驟四的工作中;
對于反例數(shù)據(jù)的標(biāo)注,隨機抽取部分概念組成概念對(A,B),判斷概念對(A,B)是否是上下位關(guān)系,即概念A(yù)是否為B的上位詞,首先為概念對(A,B)計算步驟二所述的特征值;然后構(gòu)造如下規(guī)則,判定概念對(X,Y)標(biāo)注為反例數(shù)據(jù)當(dāng)且僅當(dāng)滿足下述任一規(guī)則:
WUP(A,B)M;
Len(A)Len(B);
Jaccard info=0;
Jaccard gdl=0;
|KL(A,B)-KL(B,A)|N;
其中:WUP(A,B)計算概念A(yù),B的詞干相似度,Len(A)計算概念A(yù)的名稱長度,Jaccardinfo計算概念A(yù),B之間信息框的結(jié)構(gòu)相似度,Jaccardgdl計算概念A(yù),B之間大綱的結(jié)構(gòu)相似度,KL(A,B)和KL(A,B)分別計算KL散度,M,N為常量;
所述的優(yōu)化規(guī)則包括:環(huán)狀沖突、關(guān)系傳遞冗余和自閉環(huán)沖突,滿足沖突條件的關(guān)系將從迭代結(jié)果中刪除;
所述的環(huán)狀沖突具體是指:上下位關(guān)系作為非對稱關(guān)系,不能出現(xiàn)概念之間的關(guān)系環(huán)路;
所述的自閉環(huán)沖突具體是指:根據(jù)概念不能成為自己的上位詞或下位詞,進行符合本規(guī)則關(guān)系的移除;
所述的RDF標(biāo)準(zhǔn)化是指:將概念和概念間存在的關(guān)系分別采用RDF語言進行描述。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710120880.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 在即時通信中提供即時監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對象尋址方法、電子設(shè)備及存儲介質(zhì)
- 一種機器人表情調(diào)用方法和家用機器人
- 計算機視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計算機視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





