日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]基于半監(jiān)督學(xué)習(xí)的軟件工程知識庫的自動化構(gòu)建實現(xiàn)方法有效

專利信息
申請?zhí)枺?/td> 201710120880.X 申請日: 2017-03-02
公開(公告)號: CN106875014B 公開(公告)日: 2021-06-15
發(fā)明(設(shè)計)人: 董翔;沈備軍;陳凱 申請(專利權(quán))人: 上海交通大學(xué)
主分類號: G06N5/02 分類號: G06N5/02;G06F16/21
代理公司: 上海交達專利事務(wù)所 31201 代理人: 王毓理;王錫麟
地址: 200240 *** 國省代碼: 上海;31
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 基于 監(jiān)督 學(xué)習(xí) 軟件工程 知識庫 自動化 構(gòu)建 實現(xiàn) 方法
【權(quán)利要求書】:

1.一種基于半監(jiān)督學(xué)習(xí)的軟件工程知識庫的自動化構(gòu)建實現(xiàn)系統(tǒng),其特征在于,包括:用于解析維基百科的概念數(shù)據(jù)和StackOverflow的標(biāo)簽數(shù)據(jù)的數(shù)據(jù)解析模塊、領(lǐng)域數(shù)據(jù)擴充模塊、數(shù)據(jù)標(biāo)注模塊、關(guān)系擴充模塊以及RDF格式化模塊,其中:數(shù)據(jù)解析模塊與領(lǐng)域數(shù)據(jù)擴充模塊相連并傳輸解析后的維基百科概念集合以及StackOverflow標(biāo)簽數(shù)據(jù)集合的信息,領(lǐng)域數(shù)據(jù)擴充模塊基于StackOverflow標(biāo)簽在維基百科概念集合中擴充軟件工程領(lǐng)域知識集合,與數(shù)據(jù)標(biāo)注模塊和關(guān)系擴充模塊相連并傳輸軟件工程領(lǐng)域知識集合的信息,數(shù)據(jù)標(biāo)注模塊標(biāo)注機器學(xué)習(xí)需要用到的標(biāo)注數(shù)據(jù)包括正例、反例數(shù)據(jù),該模塊與關(guān)系擴充模塊相連并傳輸標(biāo)注數(shù)據(jù)信息,關(guān)系擴充模塊采用機器學(xué)習(xí)的方法構(gòu)建上下位關(guān)系的機器學(xué)習(xí)特征,并采用軟件工程知識集合提取軟件工程領(lǐng)域上下位關(guān)系的集合后輸出至RDF格式化模塊,RDF格式化模塊將軟件工程領(lǐng)域上下位關(guān)系的集合進行RDF化,完成軟件工程領(lǐng)域知識庫的最終構(gòu)建;

所述的自動化構(gòu)建,包括以下步驟:

步驟一、以StackOverflow上提供的軟件工程領(lǐng)域標(biāo)簽作為種子詞匯,并獲得維基百科提供的概念數(shù)據(jù)集,通過種子詞匯標(biāo)簽迭代傳播,擴充維基百科上全部軟件工程領(lǐng)域概念并得到包含維基結(jié)構(gòu)的軟件工程領(lǐng)域知識集合;

步驟二、結(jié)合語義及概念在維基百科中的結(jié)構(gòu)特征,對軟件工程領(lǐng)域概念構(gòu)建上下位關(guān)系的機器學(xué)習(xí)特征,即將步驟一得到的軟件工程領(lǐng)域知識集合中每一個概念與當(dāng)前概念在維基百科頁面中所有錨鏈接的軟件工程領(lǐng)域概念進行上下位關(guān)系的判別;

步驟三、根據(jù)機器學(xué)習(xí)特征,分別采用模版匹配和規(guī)則匹配的方法對軟件工程領(lǐng)域知識集合中的正例數(shù)據(jù)和反例數(shù)據(jù)進行標(biāo)注,得到基于模板匹配和規(guī)則匹配的數(shù)據(jù)標(biāo)注;

步驟四、采用半監(jiān)督的學(xué)習(xí)方法從包含維基結(jié)構(gòu)的軟件工程領(lǐng)域知識集合中進行迭代的關(guān)系抽取工作,并建立迭代結(jié)果的評估規(guī)則以進行優(yōu)化,具體為:首次迭代采用步驟三得到的基于模板匹配和規(guī)則匹配的數(shù)據(jù)標(biāo)注進行學(xué)習(xí),隨后每次迭代均以上次迭代的學(xué)習(xí)結(jié)果為輸入,進行新一輪迭代的學(xué)習(xí);對于每一次迭代結(jié)果,通過優(yōu)化規(guī)則進行迭代結(jié)果的判斷與過濾,從而通過半監(jiān)督學(xué)習(xí)的方式逐漸提高關(guān)系抽取結(jié)果,即構(gòu)建的知識庫的準(zhǔn)確度;

步驟五、對構(gòu)建得到的知識庫進行RDF標(biāo)準(zhǔn)化,完成最終大規(guī)模軟件工程領(lǐng)域知識庫的構(gòu)建;

所述的概念數(shù)據(jù)集是指:基于原始的StackOverflow標(biāo)簽和維基百科概念均以XML數(shù)據(jù)源的形式存在,具體為:以JAVA為編程語言,通過采用SAX工具分別解析XML文件得到軟件工程領(lǐng)域種子詞匯和維基百科概念數(shù)據(jù)集;

所述的上下位關(guān)系的機器學(xué)習(xí)特征包括:詞干共現(xiàn)度、非對稱的公共字串相似度、基于維基結(jié)構(gòu)的錨鏈接共現(xiàn)度、基于維基結(jié)構(gòu)的結(jié)構(gòu)體信息相似度和基于KL散度的主題分布相似度,其中:

所述的詞干共現(xiàn)度是指:對于概念的詞義進行相關(guān)性計算,通過采用StandfordParser工具提取概念的詞干,即中心詞,并計算詞干的共現(xiàn)度其中:HA,HB為概念A(yù)、B的詞干,LCA(HA,HB)計算詞干HA和HB的最小公共祖先,depth(HA)計算詞干HA在WordNet中的深度;

所述的非對稱的公共字串相似度是指:由于上下位是一種非對稱的關(guān)系,因此該特征可以有效避免概念間存在關(guān)系密切但不為上下位關(guān)系的干擾,即計算概念間公共字串的相似值其中:LCS(A,B)計算概念A(yù),B的最長公共子串長度,Len(A)計算概念A(yù)的名稱長度;

所述的基于維基結(jié)構(gòu)的錨鏈接共現(xiàn)度是指:由于每一個概念均與維基百科的某一頁面相對應(yīng),因此,維基百科頁面中的結(jié)構(gòu)及結(jié)構(gòu)中的文本信息可以良好地反映概念指代的信息與含義;通過采用NGD分別對概念的維基百科頁面的各個結(jié)構(gòu)進行共現(xiàn)相似度的分析;

所述的共現(xiàn)相似度其中:N為常量,指代維基百科錨鏈接的總數(shù)目;IA和IB分別指代概念A(yù)、B的維基百科頁面中某一特定結(jié)構(gòu)中錨鏈接的集合;由于維基百科頁面中的引文、正文、屬類中的錨鏈接集合均能良好反映概念的含義,因此分別基于上述三種結(jié)構(gòu)進行NGD的計算,得到三個不同的特征值,其中:f(A)、f(B)分別指代概念A(yù)、B頁面中的錨鏈接數(shù)目,f(A,B)指代概念A(yù)、B在維基百科頁面中共同出現(xiàn)的錨鏈接的數(shù)目,當(dāng)關(guān)聯(lián)關(guān)系的NGD值達到限定標(biāo)準(zhǔn),則將其關(guān)系判定為關(guān)聯(lián)關(guān)系;

由于屬類結(jié)構(gòu)能明確表示上下位的關(guān)系,當(dāng)概念A(yù)包含在概念B的屬類的錨鏈接集合中或概念B包含在概念A(yù)的屬類錨鏈接的集合中,則為計算的屬類結(jié)構(gòu)NGD值等于當(dāng)前計算結(jié)果加附加系數(shù)V,根據(jù)NGD的取值范圍,設(shè)定附加系數(shù)V=0.05;

所述的基于維基結(jié)構(gòu)的結(jié)構(gòu)體信息相似度是指:維基百科為每個概念提供了大綱和信息框兩個維基結(jié)構(gòu),上述兩個結(jié)構(gòu)體都通過關(guān)鍵字來體現(xiàn)概念的主要信息,其中大綱主要描述當(dāng)前概念維基頁面主要從哪幾個方面進行描述,而信息框主要描述當(dāng)前概念所具有的特性和屬性;而關(guān)聯(lián)密切的軟件工程領(lǐng)域概念往往具有較為相近的大綱和信息框結(jié)構(gòu),因此通過如下Jaccard對結(jié)構(gòu)所描述信息的相似度進行計算,其中:KA和KB表示概念A(yù)、B分別在結(jié)構(gòu)體,即大綱或信息框中的關(guān)鍵字集合,根據(jù)大綱和信息框兩種結(jié)構(gòu),分別進行兩次結(jié)構(gòu)體信息相似度的計算;

所述的基于KL散度的主題分布相似度是指:對于存在上下位關(guān)系的軟件工程領(lǐng)域概念,部分概念不具備完整的維基結(jié)構(gòu);為了挖掘結(jié)構(gòu)不完整的軟件工程領(lǐng)域概念的上下位關(guān)系,通過KL散度進行概念之間關(guān)聯(lián)度的計算;首先采用LDA對軟件工程領(lǐng)域概念進行主題分布的建模;在判斷任意兩個概念之間的關(guān)系時,首先根據(jù)主題分布計算概念分布在不同主題內(nèi)的概率分布;隨后采用KL散度計算兩個概念之間的主題分布相似性其中:PwA(n)和PwB(n)分別指代概念A(yù)、B分布在第n個主題內(nèi)的概率;

所述的標(biāo)簽迭代傳播是指:從構(gòu)建的軟件工程領(lǐng)域種子詞匯出發(fā),分多次迭代進行傳播,每次迭代僅傳播至與當(dāng)前概念相鄰步數(shù)為1,即當(dāng)前概念的頁面包含目標(biāo)概念的錨鏈接,并且滿足任一傳播關(guān)系的概念,當(dāng)?shù)諗浚串?dāng)前迭代沒有新的概念被標(biāo)記時標(biāo)簽傳播結(jié)束,得到擴充完成的軟件領(lǐng)域知識集合;

所述的傳播關(guān)系包括:同義關(guān)系、上下位關(guān)系、關(guān)聯(lián)關(guān)系,滿足任一關(guān)系即可獲得被傳播的標(biāo)簽,其中:

所述的同義關(guān)系,其判定方法具體為:當(dāng)待定概念在當(dāng)前概念中的Redirect結(jié)構(gòu)中出現(xiàn),或當(dāng)前概念在待定概念的Redirect結(jié)構(gòu)中出現(xiàn),則判定為同義概念;上下位關(guān)系判定方法:當(dāng)待定概念在當(dāng)前概念的Category結(jié)構(gòu)中出現(xiàn),或當(dāng)前概念在待定概念的Category中出現(xiàn),則判定為上下位概念;

所述的關(guān)聯(lián)關(guān)系,其判定具體通過歸一化Google距離NGD進行判斷;

所述的標(biāo)注數(shù)據(jù)是指:給定概念間的關(guān)系,標(biāo)注當(dāng)前關(guān)系是否為上下位關(guān)系;

所述的正例數(shù)據(jù)是指:給定的概念間關(guān)系,標(biāo)注當(dāng)前關(guān)系是上下位關(guān)系;

所述的反例數(shù)據(jù)是指:給定的概念間關(guān)系,標(biāo)注當(dāng)前關(guān)系為非上下位關(guān)系;

對于正例數(shù)據(jù)的標(biāo)注,采用以下模版,以維基百科文本為數(shù)據(jù)源,抽取部分上下位關(guān)系標(biāo)注為正例:

NP1{,}“such as”NPList2;

NP1{,}“and other”NP2;

NP1{,}“including”NPList2;

NP1“is a”NP2;

NP1“is the”NP2“of”NP3;

當(dāng)匹配任一上述模版時,即確定概念之間存在上下位關(guān)系,抽取正例的上下位關(guān)系后進行特征值的計算以投入到步驟四的工作中;

對于反例數(shù)據(jù)的標(biāo)注,隨機抽取部分概念組成概念對(A,B),判斷概念對(A,B)是否是上下位關(guān)系,即概念A(yù)是否為B的上位詞,首先為概念對(A,B)計算步驟二所述的特征值;然后構(gòu)造如下規(guī)則,判定概念對(X,Y)標(biāo)注為反例數(shù)據(jù)當(dāng)且僅當(dāng)滿足下述任一規(guī)則:

WUP(A,B)M;

Len(A)Len(B);

Jaccard info=0;

Jaccard gdl=0;

|KL(A,B)-KL(B,A)|N;

其中:WUP(A,B)計算概念A(yù),B的詞干相似度,Len(A)計算概念A(yù)的名稱長度,Jaccardinfo計算概念A(yù),B之間信息框的結(jié)構(gòu)相似度,Jaccardgdl計算概念A(yù),B之間大綱的結(jié)構(gòu)相似度,KL(A,B)和KL(A,B)分別計算KL散度,M,N為常量;

所述的優(yōu)化規(guī)則包括:環(huán)狀沖突、關(guān)系傳遞冗余和自閉環(huán)沖突,滿足沖突條件的關(guān)系將從迭代結(jié)果中刪除;

所述的環(huán)狀沖突具體是指:上下位關(guān)系作為非對稱關(guān)系,不能出現(xiàn)概念之間的關(guān)系環(huán)路;

所述的自閉環(huán)沖突具體是指:根據(jù)概念不能成為自己的上位詞或下位詞,進行符合本規(guī)則關(guān)系的移除;

所述的RDF標(biāo)準(zhǔn)化是指:將概念和概念間存在的關(guān)系分別采用RDF語言進行描述。

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會員可以免費下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201710120880.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實用新型專利、外觀設(shè)計專利(升級中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關(guān)于我們 尋求報道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产精品日韩视频| 国产精品一区二区不卡| 国产精品久久久久久久新郎| 日韩一级片免费观看| 日韩精品一区二区不卡| 国产日韩欧美精品一区| 国产一区二| 欧美综合在线一区| 国产清纯白嫩初高生在线观看性色| 狠狠综合久久av一区二区老牛| 久久艹亚洲| 国产天堂第一区| 国产精品二十区| 色偷偷一区二区三区| 农村妇女毛片精品久久| 国产色婷婷精品综合在线手机播放| 亚洲精品久久久中文| 国产品久精国精产拍| 国产精选一区二区| 少妇高潮ⅴideosex| www.久久精品视频| 99国产伦精品一区二区三区| 欧美乱大交xxxxx古装| 国产午夜一级一片免费播放| xxxx18日本护士高清hd| 国产精品对白刺激在线观看| 精品国产区一区二| 久久福利免费视频| 素人av在线| 国产一区网址| 爱看av在线入口| 亚洲伊人久久影院| 国产欧美日韩一级大片| 国产视频二区在线观看| 色噜噜狠狠色综合久| 欧美亚洲精品suv一区| 国产一区二区三区小说 | 午夜生活理论片| 欧美日韩一区二区三区不卡| 久久免费福利视频| 精品国产乱码久久久久久久| 妖精视频一区二区三区| 6080日韩午夜伦伦午夜伦| 一本一道久久a久久精品综合蜜臀| 国产精品久久久久久亚洲美女高潮 | 亚洲欧美日本一区二区三区| 日韩av一二三四区| 午夜亚洲影院| 亚洲一区欧美| 国产麻豆91欧美一区二区| 麻豆精品国产入口| 国产精品一二三区免费| 欧美日韩亚洲另类| 老女人伦理hd| 亚洲精品www久久久| 99国产精品久久久久老师| 91精品婷婷国产综合久久竹菊| 亚洲精品久久在线| 99精品国产一区二区三区麻豆| 日韩av一区不卡| 热久久国产| 国产一区二区三区网站| 精品一区二区三区影院| 国产一区二区在| 91看片片| 久久一二区| 国产精品久久久久久久龚玥菲| 99国产精品欧美久久久久的广告| 中日韩欧美一级毛片| 少妇自拍一区| 午夜天堂电影| 99久久久久久国产精品| 国产精品日韩在线观看| 久久99久久99精品免观看软件| 亚洲一区中文字幕| 久久国产精久久精产国| 91精品第一页| 青苹果av| 91片在线观看| 国产在线视频99| 精品视频久| 精品99免费视频| 免费精品99久久国产综合精品应用| 国产真裸无庶纶乱视频 | 日本一区二区在线观看视频| 日韩一区高清| 狠狠躁日日躁狂躁夜夜躁av| 亚洲精品丝袜| 农村妇女毛片精品久久| 国产精品一二三四五区| 夜夜夜夜曰天天天天拍国产| 久久精品视频3| 欧美三区视频| 日日狠狠久久8888偷色| 玖玖国产精品视频| 免费午夜片| 一级午夜影院| 自拍偷在线精品自拍偷写真图片| 色婷婷久久一区二区三区麻豆| 91丝袜国产在线播放| 国产高潮国产高潮久久久91| 精品一区中文字幕| 福利视频亚洲一区| 精品国产精品亚洲一本大道| 欧美乱妇高清无乱码免费| 91精品综合在线观看| 在线观看国产91| 国产1区2| 欧美一区二区三区中文字幕| 国产精品19乱码一区二区三区| 亚洲区日韩| 国产综合久久精品| 精品无码久久久久国产| 亚洲乱码一区二区三区三上悠亚| 国产精品久久免费视频在线| 少妇又紧又色又爽又刺激视频网站 | 日本一区二区三区中文字幕| 国产欧美精品一区二区三区小说| 91精品丝袜国产高跟在线| 亚洲欧美日韩国产综合精品二区 | 国产欧美一区二区三区不卡高清| 精品国产1区2区| 精品久久久久久亚洲综合网 | 亚洲乱码一区二区三区三上悠亚| 男女午夜爽爽| www.日本一区| 国产欧美精品久久| 欧美日本91精品久久久久| 一区二区中文字幕在线| 午夜看大片| 亚洲国产一区二区精华液| 97涩国一产精品久久久久久久| 伊人久久婷婷色综合98网| 亚洲一二区在线观看| 少妇自拍一区| 久精品国产| av不卡一区二区三区| 日本久久不卡| 国产91综合一区在线观看| 91麻豆精品国产91久久| 91精品综合在线观看| 日本一码二码三码视频| 国产精品日韩电影| 国产精品v一区二区三区| 久久精品—区二区三区| 色婷婷精品久久二区二区蜜臂av| 精品国产区一区二| 日本午夜影视| 久久99国产视频| 国产在线不卡一| 91精品系列| 久久国产精品久久久久久电车| 国产精品久久久久久久久久久久久久久久| 欧美一区二区三区免费在线观看| 欧美乱妇在线视频播放| 91精品一二区| 国产精华一区二区精华| 色婷婷久久一区二区三区麻豆| 国产乱对白刺激视频在线观看 | 国产精品国产亚洲精品看不卡15 | 午夜av男人的天堂| 国产精品自拍不卡| 99国产精品久久久久99打野战| 亚洲精品日韩精品| 狠狠躁夜夜| 国产精品99在线播放| 欧美精品粉嫩高潮一区二区| 色婷婷综合久久久中文一区二区| 国产亚洲精品久久19p| 欧美资源一区| 欧美3p激情一区二区三区猛视频 | 狠狠色狠狠色综合久久第一次| 国产一区二| 久久久久久久国产精品视频| 国内久久久久久| 久久精品视频3| 狠狠色噜噜狠狠狠色综合| 精品国产一区二| 国产精品色在线网站| 久久久午夜爽爽一区二区三区三州| 日韩精品一区二区av| 久久久精品观看| 午夜激情影院| 91久久精品国产91久久性色tv| 午夜精品影视| 精品久久久久久久久亚洲| 99国产精品丝袜久久久久久| 久久久久久亚洲精品| 欧美日韩卡一卡二| av午夜在线观看| 狠狠色丁香久久婷婷综合_中| 国产91电影在线观看| 日韩精品久久久久久久的张开腿让| 午夜电影天堂| 在线视频国产一区二区| 国产精品一区二区中文字幕| 欧美精品一区二区久久| 国产精品色在线网站| 欧美日韩久久一区二区| 96精品国产| 国产欧美一二三区| 日韩精品中文字幕在线| xxxxx色| 亚洲国产精品97久久无色| 91理论片午午伦夜理片久久| 国产日韩精品一区二区| 国产精品中文字幕一区二区三区 | 国产69精品久久99的直播节目| 一本久久精品一区二区| 香港三日本三级三级三级| 日韩精品一区二区不卡| 少妇久久免费视频| 亚洲福利视频二区| 精品国产区一区二| 夜夜夜夜夜猛噜噜噜噜噜gg| 夜夜夜夜曰天天天天拍国产| 国产另类一区| 欧美系列一区二区| 国产欧美一区二区三区在线播放| 国产亚洲精品久久久久动| 亚洲国产欧洲综合997久久, | 国产盗摄91精品一区二区三区| 欧美国产一区二区三区激情无套| 国产精品一区二区久久乐夜夜嗨| 国产欧美久久一区二区三区| 99爱国产精品| 精品欧美一区二区精品久久小说| 久久91精品国产91久久久| 国产第一区在线观看| 自拍偷在线精品自拍偷写真图片| 中文字幕日韩有码| 一区二区三区欧美视频| 久久99精品久久久大学生| 中文字幕一区二区三区免费视频| 一本大道久久a久久精品| 午夜电影三级| 国产三级在线视频一区二区三区| 日韩亚洲欧美一区| 欧美日韩国产色综合一二三四| 日本高清二区| 欧美激情视频一区二区三区免费 | **毛片免费| 日韩a一级欧美一级在线播放| 国产精品久久免费视频在线| 亚洲一区精品视频| 99re国产精品视频|