[發(fā)明專利]一種基于傳遞的同義詞擴(kuò)展方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010063190.7 | 申請(qǐng)日: | 2020-01-19 |
| 公開(公告)號(hào): | CN111274794B | 公開(公告)日: | 2022-03-18 |
| 發(fā)明(設(shè)計(jì))人: | 魯偉明;俞家樂;吳飛;莊越挺 | 申請(qǐng)(專利權(quán))人: | 浙江大學(xué) |
| 主分類號(hào): | G06F40/247 | 分類號(hào): | G06F40/247;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 劉靜 |
| 地址: | 310058 浙江*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 傳遞 同義詞 擴(kuò)展 方法 | ||
本發(fā)明公開了一種基于傳遞的同義詞擴(kuò)展方法:利用百科多義詞頁面獲取實(shí)體三元組t=e1,e2,e3作為正負(fù)例,其中e2分別與e1、e3同義;以百科詞條正文作為語料,檢索得到e1和e2的共現(xiàn)語句包S1以及e2和e3的共現(xiàn)語句包S2;通過BERT或BiLSTM模型分別編碼S1和S2中所有語句,并采用注意力機(jī)制選擇有效語句;利用注意力權(quán)重和門控機(jī)制計(jì)算實(shí)體的融合向量;通過多角度匹配網(wǎng)絡(luò)從三個(gè)層面匹配e2在S1和S2中語義,并進(jìn)行同義關(guān)系分類;模型判別為正例即表明e1和e3具有同義關(guān)系,從而實(shí)現(xiàn)同義詞擴(kuò)展。本發(fā)明首次提出了一個(gè)基于傳遞的同義詞判別模型,該模型結(jié)合深度學(xué)習(xí)技術(shù),通過共有同義詞的語義傳遞輔助實(shí)體對(duì)的同義關(guān)系判別,對(duì)于從海量數(shù)據(jù)中挖掘同義信息具有重要價(jià)值。
技術(shù)領(lǐng)域
本發(fā)明涉及基于傳遞的同義詞擴(kuò)展方法,特別是涉及一種通過共有同義詞的語義傳遞輔助實(shí)體對(duì)間同義關(guān)系判別的方法。
背景技術(shù)
同義詞實(shí)體是指一組描述同一概念、指向同一實(shí)體的詞語。人們通常喜歡采用不同方式表述某個(gè)實(shí)體,實(shí)體的多種名稱構(gòu)成了同義關(guān)系。實(shí)體同義名稱的應(yīng)用雖然能夠增加語言表述的豐富性,但同時(shí)也加大了文本理解和文本分析的難度。因此,從海量語料中自動(dòng)識(shí)別同義詞實(shí)體已經(jīng)成為一項(xiàng)重要任務(wù)。它不僅能夠?yàn)橹R(shí)挖掘提供豐富的語義信息,還能使許多下游任務(wù)受益,例如在Web搜索、問答系統(tǒng)、知識(shí)圖譜構(gòu)建等應(yīng)用領(lǐng)域中,同義信息都發(fā)揮著不可或缺的作用。
獲取同義詞實(shí)體的一種最直接方法是利用公開知識(shí)資源,著名英文知識(shí)庫例如WordNet、ConceptNet和DBpedia中均包含了大量同義信息,而中文詞典《同義詞詞林》、《同義詞詞林?jǐn)U展版》以及中文WordNet也都是可靠的同義資源。然而這些知識(shí)資源大多基于人工,需要耗費(fèi)大量的時(shí)間和人力去構(gòu)造及維護(hù)。尤其隨著信息時(shí)代的到來,同義詞實(shí)體的數(shù)量也在飛速增長(zhǎng),知識(shí)資源中的同義信息覆蓋率已遠(yuǎn)遠(yuǎn)滿足不了人們的需求。自動(dòng)同義詞實(shí)體抽取任務(wù)已逐漸成為一項(xiàng)研究熱點(diǎn)。
發(fā)明內(nèi)容
本發(fā)明設(shè)計(jì)并實(shí)現(xiàn)了一種基于傳遞的同義詞擴(kuò)展方法。該方法提出并解決了一個(gè)新任務(wù),即判斷同義關(guān)系能否傳遞,模型結(jié)合多角度實(shí)體匹配策略和同義語句選擇任務(wù),通過一個(gè)中間同義詞來輔助判別實(shí)體對(duì)間是否存在同義關(guān)系,從而實(shí)現(xiàn)同義詞擴(kuò)展。
本發(fā)明解決其技術(shù)問題采用的技術(shù)方案如下:一種基于傳遞的同義詞擴(kuò)展算法,包括以下步驟:
1)數(shù)據(jù)集構(gòu)建:爬取并解析百科詞條正文,存儲(chǔ)到Lucene索引文件中,同時(shí)利用Word2Vec工具訓(xùn)練詞向量;爬取百科詞條的多義詞頁面,解析得到每個(gè)頁面中所有多義義項(xiàng),并從義項(xiàng)的詞條頁中獲取該義項(xiàng)的同義屬性;同一義項(xiàng)若存在多個(gè)同義詞,則以該義項(xiàng)名稱作為中間實(shí)體e2,任選它的兩個(gè)同義詞作為e1和e3,構(gòu)成正例三元組t=e1,e2,e3;具有相同名稱的不同義項(xiàng),可以隨機(jī)選取兩個(gè)義項(xiàng)各自的同義詞分別作為e1和e3,與義項(xiàng)名e2構(gòu)成負(fù)例三元組;所有實(shí)體三元組t構(gòu)成了集合T;根據(jù)已獲得的實(shí)體三元組集合,在語料的Lucene索引文件中進(jìn)行布爾檢索,得到同時(shí)包含一對(duì)實(shí)體的所有語句si并構(gòu)成共現(xiàn)語句包S={s1,s2,...,s|s|},即檢索e1和e2得到共現(xiàn)語句包S1,檢索e2和e3得到共現(xiàn)語句包S2;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010063190.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





