[發(fā)明專利]詞義消歧方法和設(shè)備、詞義擴(kuò)展方法和裝置在審
| 申請?zhí)枺?/td> | 201711048364.7 | 申請日: | 2017-10-31 |
| 公開(公告)號: | CN109726385A | 公開(公告)日: | 2019-05-07 |
| 發(fā)明(設(shè)計)人: | 張馳;郭心語;李安新;陳嵐;礒田佳德;小野隆哉 | 申請(專利權(quán))人: | 株式會社NTT都科摩 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京市柳沈律師事務(wù)所 11105 | 代理人: | 張曉明 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 詞義 消歧 目標(biāo)詞 方法和設(shè)備 輸入語句 上位詞 詞義擴(kuò)展 方法和裝置 上下文信息 接收輸入 句法分析 句法關(guān)系 歧義 詞庫 詞性 語句 分析 | ||
本發(fā)明涉及一種基于上位詞的詞義消歧方法和設(shè)備,以及利用該詞義消歧方法的詞義擴(kuò)展方法和設(shè)備。該詞義消歧方法包括:接收輸入語句;基于預(yù)定歧義詞庫,確定所述輸入語句中的消歧目標(biāo)詞;基于對所述輸入語句的句法分析以及上下文信息分析,確定所述目標(biāo)詞的相關(guān)詞;確定所述相關(guān)詞的一個或多個上位詞;以及基于所述相關(guān)詞以及所述一個或多個上位詞的詞形,詞性及與目標(biāo)詞的句法關(guān)系,確定所述目標(biāo)詞在所述輸入語句中的詞義。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能領(lǐng)域,更具體地,本發(fā)明涉及一種詞義消歧方法和設(shè)備,利用該詞義消歧方法的詞義擴(kuò)展方法和裝置,以及計算機(jī)可讀存儲介質(zhì)。
背景技術(shù)
詞義消歧(WSD)是指確定多義詞在自然語言的特定上下文中的詞義。詞義消歧是自然語處理領(lǐng)域的基礎(chǔ)性問題。當(dāng)在要進(jìn)行自然語言處理的語句中存在多義詞時,如果不能正確地確定多義詞在該語句上下文中的正確詞義,就會出現(xiàn)詞語歧義現(xiàn)象,從而嚴(yán)重影響機(jī)器對于自然語言的正確理解和處理。在諸如語言識別、機(jī)器翻譯、信息檢索、文本分類、自動文摘等基于自然語言的應(yīng)用領(lǐng)域中,都需要解決對于多義詞的詞義消歧問題。
目前,基于語料庫的詞義消歧方案主要包括監(jiān)督和無監(jiān)督方法。無監(jiān)督方法不需要訓(xùn)練語料庫,但是其消歧精度無法滿足實(shí)用要求。目前的監(jiān)督方法則需要大規(guī)模高質(zhì)量的語料庫對消歧模型進(jìn)行訓(xùn)練,而一旦實(shí)際待消歧語句中出現(xiàn)語料庫沒有覆蓋的詞語,則很可能出現(xiàn)無法確定歧義詞的情況。
發(fā)明內(nèi)容
鑒于上述問題,本發(fā)明提供一種詞義消歧方法和設(shè)備,利用該詞義消歧方法的詞義擴(kuò)展方法和裝置,以及計算機(jī)可讀存儲介質(zhì)。
根據(jù)本發(fā)明的一個實(shí)施例,提供了一種詞義消歧方法,包括:接收輸入語句;基于預(yù)定歧義詞庫,確定所述輸入語句中的消歧目標(biāo)詞;基于對所述輸入語句的句法分析以及上下文信息分析,確定所述目標(biāo)詞的相關(guān)詞;確定所述相關(guān)詞的一個或多個上位詞;以及基于所述相關(guān)詞以及所述一個或多個上位詞,確定所述目標(biāo)詞在所述輸入語句中的詞義。
此外,根據(jù)本發(fā)明的一個實(shí)施例的詞義消歧方法,其中,所述基于對所述輸入語句的句法分析以及上下文信息分析,確定所述目標(biāo)詞的相關(guān)詞包括:基于對所述輸入語句的詞性分析標(biāo)注,確定所述輸入語句中各個詞語的詞性;以及基于所述詞性和所述句法分析的結(jié)果以及對目標(biāo)詞的上下文分析等結(jié)果,根據(jù)預(yù)定規(guī)則確定所述目標(biāo)詞的相關(guān)詞。
此外,根據(jù)本發(fā)明的一個實(shí)施例的詞義消歧方法,還包括預(yù)先訓(xùn)練執(zhí)行所述詞義消歧方法的詞義消歧模塊,其中,訓(xùn)練所述詞義消歧模塊包括:標(biāo)注用于訓(xùn)練的訓(xùn)練數(shù)據(jù);對所述訓(xùn)練數(shù)據(jù)執(zhí)行數(shù)據(jù)處理,并且獲得所述預(yù)定歧義詞庫;對于所述訓(xùn)練數(shù)據(jù)中的每條訓(xùn)練語句,基于所述預(yù)定歧義詞庫,確定所述每條訓(xùn)練語句中的消歧訓(xùn)練目標(biāo)詞;基于對所述每條訓(xùn)練語句的句法分析以及上下文信息分析,確定所述訓(xùn)練目標(biāo)詞的訓(xùn)練相關(guān)詞;確定所述訓(xùn)練目標(biāo)詞、所述訓(xùn)練相關(guān)詞、所述訓(xùn)練目標(biāo)詞和所述訓(xùn)練相關(guān)詞的上位詞的詞形,詞性及與目標(biāo)詞的句法關(guān)系作為訓(xùn)練特征;以及利用所述訓(xùn)練特征訓(xùn)練所述詞義消歧模塊。
根據(jù)本發(fā)明的另一個實(shí)施例,提供了一種詞義擴(kuò)展方法,包括:接收輸入語句;基于預(yù)定歧義詞庫,確定所述輸入語句中的消歧目標(biāo)詞和非歧義詞;利用詞義消歧模塊確定所述消歧目標(biāo)詞在所述輸入語句中的詞義;基于預(yù)定同義詞庫,確定分別對應(yīng)于所述非歧義詞以及所述消歧目標(biāo)詞的詞義的同義詞和上位詞;以及利用所述同義詞和上位詞,擴(kuò)展所述輸入語句,其中,所述利用詞義消歧模塊確定所述消歧目標(biāo)詞在所述輸入語句中的詞義包括:基于對所述輸入語句的句法分析以及上下文信息分析,確定所述目標(biāo)詞的相關(guān)詞;確定所述相關(guān)詞的一個或多個上位詞;以及基于所述相關(guān)詞以及所述一個或多個上位詞,確定所述目標(biāo)詞在所述輸入語句中的詞義。
此外,根據(jù)本發(fā)明的另一個實(shí)施例的詞義擴(kuò)展方法,其中,所述基于對所述輸入語句的句法分析以及上下文信息分析,確定所述目標(biāo)詞的相關(guān)詞包括:基于對所述輸入語句的詞性分析標(biāo)注,確定所述輸入語句中各個詞語的詞性;以及基于所述詞性和所述句法分析的結(jié)果以及對目標(biāo)詞的上下文分析等結(jié)果,根據(jù)預(yù)定規(guī)則確定所述目標(biāo)詞的相關(guān)詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于株式會社NTT都科摩,未經(jīng)株式會社NTT都科摩許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711048364.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 姓名消歧的方法和裝置
- 一種實(shí)體消歧方法及裝置
- 一種基于HowNet的圖模型詞義消歧方法和系統(tǒng)
- 一種實(shí)體消歧方法、裝置、計算機(jī)裝置及計算機(jī)存儲介質(zhì)
- 一種基于實(shí)體相似度計算的本體實(shí)體消歧方法
- 用于實(shí)體識別和實(shí)體消歧的聯(lián)合訓(xùn)練方法、裝置及介質(zhì)
- 基于深度學(xué)習(xí)的科技文獻(xiàn)作者名消歧方法及web端消歧裝置
- 一種用于人物實(shí)體庫的文本相似度實(shí)體消歧方法和系統(tǒng)
- 一種基于知識圖譜和上下文語境的中文語義消歧方法
- 一種復(fù)雜中文文本中的實(shí)體消歧方法
- 記錄方法和設(shè)備,再生方法和設(shè)備
- 記錄方法和設(shè)備,再生方法和設(shè)備
- 加密設(shè)備和方法、解密設(shè)備和方法及密鑰產(chǎn)生設(shè)備和方法
- 信息處理設(shè)備和方法,傳輸設(shè)備和方法,記錄設(shè)備和方法
- 再生設(shè)備和方法、記錄及再生設(shè)備和方法、記錄設(shè)備和方法
- 頻帶擴(kuò)展設(shè)備和方法、編碼設(shè)備和方法、解碼設(shè)備和方法、以及程序
- 編碼設(shè)備和方法、記錄設(shè)備和方法、及解碼設(shè)備和方法
- 記錄設(shè)備和方法、再現(xiàn)設(shè)備和方法、程序和記錄再現(xiàn)設(shè)備
- 接收設(shè)備和方法、發(fā)送設(shè)備和方法、發(fā)送-接收設(shè)備和方法
- 加密設(shè)備和方法、解密設(shè)備和方法及信息處理設(shè)備和方法





