[發(fā)明專利]縮簡詞的消歧方法和消歧設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 201611115210.0 | 申請(qǐng)日: | 2016-12-07 |
| 公開(公告)號(hào): | CN108170662A | 公開(公告)日: | 2018-06-15 |
| 發(fā)明(設(shè)計(jì))人: | 宋雙永;繆慶亮;孟遙 | 申請(qǐng)(專利權(quán))人: | 富士通株式會(huì)社 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 康建峰;吳瓊 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 消歧 參考 語義知識(shí)庫 概率 文本 關(guān)聯(lián)關(guān)系 文件頻率 檢索 查找 | ||
本發(fā)明公開了一種縮簡詞的消歧方法和消歧設(shè)備。該消歧方法包括:針對(duì)待處理文本中的縮簡詞,查找共現(xiàn)語義知識(shí)庫中與該縮簡詞對(duì)應(yīng)的全稱實(shí)體;在查找到多個(gè)全稱實(shí)體的情況下,針對(duì)每一個(gè)全稱實(shí)體,檢索待處理文本中出現(xiàn)的、共現(xiàn)語義知識(shí)庫中與該全稱實(shí)體存在關(guān)聯(lián)關(guān)系的參考實(shí)體;基于參考實(shí)體與該全稱實(shí)體之間的共現(xiàn)支持概率TF?IDF,計(jì)算該全稱實(shí)體的共現(xiàn)概率;基于共現(xiàn)概率,選擇多個(gè)全稱實(shí)體之一作為與該縮簡詞對(duì)應(yīng)的全稱實(shí)體;其中,所述TF?IDF等于參考實(shí)體與該全稱實(shí)體的共現(xiàn)次數(shù)TF和參考實(shí)體與該全稱實(shí)體的逆向文件頻率IDF之積。
技術(shù)領(lǐng)域
本發(fā)明一般地涉及自然語言處理領(lǐng)域。具體而言,本發(fā)明涉及一種能夠?yàn)樘幚砦谋局械膶?duì)應(yīng)于多個(gè)全稱的縮簡詞準(zhǔn)確地確定所對(duì)應(yīng)的單個(gè)全稱的消歧方法和消歧設(shè)備。
背景技術(shù)
在自然語言中,經(jīng)常出現(xiàn)縮簡詞,即相對(duì)于全稱,經(jīng)縮減后的縮寫或簡稱。例如,在中文中,“海南航空股份有限公司”可以簡稱為“海航”,“海上航行”也能簡稱為“海航”。在英文中,“Machine Learning”可以縮寫為“ML”,“Malcolm Lincoln”也可以縮寫為“ML”。
由于縮簡詞存在著與全稱的一對(duì)多情形,所以在自然語言處理中,縮簡詞的歧義消除(以下簡稱為消歧)就成為必須解決的問題,是詞義消歧中的重要的子任務(wù)。在機(jī)器翻譯、語音問答等應(yīng)用中,縮簡詞的消歧的難度較大。然而,如果不能實(shí)現(xiàn)縮簡詞的消歧,自然語言處理的結(jié)果的可讀性不佳。例如,在從英文到中文的機(jī)器翻譯應(yīng)用中,翻譯結(jié)果是包括沒有任何翻譯的英文縮寫的中文句子。這樣的句子會(huì)讓用戶看起來不倫不類,有未處理完成之感,甚至讓人無法理解翻譯結(jié)果的意思。例如,“ML是一位令人尊敬的歌手。”。
傳統(tǒng)的方法例如從縮簡詞的上下文中查找該縮簡詞的真實(shí)含義。然而,該方法的問題在于縮簡詞的上下文中并不總包含其真實(shí)含義。
因此,本發(fā)明旨在準(zhǔn)確地將具有歧義的縮簡詞對(duì)應(yīng)到正確的實(shí)體。
發(fā)明內(nèi)容
在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。
本發(fā)明的目的是提出一種能夠?qū)哂衅缌x的縮簡詞進(jìn)行消歧的方法和設(shè)備。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種縮簡詞的消歧方法,該方法包括:針對(duì)待處理文本中的縮簡詞,查找共現(xiàn)語義知識(shí)庫中與該縮簡詞對(duì)應(yīng)的全稱實(shí)體;在查找到多個(gè)全稱實(shí)體的情況下,針對(duì)每一個(gè)全稱實(shí)體,檢索待處理文本中出現(xiàn)的、共現(xiàn)語義知識(shí)庫中與該全稱實(shí)體存在關(guān)聯(lián)關(guān)系的參考實(shí)體;基于參考實(shí)體與該全稱實(shí)體之間的共現(xiàn)支持概率TF-IDF,計(jì)算該全稱實(shí)體的共現(xiàn)概率;基于共現(xiàn)概率,選擇多個(gè)全稱實(shí)體之一作為與該縮簡詞對(duì)應(yīng)的全稱實(shí)體;其中,所述TF-IDF等于參考實(shí)體與該全稱實(shí)體的共現(xiàn)次數(shù)TF和參考實(shí)體與該全稱實(shí)體的逆向文件頻率IDF之積。
根據(jù)本發(fā)明的另一個(gè)方面,提供了一種縮簡詞的消歧設(shè)備,該設(shè)備包括:查找裝置,被配置為:針對(duì)待處理文本中的縮簡詞,查找共現(xiàn)語義知識(shí)庫中與該縮簡詞對(duì)應(yīng)的全稱實(shí)體;確定裝置,被配置為:在查找到多個(gè)全稱實(shí)體的情況下,針對(duì)每一個(gè)全稱實(shí)體,檢索待處理文本中出現(xiàn)的、共現(xiàn)語義知識(shí)庫中與該全稱實(shí)體存在關(guān)聯(lián)關(guān)系的參考實(shí)體;基于參考實(shí)體與該全稱實(shí)體之間的共現(xiàn)支持概率TF-IDF,計(jì)算該全稱實(shí)體的共現(xiàn)概率;基于共現(xiàn)概率,選擇多個(gè)全稱實(shí)體之一作為與該縮簡詞對(duì)應(yīng)的全稱實(shí)體;其中,所述TF-IDF等于參考實(shí)體與該全稱實(shí)體的共現(xiàn)次數(shù)TF和參考實(shí)體與該全稱實(shí)體的逆向文件頻率IDF之積。
另外,根據(jù)本發(fā)明的另一方面,還提供了一種存儲(chǔ)介質(zhì)。所述存儲(chǔ)介質(zhì)包括機(jī)器可讀的程序代碼,當(dāng)在信息處理設(shè)備上執(zhí)行所述程序代碼時(shí),所述程序代碼使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于富士通株式會(huì)社,未經(jīng)富士通株式會(huì)社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611115210.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 姓名消歧的方法和裝置
- 一種實(shí)體消歧方法及裝置
- 一種基于HowNet的圖模型詞義消歧方法和系統(tǒng)
- 一種實(shí)體消歧方法、裝置、計(jì)算機(jī)裝置及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種基于實(shí)體相似度計(jì)算的本體實(shí)體消歧方法
- 用于實(shí)體識(shí)別和實(shí)體消歧的聯(lián)合訓(xùn)練方法、裝置及介質(zhì)
- 基于深度學(xué)習(xí)的科技文獻(xiàn)作者名消歧方法及web端消歧裝置
- 一種用于人物實(shí)體庫的文本相似度實(shí)體消歧方法和系統(tǒng)
- 一種基于知識(shí)圖譜和上下文語境的中文語義消歧方法
- 一種復(fù)雜中文文本中的實(shí)體消歧方法
- 一種基于知識(shí)庫并支持復(fù)雜產(chǎn)品先進(jìn)制造系統(tǒng)的語義SOA集成方法
- 一種基于詞典的語義知識(shí)庫的構(gòu)建方法
- 一種基于機(jī)器翻譯的中文語義知識(shí)庫的構(gòu)建方法
- 智能問答方法、知識(shí)庫優(yōu)化方法及裝置、智能知識(shí)庫
- 智能問答方法、知識(shí)庫優(yōu)化方法及裝置、智能知識(shí)庫
- 一種基于形狀視覺知識(shí)庫的圖像自動(dòng)分割和語義注釋方法
- 一種語義知識(shí)庫構(gòu)建方法
- 知識(shí)庫構(gòu)建方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 融合領(lǐng)域知識(shí)與多源數(shù)據(jù)的工業(yè)過程優(yōu)化決策方法
- 工業(yè)過程領(lǐng)域規(guī)則知識(shí)獲取方法





