[發(fā)明專利]一種基于實(shí)體知識(shí)庫(kù)的語(yǔ)言模型平滑方法有效
| 申請(qǐng)?zhí)枺?/td> | 201711265786.X | 申請(qǐng)日: | 2017-12-05 |
| 公開(公告)號(hào): | CN107958068B | 公開(公告)日: | 2020-02-14 |
| 發(fā)明(設(shè)計(jì))人: | 趙峰;田澤亮;沈燏;金海 | 申請(qǐng)(專利權(quán))人: | 華中科技大學(xué) |
| 主分類號(hào): | G06F16/953 | 分類號(hào): | G06F16/953;G06F16/36;G06F40/295;G06F40/30 |
| 代理公司: | 42201 華中科技大學(xué)專利中心 | 代理人: | 廖盈春;李智 |
| 地址: | 430074 湖北*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 實(shí)體 知識(shí)庫(kù) 語(yǔ)言 模型 平滑 方法 | ||
本發(fā)明公開一種基于實(shí)體知識(shí)庫(kù)的語(yǔ)言模型平滑方法,包括:預(yù)先確定實(shí)體知識(shí)庫(kù);采用最大似然估計(jì)法,對(duì)語(yǔ)料庫(kù)中的每篇文檔構(gòu)建原始文檔語(yǔ)言模型,以及對(duì)整個(gè)語(yǔ)料庫(kù)構(gòu)建語(yǔ)料庫(kù)語(yǔ)言模型;使用命名實(shí)體識(shí)別技術(shù)識(shí)別每篇文檔中的命名實(shí)體,使用命名實(shí)體鏈接技術(shù)將識(shí)別的命名實(shí)體鏈接到實(shí)體知識(shí)庫(kù)中實(shí)體上,將每篇文檔與實(shí)體知識(shí)庫(kù)之間建立聯(lián)系;根據(jù)實(shí)體鏈接,提取每篇文檔中的命名實(shí)體在實(shí)體知識(shí)庫(kù)中的信息,融合成每篇文檔的背景知識(shí)文檔,采用最大似然估計(jì)法,構(gòu)建背景知識(shí)語(yǔ)言模型;結(jié)合背景知識(shí)語(yǔ)言模型和語(yǔ)料庫(kù)語(yǔ)言模型兩種語(yǔ)言模型信息,對(duì)原始文檔語(yǔ)言模型進(jìn)行兩次平滑。本發(fā)明提高了平滑后語(yǔ)言模型的魯棒性。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)信息檢索技術(shù)領(lǐng)域,更具體地,涉及一種基于實(shí)體知識(shí)庫(kù)的語(yǔ)言模型平滑方法。
背景技術(shù)
語(yǔ)言模型是描述自然語(yǔ)言內(nèi)在規(guī)律的數(shù)學(xué)模型。它廣泛地應(yīng)用于語(yǔ)音識(shí)別、手寫體文字識(shí)別、機(jī)器翻譯、信息檢索和詞性識(shí)別等自然語(yǔ)言處理領(lǐng)域。在信息檢索中,許多著名的檢索模型都是以語(yǔ)言模型為基礎(chǔ)的,如,SDM(sequential dependence model)、LDA(latent dirichlet allocation)、RM3(relevance mode)等。給定文檔的語(yǔ)言模型,根據(jù)概率計(jì)算公式可以計(jì)算出從文檔d的主題中采樣得到查詢語(yǔ)句q的概率,從而衡量查詢語(yǔ)句q和文檔d之間的語(yǔ)義相關(guān)性。
由上可知,首先要估算文檔的語(yǔ)言模型,才能計(jì)算文檔與查詢語(yǔ)句之間的相關(guān)性。通常最簡(jiǎn)單計(jì)算方式的是使用最大似然估計(jì)法來(lái)估計(jì)文檔的語(yǔ)言模型,即其中count(wi,d)表示單詞wi在文檔d中出現(xiàn)的次數(shù),分母是統(tǒng)計(jì)所有單詞w′在文檔d中出現(xiàn)次數(shù)之和,即文檔的單詞總數(shù)。但是這種方法存在兩個(gè)缺點(diǎn):1)對(duì)于文檔中沒有出現(xiàn)的缺失詞,是沒有辦法估算它的概率;2)計(jì)算得到的單詞概率只反映了單詞文檔中的頻率信息,不能完全反映單詞與文檔的語(yǔ)義相關(guān)性。
針對(duì)上述缺點(diǎn),學(xué)術(shù)界和工業(yè)界提出了很多平滑方法。大致可以分為三類:1)基于語(yǔ)料庫(kù)的平滑方法,這類方法首先根據(jù)語(yǔ)料庫(kù)中的所有文檔構(gòu)建語(yǔ)料庫(kù)語(yǔ)言模型,再通過插值或回退的方法,把原文檔語(yǔ)言模型和語(yǔ)料庫(kù)語(yǔ)言模型進(jìn)行相加,得到最后平滑后的語(yǔ)言模型;2)文檔擴(kuò)展技術(shù)(Document Expansion),這類方法沒有顯式的對(duì)文檔進(jìn)行平滑,是隱式的向文檔中添加與文檔相關(guān)的文本信息來(lái)修正文檔語(yǔ)言模型,通常文檔相關(guān)信息來(lái)源有超鏈接、用戶歷史查詢語(yǔ)句和用戶批注三類;3)基于圖的平滑方法,這類方法通過文檔構(gòu)建單詞圖譜,利用類似于PageRank的算法來(lái)計(jì)算單詞的重要度,根據(jù)得到的單詞重要度來(lái)估算單詞的概率。
我們認(rèn)為一個(gè)準(zhǔn)確的語(yǔ)言模型應(yīng)該是與文檔主題相關(guān),應(yīng)該是反映單詞在文檔主題的背景下的概率分布,應(yīng)該能夠通過概率反映單詞與文檔主題之間的相關(guān)性,進(jìn)而才能正確的反映查詢語(yǔ)句和文檔之間的相關(guān)性。
而上述現(xiàn)有的平滑方法中:第一類方法使用的是通用的語(yǔ)料庫(kù)語(yǔ)言模型,是文檔無(wú)關(guān)的,沒有考慮文檔中的任何語(yǔ)義信息,自然也不能很好的估計(jì)單詞與文檔主題的相關(guān)性;第二類方法提取文檔相關(guān)信息的方法不具有普遍性,不是所有的文檔都能搜集到相關(guān)信息,而且信息來(lái)源的質(zhì)量得不到保證;第三類方法也沒有直接衡量單詞與文檔主題的相關(guān)性,并且僅局限于文檔中的單詞,對(duì)于文檔缺失詞中的相關(guān)單詞無(wú)法進(jìn)行優(yōu)化。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)的缺陷,本發(fā)明的目的在于解決現(xiàn)有平滑方法使用的是通用的語(yǔ)料庫(kù)語(yǔ)言模型,是文檔無(wú)關(guān)的,沒有考慮文檔中的任何語(yǔ)義信息,自然也不能很好的估計(jì)單詞與文檔主題的相關(guān)性;且提取文檔相關(guān)信息的方法不具有普遍性,不是所有的文檔都能搜集到相關(guān)信息,而且信息來(lái)源的質(zhì)量得不到保證;以及沒有直接衡量單詞與文檔主題的相關(guān)性,并且僅局限于文檔中的單詞,對(duì)于文檔缺失詞中的相關(guān)單詞無(wú)法進(jìn)行優(yōu)化的技術(shù)問題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供一種基于實(shí)體知識(shí)庫(kù)的語(yǔ)言模型平滑方法,包括以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華中科技大學(xué),未經(jīng)華中科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711265786.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種專利文本自動(dòng)分析的系統(tǒng)及方法
- 基于知識(shí)的故障恢復(fù)支持系統(tǒng)
- 一種鐵磁諧振故障知識(shí)庫(kù)構(gòu)建方法
- 融合知識(shí)庫(kù)處理方法和裝置,以及知識(shí)庫(kù)管理系統(tǒng)
- 一種基于病理生理路徑的臨床知識(shí)庫(kù)系統(tǒng)
- 一種面向網(wǎng)絡(luò)安全的知識(shí)庫(kù)構(gòu)建方法
- 基于多知識(shí)庫(kù)推理的數(shù)據(jù)匹配決策方法及系統(tǒng)
- 一種語(yǔ)義知識(shí)庫(kù)構(gòu)建方法
- 基于人工智能的知識(shí)庫(kù)生成方法和智能機(jī)器人應(yīng)答方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)
- 自動(dòng)檢測(cè)文件中搭配錯(cuò)誤的系統(tǒng)和方法
- 網(wǎng)絡(luò)連接裝置及網(wǎng)絡(luò)連接裝置的語(yǔ)言環(huán)境設(shè)定方法
- 一種口語(yǔ)評(píng)測(cè)方法及裝置
- 一種語(yǔ)言設(shè)置方法及移動(dòng)終端
- 一種語(yǔ)言文本加載方法和裝置
- 一種語(yǔ)言交流人工智能系統(tǒng)及其語(yǔ)言處理方法
- 語(yǔ)言序列標(biāo)注方法、裝置存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備
- 一種基于語(yǔ)言包實(shí)現(xiàn)繼電保護(hù)裝置多語(yǔ)言版本方法及裝置
- 一種應(yīng)用軟件的多語(yǔ)言核對(duì)方法及系統(tǒng)
- 多語(yǔ)言字幕顯示方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)





