[發(fā)明專利]語(yǔ)義識(shí)別方法和語(yǔ)義識(shí)別系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201610228402.6 | 申請(qǐng)日: | 2016-04-13 |
| 公開(kāi)(公告)號(hào): | CN107291685B | 公開(kāi)(公告)日: | 2020-10-13 |
| 發(fā)明(設(shè)計(jì))人: | 劉克松;楊建武;張丹;蔡慧慧;馬路 | 申請(qǐng)(專利權(quán))人: | 北京大學(xué);北大方正集團(tuán)有限公司;北京北大方正電子有限公司 |
| 主分類號(hào): | G06F40/279 | 分類號(hào): | G06F40/279;G06F40/30 |
| 代理公司: | 北京友聯(lián)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11343 | 代理人: | 尚志峰;汪海屏 |
| 地址: | 100871*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語(yǔ)義 識(shí)別 方法 系統(tǒng) | ||
本發(fā)明提供了一種語(yǔ)義識(shí)別方法和語(yǔ)義識(shí)別系統(tǒng),其中,語(yǔ)義識(shí)別方法包括:確定與關(guān)鍵詞相關(guān)的多個(gè)參考詞匯,以及與關(guān)鍵詞相鄰的局部文本;計(jì)算參考詞匯屬于局部文本的概率,并記作第一概率;在檢測(cè)到第一參考詞匯的第一概率大于或等于預(yù)設(shè)概率時(shí),確定第一參考詞匯相關(guān)的語(yǔ)義作為關(guān)鍵詞的語(yǔ)義,其中,第一參考詞匯屬于多種參考詞匯。通過(guò)本發(fā)明技術(shù)方案,綜合關(guān)鍵詞的局部搭配和全局語(yǔ)境判斷關(guān)鍵詞的語(yǔ)義,提高了語(yǔ)義識(shí)別的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)義識(shí)別技術(shù)領(lǐng)域,具體而言,涉及一種語(yǔ)義識(shí)別方法和一種語(yǔ)義識(shí)別系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)的飛速發(fā)展,尤其是社交網(wǎng)絡(luò)泛在化對(duì)現(xiàn)實(shí)滲透,以微博為代表的用戶生成內(nèi)容在互聯(lián)網(wǎng)上大量涌現(xiàn)。面對(duì)海量文本數(shù)據(jù),基于關(guān)鍵字的檢索仍是快速發(fā)現(xiàn)相關(guān)內(nèi)容的有效手段。然而,關(guān)鍵詞在不同上下文里往往表現(xiàn)不同的語(yǔ)義,僅有關(guān)鍵字并不能完全表達(dá)用戶的檢索需求。例如,使用關(guān)鍵詞“蘋果”檢索文本,其返回結(jié)果有的屬于手機(jī)行業(yè),有的屬于農(nóng)產(chǎn)品行業(yè),原因在于關(guān)鍵詞“蘋果”在不同的上下文語(yǔ)境中,有時(shí)表示公司的名稱,有時(shí)表示一種水果。因此,準(zhǔn)確識(shí)別關(guān)鍵詞的語(yǔ)義是判斷檢索結(jié)果質(zhì)量的關(guān)鍵。
相關(guān)技術(shù)中,為克服語(yǔ)義識(shí)別困難,提高檢索質(zhì)量,采用查詢?cè)~擴(kuò)展、偽反饋和領(lǐng)域本體(Ontology)知識(shí)庫(kù)等技術(shù)進(jìn)行語(yǔ)義識(shí)別:
(1)查詢?cè)~擴(kuò)展、偽反饋技術(shù)能夠提高檢索結(jié)果的準(zhǔn)確性,但往往不能保證信息的完整性和較高的查全率;
(2)領(lǐng)域本體知識(shí)庫(kù)的構(gòu)建依賴專家知識(shí)以及大量手工標(biāo)注精力,且存在自動(dòng)構(gòu)建、內(nèi)容更新、領(lǐng)域遷移等困難。
因此,如何設(shè)計(jì)一種新的語(yǔ)義識(shí)別方案,以提高語(yǔ)義識(shí)別的準(zhǔn)確性成為亟待解決的技術(shù)問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明正是基于上述技術(shù)問(wèn)題至少之一,提出了一種新的語(yǔ)義識(shí)別方案,通過(guò)確定關(guān)鍵詞的多個(gè)參考詞匯,并結(jié)合關(guān)鍵詞的局部文本確定參考詞匯的第一概率,局部文本和參考詞匯的第一概率反映了關(guān)鍵詞的使用語(yǔ)境,也即結(jié)合語(yǔ)境對(duì)關(guān)鍵詞進(jìn)行識(shí)別,提高了語(yǔ)義識(shí)別的準(zhǔn)確性,另外,通過(guò)進(jìn)一步地結(jié)合關(guān)鍵詞所屬的全局文本,克服了局部文本的局限性,進(jìn)一步地提高了語(yǔ)義識(shí)別的可靠性。
有鑒于此,本發(fā)明提出了一種語(yǔ)義識(shí)別方法,包括:確定與關(guān)鍵詞相關(guān)的多個(gè)參考詞匯,以及與關(guān)鍵詞相鄰的局部文本;計(jì)算參考詞匯屬于局部文本的概率,并記作第一概率;在檢測(cè)到第一參考詞匯的第一概率大于或等于預(yù)設(shè)概率時(shí),確定第一參考詞匯相關(guān)的語(yǔ)義作為關(guān)鍵詞的語(yǔ)義,其中,第一參考詞匯屬于多種參考詞匯。
在該技術(shù)方案中,通過(guò)確定關(guān)鍵詞的多個(gè)參考詞匯,并結(jié)合關(guān)鍵詞的局部文本確定參考詞匯的第一概率(可以為最大值或?qū)儆陬A(yù)設(shè)閾值范圍的概率值),局部文本和參考詞匯的第一概率反映了關(guān)鍵詞的使用語(yǔ)境,也即結(jié)合語(yǔ)境對(duì)關(guān)鍵詞進(jìn)行識(shí)別,提高了語(yǔ)義識(shí)別的準(zhǔn)確性,另外,通過(guò)進(jìn)一步地結(jié)合關(guān)鍵詞所屬的全局文本,克服了局部文本的局限性,進(jìn)一步地提高了語(yǔ)義識(shí)別的可靠性。
其中,關(guān)鍵詞相鄰的局部文本可以集中體現(xiàn)語(yǔ)境,而參考詞匯緊密地關(guān)聯(lián)于關(guān)鍵詞的詞義,例如,關(guān)鍵詞為“蘋果”,一類參考詞匯是“手機(jī)”、“庫(kù)克”、“Ipad”、“Iphone”和“一體機(jī)”等,另一類參考詞匯是“果實(shí)”、“單價(jià)”、“樹葉”、“種植”和“產(chǎn)量”等。在確定“蘋果”相鄰的局部文本后,計(jì)算每一類參考詞匯屬于局部文本的概率(即第一概率),例如,局部文本包括100個(gè)詞匯,僅“手機(jī)”在局部文本中出現(xiàn)20次,根據(jù)統(tǒng)計(jì)概率第一概率為20%,如預(yù)設(shè)概率為10%,則認(rèn)定“蘋果”屬于手機(jī)領(lǐng)域的語(yǔ)義。
值得特別指出的是,預(yù)設(shè)概率可以有技術(shù)人員進(jìn)行修正,以保證局部語(yǔ)義識(shí)別的效率和準(zhǔn)確率。
在上述技術(shù)方案中,優(yōu)選地,還包括:在檢測(cè)到全部參考詞匯的第一概率小于預(yù)設(shè)概率時(shí),確定關(guān)鍵詞所屬的全局文本;計(jì)算參考詞匯屬于全局文本的概率,并記作第二概率;確定第二概率最大的參考詞匯作為第二參考詞匯,并確定第二參考詞匯相關(guān)的語(yǔ)義作為關(guān)鍵詞的語(yǔ)義,其中,第二參考詞匯屬于多種參考詞匯。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué);北大方正集團(tuán)有限公司;北京北大方正電子有限公司,未經(jīng)北京大學(xué);北大方正集團(tuán)有限公司;北京北大方正電子有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610228402.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 面向語(yǔ)義Web服務(wù)程序設(shè)計(jì)的語(yǔ)義數(shù)據(jù)表示和處理方法
- 一種基于語(yǔ)義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語(yǔ)義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語(yǔ)義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語(yǔ)義匹配方法和系統(tǒng)
- 遠(yuǎn)程語(yǔ)義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語(yǔ)義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語(yǔ)義表征和語(yǔ)義計(jì)算的信號(hào)語(yǔ)義識(shí)別方法
- 語(yǔ)義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





