[發(fā)明專利]一種語義理解方法及裝置有效
| 申請?zhí)枺?/td> | 201610602149.6 | 申請日: | 2016-07-27 |
| 公開(公告)號: | CN107665188B | 公開(公告)日: | 2021-01-29 |
| 發(fā)明(設(shè)計)人: | 梅林海;陳志剛;潘青華 | 申請(專利權(quán))人: | 科大訊飛股份有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30 |
| 代理公司: | 北京弘權(quán)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 230088 安徽省合肥市*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語義 理解 方法 裝置 | ||
本發(fā)明提供了一種語義理解方法及裝置,其中方法包括:獲取待處理文本數(shù)據(jù);對所述文本數(shù)據(jù)進(jìn)行知識點標(biāo)注,以生成多條語義理解候選路徑;提取每條語義理解候選路徑的路徑特征;根據(jù)所述路徑特征對所述多條語義理解候選路徑進(jìn)行過濾,以得到一條或多條語義理解路徑;根據(jù)過濾后得到的一條或多條語義理解路徑對所述文本數(shù)據(jù)進(jìn)行語義理解,以得到所述文本數(shù)據(jù)的語義理解結(jié)果。本發(fā)明提出了語義理解“候選路徑”的概念,在生成最后的語義理解之前,先通過知識點標(biāo)注得到眾多候選路徑,然后提取每條候選路徑的路徑特征,再根據(jù)路徑特征對眾多候選路徑進(jìn)行過濾,從而大大減少了最后進(jìn)行語義理解時所面對的路徑的數(shù)量,進(jìn)而提高了語義理解的效率。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言理解領(lǐng)域,尤其涉及一種語義理解方法及裝置。
背景技術(shù)
隨著信息技術(shù)的迅速發(fā)展,人們面對的各種文本信息成爆炸式增長,如何快速有效的分析出文本信息所包含的意思(也即語義),成為一種迫切的需求,尤其是對于人機(jī)交互的場景。在人機(jī)交互的場景下,理解語義是做出正確應(yīng)答的基礎(chǔ),所以如何能夠快速分析出語義是需要重點關(guān)注的研究方向。
舉例來講,人機(jī)交互可以是用戶與智能家居或智能穿戴設(shè)備等智能終端的交互,例如用戶與智能終端交互時,說出“我想聽鄧麗君的歌曲”,智能終端通過語音識別技術(shù)將用戶語音數(shù)據(jù)識別為文本數(shù)據(jù)后,需要快速對該文本數(shù)據(jù)進(jìn)行語義理解,然后才能做出正確的響應(yīng)。
當(dāng)對一句話進(jìn)行語義理解時,通常會得到多種可能的語義理解(也即一句話可能會被理解為多種意思),故需要從中進(jìn)一步找到最優(yōu)的語義理解作為最終結(jié)果。然而發(fā)明人在實現(xiàn)本發(fā)明的過程中發(fā)現(xiàn),隨著語義理解技術(shù)的發(fā)展,對文本的解析越來越細(xì)致,這就導(dǎo)致得到的語義理解的數(shù)量呈指數(shù)級增長,而這些眾多的語義理解中往往會包含較多不相關(guān)甚至是無意義的語義理解,換句話說,數(shù)量眾多的語義理解中存在較多冗余,使得很難從中快速找到最優(yōu)的語義理解,從而大大影響了語義理解時的速度和效率。
發(fā)明內(nèi)容
本發(fā)明提供一種語義理解方法及裝置,以提高語義理解時的效率。
根據(jù)本發(fā)明實施例的第一方面,提供一種語義理解方法,所述方法包括:
獲取待處理文本數(shù)據(jù);
對所述文本數(shù)據(jù)進(jìn)行知識點標(biāo)注,以生成多條語義理解候選路徑;
提取每條語義理解候選路徑的路徑特征;
根據(jù)所述路徑特征對所述多條語義理解候選路徑進(jìn)行過濾,以得到一條或多條語義理解路徑;
根據(jù)過濾后得到的一條或多條語義理解路徑對所述文本數(shù)據(jù)進(jìn)行語義理解,以得到所述文本數(shù)據(jù)的語義理解結(jié)果。
可選的,對所述文本數(shù)據(jù)進(jìn)行知識點標(biāo)注,以生成多條語義理解候選路徑,包括:
對所述文本數(shù)據(jù)進(jìn)行分詞;
根據(jù)分詞后得到的詞語和預(yù)設(shè)的知識庫對所述文本數(shù)據(jù)進(jìn)行知識點標(biāo)注,其中所述知識庫中存儲有多個由屬性及屬性值組成的屬性-屬性值對,每個所述知識點以屬性-詞語-屬性值的形式表示,所述分詞后得到的詞語為分詞后得到的詞或詞組;
使用標(biāo)注得到的知識點中的屬性替換所述文本數(shù)據(jù)中相應(yīng)的詞語,以生成多條語義理解候選路徑。
可選的,根據(jù)分詞后得到的詞語和預(yù)設(shè)的知識庫對所述文本數(shù)據(jù)進(jìn)行知識點標(biāo)注,包括:
計算當(dāng)前詞語與所述知識庫中每個屬性對應(yīng)的屬性值之間的距離,并將所述距離作為匹配得分;
當(dāng)所述匹配得分小于第一預(yù)設(shè)閾值時,則判斷為匹配成功,并生成一個知識點,其中所生成的知識點中的詞語為當(dāng)前詞語,所生成的知識點中的屬性和屬性值分別為匹配成功的屬性和屬性值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于科大訊飛股份有限公司,未經(jīng)科大訊飛股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610602149.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





