[發(fā)明專利]中文語義關(guān)系的識別方法及裝置有效
| 申請?zhí)枺?/td> | 201710980063.1 | 申請日: | 2017-10-19 |
| 公開(公告)號: | CN107832290B | 公開(公告)日: | 2020-02-28 |
| 發(fā)明(設(shè)計)人: | 李長亮;馬騰;程健 | 申請(專利權(quán))人: | 中國科學(xué)院自動化研究所 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/279;G06F40/242 |
| 代理公司: | 北京瀚仁知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11482 | 代理人: | 郭文浩;王世超 |
| 地址: | 100080 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 中文 語義 關(guān)系 識別 方法 裝置 | ||
本發(fā)明涉及自然語言處理領(lǐng)域,具體涉及一種中文語義關(guān)系的識別方法及裝置,旨在解決中文語義關(guān)系識別準(zhǔn)確率低的問題。為此目的,本發(fā)明中的中文語義關(guān)系識別方法,包括下述步驟:步驟1,判斷預(yù)設(shè)的語義詞典中是否包含待檢測中文詞語詞對:若是則依據(jù)所述預(yù)設(shè)的語義詞典確定所述待檢測中文詞語詞對的語義關(guān)系,若否則進行步驟2;步驟2,利用所述待檢測中文詞語詞對的詞向量,獲取其第一語義關(guān)系;步驟3,利用所述待檢測中文詞語詞對的詞語結(jié)構(gòu)特征,獲取其第二語義關(guān)系,并根據(jù)所述第二語義關(guān)系調(diào)整所述第一語義關(guān)系,得到最終的語義關(guān)系。通過本發(fā)明可以從多個維度考量詞語,高效、快速、準(zhǔn)確地識別中文詞語語義關(guān)系。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言技術(shù)領(lǐng)域,具體涉及一種中文語義關(guān)系的識別方法和裝置。
背景技術(shù)
隨著大數(shù)據(jù)時代的發(fā)展以及深度學(xué)習(xí)方面的技術(shù)突破,自然語言處理(NaturalLanguage Processing,NLP)逐步變成了計算機應(yīng)用與人工智能研究領(lǐng)域的熱點,而語義關(guān)系的自動識別又是自然語言處理領(lǐng)域的巨大的挑戰(zhàn)。在進行詞匯學(xué)習(xí)時,需要將具有不同語義關(guān)系的詞區(qū)分開。
語義關(guān)系識別技術(shù)主要包括基于語義詞典的語義識別方法和基于詞向量的語義識別方法。其中,基于語義詞典的語義識別方法,如同義詞詞林和知網(wǎng)HowNet等,具有分類明確和分類過程較快的優(yōu)點,但是該方法依賴語義詞典的構(gòu)建,耗費大量人力、物力以及財力且有后期更新困難,更無法處理語義詞典之外的詞匯。
基于詞向量的語義識別方法通過自然語言模型將詞匯語義轉(zhuǎn)化成詞向量,進而通過詞向量之間的計算,或者基于詞向量建立模型識別中文語義關(guān)系,該方法雖然無需構(gòu)建語義詞典但是識別精度有限,僅能在一定程度上識別中文詞語的語義關(guān)系。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中的上述問題,即為了解決中文語義關(guān)系識別精準(zhǔn)度低的技術(shù)問題,本發(fā)明提供了一種中文語義關(guān)系的識別方法及裝置。
在第一方面,本發(fā)明中的中文語義關(guān)系的識別方法,包括:
步驟1,判斷預(yù)設(shè)的語義詞典中是否包含待檢測中文詞語詞對:若是則依據(jù)所述預(yù)設(shè)的語義詞典確定所述待檢測中文詞語詞對的語義關(guān)系,若否則進行步驟2;
步驟2,利用所述待檢測中文詞語詞對的詞向量,獲取其第一語義關(guān)系;
步驟3,利用所述待檢測中文詞語詞對的詞語結(jié)構(gòu)特征,獲取其第二語義關(guān)系,并根據(jù)所述第二語義關(guān)系調(diào)整所述第一語義關(guān)系,得到最終的語義關(guān)系。
優(yōu)選地,“利用所述待檢測中文詞語詞對的詞向量,獲取其第一語義關(guān)系”的步驟具體包括:
根據(jù)預(yù)設(shè)詞向量字典獲取待檢測中文詞語詞對的詞向量;
提取所述詞向量的特征,并依據(jù)所述詞向量的特征和所述待檢測中文詞語詞對的詞性信息構(gòu)建組合向量;
利用預(yù)設(shè)softmax分類模型獲取所述組合向量對應(yīng)的各預(yù)設(shè)語義關(guān)系的概率,并將概率值最大的語義關(guān)系作為所述待檢測中文詞語詞對的第一語義關(guān)系。
優(yōu)選地,“提取所述詞向量的特征,并依據(jù)所述詞向量的特征和所述待檢測中文詞語詞對的詞性信息構(gòu)建組合向量”的步驟具體包括:
計算所述待檢測中文詞語詞對對應(yīng)的詞向量的相似度;
計算所述待檢測中文詞語詞對對應(yīng)的詞向量的差向量;
獲取待檢測中文詞語的詞性,并對所述詞性進行編碼得到對應(yīng)的詞性信息;
融合所述詞向量的相似度、差向量以及所述待檢測中文詞語詞對的詞性信息,構(gòu)成組合向量。
優(yōu)選地,“根據(jù)所述第二語義關(guān)系調(diào)整所述第一語義關(guān)系,得到最終的語義關(guān)系”的步驟具體包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院自動化研究所,未經(jīng)中國科學(xué)院自動化研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710980063.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





