[發明專利]一種基于多種中文知識資源的中文詞語語義關系識別方法和裝置有效
| 申請號: | 201710707420.7 | 申請日: | 2017-08-17 |
| 公開(公告)號: | CN107451123B | 公開(公告)日: | 2022-04-15 |
| 發明(設計)人: | 鹿文鵬;孟凡擎;杜月寒 | 申請(專利權)人: | 齊魯工業大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 250353 山東省濟南*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多種 中文 知識 資源 詞語 語義 關系 識別 方法 裝置 | ||
本發明公開了一種基于多種中文知識資源的中文詞語語義關系識別方法和裝置。方法包括:結合多種中文知識資源獲取反義詞集合,根據反義詞集合判定詞語間語義關系是否具有反義關系;使用多種中文知識資源提取部分詞集合,根據部分詞集合判定詞語間是否具有整體部分關系;利用多種中文知識資源提取同義詞集合,基于同義詞集合判定詞語間是否具有同義關系;借助于多種中文知識資源提取下位詞集合,根據下位詞集合判定詞語間是否具有上下位關系。利用本發明,可以充分發揮多種中文知識資源的作用,更準確有效地識別中文詞語語義關系。
技術領域
本發明涉及自然語言處理技術領域,具體涉及一種基于多種中文知識資源的中文詞語語義關系識別方法和裝置。
背景技術
語義關系識別是指給定詞語對自動判定詞語間所具有的語義關系。典型的語義關系包括:反義關系、整體部分關系、同義關系、上下位關系等。語義關系識別是自然語言處理領域的基礎性任務,對詞義消歧、知識本體構建、機器翻譯、信息檢索、文本分類等具有直接影響。
當前大多數語義關系識別研究工作主要針對英文,通常基于一種或多種知識資源,利用支持向量機、貝葉斯分類器等統計學習的方法完成英文語義關系的分類或識別任務,取得了較好的效果。在中文語義關系識別方面的研究工作相對較少,多數相關工作通常采用某一種知識資源,借助于統計學習方法來進行語義關系的識別。現有的研究工作只采用某一種知識資源,而忽略了對其它語言知識資源的挖掘利用;統計學習方法難免受到標注語料的規模的制約,準確率也難以保證。隨著各類語言知識資源的建設和完善,這些資源互為補充,為語義關系的識別提供了更可靠的知識。
面對中文詞語語義關系識別所存在的以上技術問題,本發明專利充分挖掘多種知識資源的內在語義關系,實現一種基于多種中文知識資源的中文詞語語義關系識別方法和裝置,力求能夠在一定程度上推動這些問題的解決。
發明內容
為解決現有技術存在的不足,本發明公開了一種基于多種中文知識資源的中文詞語語義關系識別方法和裝置,以更準確有效地判定中文詞語間的語義關系。
為此,本發明提供如下技術方案:
一種基于多種中文知識資源的中文詞語語義關系識別方法,包括以下步驟:
步驟一、結合多種中文知識資源獲取反義詞集合,根據反義詞集合判定詞語間語義關系是否具有反義關系;
步驟二、使用多種中文知識資源提取部分詞集合,根據部分詞集合判定詞語間是否具有整體部分關系;
步驟三、利用多種中文知識資源提取同義詞集合,基于同義詞集合判定詞語間是否具有同義關系;
步驟四、借助于多種中文知識資源提取下位詞集合,根據下位詞集合判定詞語間是否具有上下位關系;
進一步的,所述步驟一中,在判定反義語義關系時,具體為:
步驟1-1)利用HowNet中顯式定義的反義關系,對給定詞語A和B進行詞語A的反義詞集合ASETA提取操作,如果B∈ASETA,那么兩詞語存在反義關系,否則轉步驟1-2),另外HowNet中定義的對義關系也作為一種反義關系處理;
步驟1-2)使用百度漢語提取給定詞語A的反義詞集合ASETA,利用哈工大同義詞詞林擴展版提取詞語A的同義詞集合SSETA,對于每個詞語W∈SSETA提取其反義詞并合并到ASETA,如果詞語B∈ASETA,則詞語A和B存在反義關系,否則轉步驟1-3);
步驟1-3)使用百度百科提取詞語A的反義詞集合ASETA,如果詞語B∈ASETA,則兩詞語存在反義關系,否則轉步驟2-1)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于齊魯工業大學,未經齊魯工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710707420.7/2.html,轉載請聲明來源鉆瓜專利網。





