[發明專利]基于半監督學習的語義分析方法及系統有效
| 申請號: | 201810054918.2 | 申請日: | 2018-01-19 |
| 公開(公告)號: | CN108280063B | 公開(公告)日: | 2021-04-20 |
| 發明(設計)人: | 陳波;孫樂;韓先培 | 申請(專利權)人: | 中國科學院軟件研究所 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/247;G06F16/33;G06F16/36 |
| 代理公司: | 北京匯澤知識產權代理有限公司 11228 | 代理人: | 張瑾 |
| 地址: | 100029 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 監督 學習 語義 分析 方法 系統 | ||
本發明提供一種基于半監督學習的語義分析方法及系統。所述方法包括:利用實體對共現構建原始詞匯;對所述原始詞匯進行打分,得到種子詞匯;計算種子詞匯中的詞語與實驗語料中的詞語之間的語義相似度;根據所述種子詞匯及詞語之間的語義相似度構建新的詞典;根據所述新的詞典進行語義分析。本發明能夠學習擴展出覆蓋度更高的詞典,提高語義分析的準確度。
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種基于半監督學習的語義分析方法及系統。
背景技術
近年來,構建智能信息服務成為工業界和學術界共同的熱點,如聊天機器人,問答機器人,高考機器人,助理機器人等等。而實現上述目標,終歸需要機器人能夠理解人類的語言,包括人類提出的問題,人類做出的命令等等,這就是自然語言理解。而語義分析正是完成自然語言理解的核心技術。
語義分析把自然語言句子解析成機器可執行的形式化表示(如邏輯表達式)。語義分析的能力往往決定于它的詞匯的覆蓋度和質量,詞匯包括詞語和謂詞,由于自然語言表達的多樣性,一個意思通常可以有多種表達,通常會有多個詞語都可以同時表達這個謂詞所代表的意思,尤其在不同領域,很容易形成詞語到本體中的謂詞之間不匹配的情況。這就使得一般的語義分析器的詞匯往往覆蓋度不夠,沒有足夠的詞匯量,無法保證語義分析的準確度。
發明內容
本發明提供的基于半監督學習的語義分析方法及系統,能夠學習擴展出覆蓋度更高的詞典,提高語義分析的準確度。
第一方面,本發明提供一種基于半監督學習的語義分析方法,所述方法包括:
利用實體對共現構建原始詞匯;
對所述原始詞匯進行打分,得到種子詞匯;
計算種子詞匯中的詞語與實驗語料中的詞語之間的語義相似度;
根據所述種子詞匯及詞語之間的語義相似度構建新的詞典;
根據所述新的詞典進行語義分析。
可選地,所述對所述原始詞匯進行打分,得到種子詞匯包括:
對所述原始詞匯進行語料訓練;
根據訓練結果對所述原始詞匯進行加分或減分;
選取分數高的原始詞匯作為種子詞匯。
可選地,所述計算種子詞匯中的詞語與實驗語料中的詞語之間的語義相似度包括:
根據釋義語料庫中的復述語料計算詞語間語義相似度的分數;
根據復述表中的復述對語料計算詞語間對齊的分數;
根據詞語的向量使用余弦相似度計算詞語間的向量語義相似度的分數;
使用加權打分得到詞語間最終的語義相似度。
可選地,所述根據所述種子詞匯及詞語之間的語義相似度構建新的詞典包括:以種子詞匯為標記節點,按照詞語之間的語義相似度進行標簽傳播,得到新的詞典。
第二方面,本發明提供一種基于半監督學習的語義分析系統,所述系統包括:
第一構建單元,用于利用實體對共現構建原始詞匯;
獲取單元,用于對所述原始詞匯進行打分,得到種子詞匯;
計算單元,用于計算種子詞匯中的詞語與實驗語料中的詞語之間的語義相似度;
第二構建單元,用于根據所述種子詞匯及詞語之間的語義相似度構建新的詞典;
分析單元,用于根據所述新的詞典進行語義分析。
可選地,所述獲取單元包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院軟件研究所,未經中國科學院軟件研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810054918.2/2.html,轉載請聲明來源鉆瓜專利網。





