[發明專利]一種利用語義依存分析的中文問句語義理解方法在審
| 申請號: | 202011584513.3 | 申請日: | 2020-12-28 |
| 公開(公告)號: | CN112733547A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 于鴻飛;史玉娟;阮志成 | 申請(專利權)人: | 北京計算機技術及應用研究所 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/211;G06N3/04;G06N3/08 |
| 代理公司: | 中國兵器工業集團公司專利中心 11011 | 代理人: | 張然 |
| 地址: | 100854*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利用 語義 依存 分析 中文 問句 理解 方法 | ||
本發明涉及一種利用語義依存分析的中文問句語義理解方法,其中,包括:步驟1.收集并整理應用領域問句數據集;步驟2.對于得到的問句數據集進行預處理;步驟3.構建基于BiLSTM的語義依存分析模型;步驟4.構建語義依存結構解析規則;步驟5.將步驟4轉換得到的查詢三元組列表映射為SPARQL語句中基本圖模式,形成三元組模式關系。本發明方法通過語義依存分析技術,結合中文分詞技術,能夠為用戶提供高效語義理解的新方式,在特定應用領域的智能問答、搜索推薦等系統中將發揮重要作用。
技術領域
本發明涉及計算機語義分析技術,特別涉及一種利用語義依存分析的信息中文問句語義理解方法。
背景技術
句子的語義理解是自然語言處理技術的重要研究方向,在智能問答等領域得到了廣泛的應用。由于中文語言具有的復雜性,問句理解方面面臨的難度較大、進展緩慢。目前,智能問答中問句的語義理解方法主要包括模板法、關鍵詞法、依存句法分析、語義角色標注等。
模板法將用戶輸入的問句通過分類器進行歸類,如果能被分到這些類中,就能根據每個類對應的模板進行正確的轉換處理,但是容易受到模板數量的限制,不能處理無法識別的問題。關鍵詞法通過抽取問句關鍵詞,將問句映射到對應的三元組模板中,只能實現對簡單關鍵詞進行正確解釋,當出現多個關鍵詞會產生過多的組合需要使用大量的模板。中文句法依存分析能夠實現對輸入語句句法結構和關系的完整解析,但由于中文處理比英文復雜,存在句法限制少等問題,無法準確標明具體的時態、被動語態以及介詞無強烈的語義指示表達作用等。因此,僅僅通過句法依存分析無法完整的表達中文句子的語義信息。語義角色標注針對論元語義角色層面,存在無法涵蓋整個論元內部語義關系的缺點。
因此,在中文問句語義理解中,迫切需要一種從能夠擺脫問句表層句法結構的約束,可以從深層次的語義角度快速理解分析用戶提出的需求問句信息的方法。
發明內容
本發明的目的在于提供一種利用語義依存分析的中文問句語義理解方法,用于解決上述現有技術的問題。
本發明一種利用語義依存分析的中文問句語義理解方法,其中,包括:步驟1.收集并整理應用領域問句數據集;步驟2.對于得到的問句數據集進行預處理,根據BERT模型,采用序列標注的方式對預處理后的數據集通過訓練構建中文分詞模型,在該中文分詞模型中融入領域文本提取的專業詞語特征和姓名特征;步驟3.構建基于BiLSTM的語義依存分析模型,將步驟1得到的問句數據集以BiLSTM進行依賴關系解析得到特征表示,同時融入大規模領域文本提取的BERT嵌入向量特征和詞語依存關系詞典特征,然后結合Eisner解碼算法構建語義依存分析模型,從步驟2得到的問句切分結果中解析獲取最優的語義依存結構;步驟4.構建語義依存結構解析規則,通過對步驟1整理的問句數據集,挖掘語句的語義依存關系以及結合資源描述框架查詢語言的語句語法特點,構建通過解析語義依存結構得到查詢三元組的基本規則,用于將步驟3的依存模型解析問句得到的語義依存結構轉換為查詢三元組列表;步驟5.將步驟4轉換得到的查詢三元組列表映射為SPARQL語句中基本圖模式,形成三元組模式關系。
根據本發明的一種利用語義依存分析的中文問句語義理解方法的一實施例,其中,步驟1具體包括:收集整理應用領域的常見問句數據集,通過標注以及一致性校驗操作進行處理,得到能夠用于訓練測試的問句數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京計算機技術及應用研究所,未經北京計算機技術及應用研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011584513.3/2.html,轉載請聲明來源鉆瓜專利網。





