[發明專利]一種利用語義依存分析的中文問句語義理解方法在審

申請號：	202011584513.3	申請日：	2020-12-28
公開（公告）號：	CN112733547A	公開（公告）日：	2021-04-30
發明（設計）人：	于鴻飛;史玉娟;阮志成	申請（專利權）人：	北京計算機技術及應用研究所
主分類號：	G06F40/30	分類號：	G06F40/30;G06F40/211;G06N3/04;G06N3/08
代理公司：	中國兵器工業集團公司專利中心 11011	代理人：	張然
地址：	100854***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種利用語義依存分析中文問句理解方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種利用語義依存分析的中文問句語義理解方法，其特征在于，包括：

步驟1.收集并整理應用領域問句數據集；

步驟2.對于得到的問句數據集進行預處理，根據BERT模型，采用序列標注的方式對預處理后的數據集通過訓練構建中文分詞模型，在該中文分詞模型中融入領域文本提取的專業詞語特征和姓名特征；

步驟3.構建基于BiLSTM的語義依存分析模型，將步驟1得到的問句數據集以BiLSTM進行依賴關系解析得到特征表示，同時融入大規模領域文本提取的BERT嵌入向量特征和詞語依存關系詞典特征，然后結合Eisner解碼算法構建語義依存分析模型，從步驟2得到的問句切分結果中解析獲取最優的語義依存結構；

步驟4.構建語義依存結構解析規則，通過對步驟1整理的問句數據集，挖掘語句的語義依存關系以及結合資源描述框架查詢語言的語句語法特點，構建通過解析語義依存結構得到查詢三元組的基本規則，用于將步驟3的依存模型解析問句得到的語義依存結構轉換為查詢三元組列表；

步驟5.將步驟4轉換得到的查詢三元組列表映射為SPARQL語句中基本圖模式，形成三元組模式關系。

2.如權利要求1所述的一種利用語義依存分析的中文問句語義理解方法，其特征在于，步驟1具體包括：收集整理應用領域的常見問句數據集，通過標注以及一致性校驗操作進行處理，得到能夠用于訓練測試的問句數據集。

3.如權利要求1所述的一種利用語義依存分析的中文問句語義理解方法，其特征在于，步驟2包括：對步驟1得到的問句數據集進行預處理，將問句數據集通過4-tags標注法轉為基于字標注的訓練集，再通過序列切分將過長的句子進行分割，不夠長度的句子通過添加0進行補足，然后對預處理過的數據進行數據結構轉換，使用標記模塊進行標記化過后得到新的樣本數據結構，其中包含4部分，分別是input_ids、input_mask、segment_ids以及label_ids，input_ids為問句中每個字在詞頻詞典的索引，input_mask為樣本中有效詞句的標識，有效的為1，補充的為0，segment_ids為區分句子的標識，第一個句子為0，第二個句子為1，label_ids是標簽在自定義標簽列表中對應的索引；

最后在輸出向量中融入領域專業詞語特征和姓名特征，再添加分類層對標簽進行預測評分。

4.如權利要求1所述的一種利用語義依存分析的中文問句語義理解方法，其特征在于，步驟3具體包括：

給定已經完成中文分詞和詞性標注的語句；

通過對步驟1得到的問句數據集預處理，創建詞頻詞典以及詞性詞典，對分詞和詞性結果進行向量表示，并利用構建的BERT模型對文本數據進行訓練得到包含豐富語義信息的BERT嵌入向量，將詞語向量和詞性向量以及BERT嵌入向量進行拼接輸入到第一層LSTM模型中，將第一層的LSTM模型輸出的雙向向量進行拼接后輸入到第二層LSTM模型中；

使用Eisner解碼算法，同時融入領域文本中提取的詞語依存特征，以獲取最優得語義依存結構。

5.如權利要求1所述的一種利用語義依存分析的中文問句語義理解方法，其特征在于，通過解析語義依存結構得到查詢三元組的5條基本規則，包括解析主謂賓結構、解析描述修飾組合關系、解析并列連接關系以及處理語義依附標記，用于將步驟3解析問句得到的語義依存結構轉換為相應的查詢三元組形式。

6.如權利要求1所述的一種利用語義依存分析的中文問句語義理解方法，其特征在于，制定將步驟4得到的查詢三元組列表映射為SPARQL語句中基本圖模式的策略集，策略集包括：

如果三元組中主語或者賓語是疑問詞，那么用變量替換掉疑問詞作為目標詞，并且將變量存入查詢變量詞典中，如果三元組中主語和謂語均為名詞性，那么在查詢中建立三元組描述兩個名詞的查詢關系，同時用被修飾的名詞描述關系，使用變量當作賓語作為查詢目標詞，并且將變量存入查詢變量詞典中；如果三元組中謂語是動詞性節點，在主語與賓語之間建立查詢三元組，并根據謂語實際意義情況進行位置轉換，并且將變量存入查詢變量詞典中；如果三元組中主語是動詞，并且為前一個三元組的謂語部分或者三元組的賓語為動詞，是后一個三元組的謂語部分，那么拆分原來的查詢三元組重新合并生成新的三元組。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京計算機技術及應用研究所，未經北京計算機技術及應用研究所許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011584513.3/1.html，轉載請聲明來源鉆瓜專利網。