[發明專利]一種數據處理方法及服務器有效
| 申請號: | 201811147486.6 | 申請日: | 2018-09-29 |
| 公開(公告)號: | CN109408811B | 公開(公告)日: | 2021-10-22 |
| 發明(設計)人: | 金繼民;金寶寶;楊帆;張成松 | 申請(專利權)人: | 聯想(北京)有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F16/332;G06F16/36 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 服務器 | ||
本申請公開的一種數據處理方法及服務器,在獲得問題語句后,基于問題語句的句子成分確定問題語句所屬的問句類別,并在問題語句屬于預定問句類別的情況下,對問題語句進行依存句法分析,得到問題語句的各組成元素間的依存信息,進而基于問題語句的各組成元素間的依存信息以及所述問題語句的句子成分,對問題語句進行結構化解析,得到問題語句的結構化信息。通過利用問題語句的各組成元素間的依存信息以及問題語句的句子成分,對問題語句進行結構化解析,可達到較好的解析效果,進而可基于解析結果準確地識別用戶問句意圖。
技術領域
本發明屬于基于大數據的數據處理技術領域,尤其涉及一種數據處理方法及服務器。
背景技術
智能問答系統是在大規模知識處理基礎上發展起來的一種面向行業應用的自動服務系統,其為企業與海量用戶之間的溝通建立了一種基于自然語言處理的快捷有效的溝通途徑。
知識圖譜問答系統,即為基于知識圖譜的智能問答系統,目前,知識圖譜問答系統采用的問句解析方法主要分為三類:語義解析法、信息抽取法和向量建模法。但是,這些方法處理復雜的中文問句的效果并不理想,對問句的解析效果較差,相應地會影響系統對用戶問句意圖的準確識別,進而降低了問答系統的服務質量。
發明內容
有鑒于此,本發明的目的在于提供一種數據處理方法及服務器,以能夠達到較好的問句句子解析效果,進而準確地識別用戶問句意圖。
為此,本發明公開如下技術方案:
一種數據處理方法,包括:
獲得問題語句;
確定所述問題語句的句子成分;
基于所述問題語句的句子成分確定所述問題語句所屬的問句類別;
若所述問句類別屬于預定問句類別,則對所述問題語句進行依存句法分析,得到所述問題語句的各組成元素間的依存信息;并基于所述問題語句的各組成元素間的依存信息以及所述問題語句的句子成分,對所述問題語句進行結構化解析,得到所述問題語句的結構化信息。
上述方法,優選的,所述確定所述問題語句的句子成分,包括:
確定所述問題語句的各組成元素中的實體及實體類別。
上述方法,優選的,所述確定所述問題語句的句子成分,還包括:確定所述問題語句的各組成元素中的屬性及疑問詞,所述屬性包括實體屬性和/或實體類別屬性;
所述確定所述問題語句的各組成元素中的實體、實體類別、屬性及疑問詞,具體包括:
利用預定的實體識別方法,識別所述問題語句的各組成元素中的實體;
利用預定的疑問詞識別方法,識別所述問題語句的各組成元素中的疑問詞;
將所述問題語句中未被識別的各組成元素分別與預定的實體類別庫、屬性庫進行匹配,得到所述問題語句的各組成元素中的實體類別及屬性;所述實體類別庫及所述屬性庫為分別預先對知識圖譜進行相對應的實體類別信息抽取以及實體屬性和/或實體類別屬性信息抽取后所得的信息庫;所述知識圖譜為一預先基于多個語句樣本所構建的包括多個節點的有向圖,圖中的每個節點對應一個實體或實體類別,每個實體對應零個或以上的實體屬性、每個實體類別對應零個或以上的實體類別屬性,任意兩個節點之間的有向邊用于表示邊所連接的兩個節點之間的關系。
上述方法,優選的,所述問題語句所屬的問句類別為簡單關系型問題、簡單屬性型問題及復雜關系屬性型問題中的任意一種,其中:
所述簡單關系型問題中僅包括一條關系線;
所述簡單屬性型問題中不包括關系線,只對實體或實體類別的屬性進行提問;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于聯想(北京)有限公司,未經聯想(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811147486.6/2.html,轉載請聲明來源鉆瓜專利網。





