[發明專利]一種數據處理方法及服務器有效
| 申請號: | 201811147486.6 | 申請日: | 2018-09-29 |
| 公開(公告)號: | CN109408811B | 公開(公告)日: | 2021-10-22 |
| 發明(設計)人: | 金繼民;金寶寶;楊帆;張成松 | 申請(專利權)人: | 聯想(北京)有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F16/332;G06F16/36 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 服務器 | ||
1.一種數據處理方法,其特征在于,包括:
獲得問題語句;
確定所述問題語句的句子成分;
基于所述問題語句的句子成分確定所述問題語句所屬的問句類別;
若所述問句類別屬于預定問句類別,則對所述問題語句進行依存句法分析,得到所述問題語句的各組成元素間的依存信息;并基于所述問題語句的各組成元素間的依存信息以及所述問題語句的句子成分,對所述問題語句進行結構化解析,得到所述問題語句的結構化信息;
所述問題語句所屬的問句類別為簡單關系型問題、簡單屬性型問題及復雜關系屬性型問題中的任意一種;所述簡單關系型問題中僅包括一條關系線;所述簡單屬性型問題中不包括關系線,只對實體或實體類別的屬性進行提問;所述復雜關系屬性型問題中包括不少于兩條的關系線,或者包括不少于一條的關系線及實體屬性;
其中,所述關系線,是指在利用一個謂詞將一個實體/實體類別與另一個實體/實體類別進行銜接,使得兩個實體/實體類別間產生謂詞關系后所得的兩個實體/實體類別與謂詞間的對應關系。
2.根據權利要求1所述的方法,其特征在于,所述確定所述問題語句的句子成分,包括:
確定所述問題語句的各組成元素中的實體及實體類別。
3.根據權利要求2所述的方法,其特征在于,所述確定所述問題語句的句子成分,還包括:確定所述問題語句的各組成元素中的屬性及疑問詞,所述屬性包括實體屬性和/或實體類別屬性;
所述確定所述問題語句的各組成元素中的實體、實體類別、屬性及疑問詞,具體包括:
利用預定的實體識別方法,識別所述問題語句的各組成元素中的實體;
利用預定的疑問詞識別方法,識別所述問題語句的各組成元素中的疑問詞;
將所述問題語句中未被識別的各組成元素分別與預定的實體類別庫、屬性庫進行匹配,得到所述問題語句的各組成元素中的實體類別及屬性;所述實體類別庫及所述屬性庫為分別預先對知識圖譜進行相對應的實體類別信息抽取以及實體屬性和/或實體類別屬性信息抽取后所得的信息庫;所述知識圖譜為一預先基于多個語句樣本所構建的包括多個節點的有向圖,圖中的每個節點對應一個實體或實體類別,每個實體對應零個或以上的實體屬性、每個實體類別對應零個或以上的實體類別屬性,任意兩個節點之間的有向邊用于表示邊所連接的兩個節點之間的關系。
4.根據權利要求3所述的方法,其特征在于,所述若所述問句類別屬于預定問句類別,則對所述問題語句進行依存句法分析,得到所述問題語句的各組成元素間的依存信息,包括:
若所述問句類別屬于預定問句類別,則基于所述問題語句中各組成元素間的實際依存情況,生成所述問題語句對應的第一依存句法樹;
其中,所述第一依存句法樹中的每個節點包括所述問題語句的一組成元素,節點間的父子關系對應節點所包括的組成元素間的依存關系。
5.根據權利要求4所述的方法,其特征在于,所述基于所述問題語句的各組成元素間的依存信息以及所述問題語句的句子成分,對所述問題語句進行結構化解析,得到所述問題語句的結構化信息,包括:
根據所述第一依存句法樹中各個節點對應的組成元素所屬的句子成分,構建第二依存句法樹;所述第二依存句法樹中的相應節點至少包括相應組成元素所屬的句子成分,節點間的父子關系對應節點所包括的句子成分間的依存關系;
對所述第二依存句法樹進行搜索處理,得到所述問題語句的至少一個三元組;每個三元組包括所述問題語句的主體-謂詞-賓語信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于聯想(北京)有限公司,未經聯想(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811147486.6/1.html,轉載請聲明來源鉆瓜專利網。





