[發明專利]事件觸發詞的提取方法、電子設備、存儲介質在審
| 申請號: | 202111337761.2 | 申請日: | 2021-11-10 |
| 公開(公告)號: | CN114138980A | 公開(公告)日: | 2022-03-04 |
| 發明(設計)人: | 簡仁賢;李雪婷;吳文杰;劉影 | 申請(專利權)人: | 竹間智能科技(上海)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/211;G06F40/268;G06F40/289 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 衡滔 |
| 地址: | 200030 上海市徐*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 事件 觸發 提取 方法 電子設備 存儲 介質 | ||
1.一種事件觸發詞的提取方法,其特征在于,包括:
對待處理文本依次進行分詞、詞性標注和依存句法分析,確定每個詞語的句法信息,所述句法信息包括詞性、句法標簽、詞本身位置和依存節點位置;所述依存節點位置包括父節點位置和/或子節點位置;
根據每個詞語的詞性,提取詞性為形容詞的詞語構成第一候選集,詞性為動詞的詞語構成第二候選集,詞性為名詞的詞語構成名詞類候選集;
根據每個詞語的句法標簽、詞本身位置和依存節點位置,對所述第一候選集初步過濾得到形容詞類候選集,對所述第二候選集初步過濾得到動詞類候選集;
將所述形容詞類候選集、動詞類候選集、名詞類候選集分別按照相應詞類觸發詞規則進行判斷,得到形容詞類觸發詞集、動詞類觸發詞集和名詞類觸發詞集。
2.根據權利要求1所述的方法,其特征在于,所述根據每個詞語的句法標簽、詞本身位置和依存節點位置,對所述第一候選集初步過濾得到形容詞類候選集,包括:
根據每個詞語的句法標簽、詞本身位置和依存節點位置,提取所述第一候選集中帶有HED標簽、COO標簽或VOB標簽的形容詞構成所述形容詞類候選集。
3.根據權利要求1所述的方法,其特征在于,所述對所述第二候選集初步過濾得到動詞類候選集,包括:
根據動詞過濾詞表,刪除所述第二候選集中存在于所述動詞過濾詞表中的動詞,得到所述動詞類候選集。
4.根據權利要求1所述的方法,其特征在于,所述將所述形容詞類候選集、動詞類候選集、名詞類候選集分別按照相應詞類觸發詞規則進行判斷,得到形容詞類觸發詞集、動詞類觸發詞集和名詞類觸發詞集,包括:
根據每個詞語的句法標簽、詞本身位置和依存節點位置,針對所述形容詞類候選集中的每個形容詞,按照形容詞類觸發詞規則進行判斷,提取滿足條件的形容詞構成形容詞類觸發詞集;
根據每個詞語的句法標簽、詞本身位置和依存節點位置,針對所述動詞類候選集中的每個動詞,按照動詞類觸發詞規則進行判斷,提取滿足條件的動詞構成動詞類觸發詞集;
根據每個詞語的句法標簽、詞本身位置和依存節點位置,針對所述名詞類候選集中的每個名詞,按照名詞類觸發詞規則進行判斷,提取滿足條件的名詞構成名詞類觸發詞集。
5.根據權利要求4所述的方法,其特征在于,所述根據每個詞語的句法標簽、詞本身位置和依存節點位置,針對所述形容詞類候選集中的每個形容詞,按照形容詞類觸發詞規則進行判斷,提取滿足條件的形容詞構成形容詞類觸發詞集,包括:
根據每個詞語的句法標簽、詞本身位置和依存節點位置,針對所述形容詞類候選集中的每個形容詞,判斷所述形容詞的帶有ADV標簽的子節點是否是第一預設詞匯;
若是,從所述形容詞類候選集中刪除所述形容詞,得到更新后的形容詞類候選集;
在所述更新后的形容詞類候選集中,提取出子節點滿足第一條件的形容詞,以及父節點滿足第二條件的形容詞,構建所述形容詞類觸發詞集。
6.根據權利要求5所述的方法,其特征在于,所述子節點滿足第一條件的形容詞,包括:
子節點是帶有RAD標簽的第二預設詞匯且與所述子節點間無其他詞匯的形容詞、子節點是帶有CMP標簽的第三預設詞匯的形容詞、子節點是ADV標簽的第四預設詞匯的形容詞以及子節點是帶有VOB標簽的形容詞。
7.根據權利要求5所述的方法,其特征在于,所述父節點滿足第二條件的形容詞,包括:父節點是帶有VOB標簽的第五預設詞匯的形容詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于竹間智能科技(上海)有限公司,未經竹間智能科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111337761.2/1.html,轉載請聲明來源鉆瓜專利網。





