[發明專利]一種文本處理方法和相關裝置有效
| 申請號: | 202011506473.0 | 申請日: | 2020-12-18 |
| 公開(公告)號: | CN112287111B | 公開(公告)日: | 2021-03-23 |
| 發明(設計)人: | 劉志煌 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/126;G06F40/289;G06K9/62 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 常忠良 |
| 地址: | 518064 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 處理 方法 相關 裝置 | ||
1.一種文本處理方法,其特征在于,所述方法包括:
根據目標事件關系對應的指定關聯詞,獲取多個事件文本,每個事件文本包括事件關系對,所述事件關系對中包括第一事件和第二事件,所述第一事件與所述第二事件通過所述指定關聯詞連接以具有目標事件關系;
根據所述事件關系對之間第一事件的相似程度和所述事件關系對之間第二事件的相似程度,對所述事件關系對進行分組,屬于同一組的事件關系對之間第一事件與第二事件分別相似,同一個事件關系對中第一事件具有第一類別標簽,第二事件具有第二類別標簽;
針對每組事件關系對,根據事件關系對所對應的事件文本生成具有第一類別標簽和第二類別標簽的目標類序列規則,所述目標類序列規則用于指示所述事件文本的編碼序列特征;
所述根據事件關系對所對應的事件文本生成具有第一類別標簽和第二類別標簽的目標類序列規則,包括:
生成所述事件文本對應的編碼序列,得到該組事件關系對的編碼序列集,所述編碼序列包括所述第一類別標簽和所述第二類別標簽;
根據所述編碼序列集確定滿足支持度閾值的頻繁序列模式;
若所述頻繁序列模式的置信度滿足置信度閾值,則確定所述頻繁序列模式符合所述目標類序列規則;
根據所述目標類序列規則與待抽取文本的匹配程度,確定所述待抽取文本中的所述目標事件關系。
2.根據權利要求1所述的方法,其特征在于,所述根據所述目標類序列規則與待抽取文本的匹配程度,確定所述待抽取文本中的所述目標事件關系,包括:
根據所述頻繁序列模式與所述待抽取文本的匹配程度,確定所述待抽取文本中的所述目標事件關系。
3.根據權利要求1所述的方法,其特征在于,所述生成所述事件文本對應的編碼序列,得到該組事件關系對的編碼序列集,包括:
確定所述事件文本中分詞向量對應的文本編碼標簽;
根據所述文本編碼標簽、所述第一類別標簽和所述第二類別標簽得到所述編碼序列。
4.根據權利要求2所述的方法,其特征在于,若所述頻繁序列模式中包括文本編碼標簽、第一類別標簽和第二類別標簽,所述根據所述頻繁序列模式與所述待抽取文本的匹配程度,確定所述待抽取文本中的所述目標事件關系,包括:
確定所述頻繁序列模式中所述文本編碼標簽對應的第一向量編碼序列,以及所述待抽取文本對應的第二向量編碼序列;
若所述第二向量編碼序列中第二向量與所述第一向量編碼序列中第一向量的相似度高于第一閾值,確定所述第二向量具有所述第一向量對應的文本編碼標簽;
根據所述頻繁序列模式和所述第二向量編碼序列中的文本編碼標簽匹配得到上下文中的所述目標事件關系。
5.根據權利要求1-4任一項所述的方法,其特征在于,根據所述目標類序列規則與待抽取文本的匹配程度,確定所述待抽取文本中的所述目標事件關系之后,所述方法還包括:
利用抽取到的目標事件關系對所述事件關系對進行擴充,重新生成所述目標類序列規則。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011506473.0/1.html,轉載請聲明來源鉆瓜專利網。





