[發明專利]實體詞提取方法、裝置和電子設備在審
| 申請號: | 202111007981.9 | 申請日: | 2021-08-30 |
| 公開(公告)號: | CN113743107A | 公開(公告)日: | 2021-12-03 |
| 發明(設計)人: | 井玉欣;董偉;沈雨奇;劉江偉;王楓 | 申請(專利權)人: | 北京字跳網絡技術有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/295 |
| 代理公司: | 泰和泰律師事務所 51219 | 代理人: | 祝海燕 |
| 地址: | 100190 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體詞 提取 方法 裝置 電子設備 | ||
本公開實施例公開了實體詞提取方法、裝置和電子設備。該方法的一具體實施方式包括:獲取待處理文本,對待處理文本進行預設處理,得到候選實體詞集合;提取候選實體詞集合中的各個候選實體詞的詞語特征;基于詞語特征,從候選實體詞集合中選取出目標實體詞,輸出目標實體詞。該實施方式提高了實體詞提取的準確性。
技術領域
本公開實施例涉及計算機技術領域,具體涉及實體詞提取方法、裝置和電子設備。
背景技術
在即時通訊(Instant Messaging,IM)軟件、文檔編輯類應用、郵件類應用等以文字信息進行信息交流的載體中,通常包含各種縮略語、產品名詞、項目名詞、企業專屬詞和術語等,可以將這些詞語稱為實體詞。由于實體詞通常屬于特定學科領域,可能會給用戶對文本的理解帶來一定的困難。因此,將這些實體詞挖掘出來并給出相應的詞語解釋可以便于用戶對文本的理解。
發明內容
提供該公開內容部分以便以簡要的形式介紹構思,這些構思將在后面的具體實施方式部分被詳細描述。該公開內容部分并不旨在標識要求保護的技術方案的關鍵特征或必要特征,也不旨在用于限制所要求的保護的技術方案的范圍。
本公開實施例提供了一種實體詞提取方法、裝置和電子設備,利用詞語特征對候選實體詞進行篩選,提高了實體詞提取的準確性。
第一方面,本公開實施例提供了一種實體詞提取方法,包括:獲取待處理文本,對待處理文本進行預設處理,得到候選實體詞集合;提取候選實體詞集合中的各個候選實體詞的詞語特征;基于詞語特征,從候選實體詞集合中選取出目標實體詞,輸出目標實體詞。
第二方面,本公開實施例提供了一種實體詞提取裝置,包括:獲取單元,用于獲取待處理文本,對待處理文本進行預設處理,得到候選實體詞集合;提取單元,用于提取候選實體詞集合中的各個候選實體詞的詞語特征;選取單元,用于基于詞語特征,從候選實體詞集合中選取出目標實體詞,輸出目標實體詞。
第三方面,本公開實施例提供了一種電子設備,包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當一個或多個程序被一個或多個處理器執行,使得一個或多個處理器實現如第一方面的實體詞提取方法。
第四方面,本公開實施例提供了一種計算機可讀介質,其上存儲有計算機程序,該程序被處理器執行時實現如第一方面的實體詞提取方法的步驟。
本公開實施例提供的實體詞提取方法、裝置和電子設備,通過首先獲取待處理文本,對上述待處理文本進行預設處理,得到候選實體詞集合;之后,提取上述候選實體詞集合中的各個候選實體詞的詞語特征;最后,基于上述詞語特征,從上述候選實體詞集合中選取出目標實體詞,輸出上述目標實體詞。通過這種方式利用詞語特征對候選實體詞進行篩選,提高了實體詞提取的準確性。
附圖說明
結合附圖并參考以下具體實施方式,本公開各實施例的上述和其他特征、優點及方面將變得更加明顯。貫穿附圖中,相同或相似的附圖標記表示相同或相似的元素。應當理解附圖是示意性的,原件和元素不一定按照比例繪制。
圖1是本公開的各個實施例可以應用于其中的示例性系統架構圖;
圖2是根據本公開的實體詞提取方法的一個實施例的流程圖;
圖3是根據本公開的實體詞提取方法的又一個實施例的流程圖;
圖4是根據本公開的實體詞提取方法中更新候選實體詞集合的一個實施例的流程圖;
圖5是根據本公開的實體詞提取方法的一個實施例的示意圖;
圖6是根據本公開的實體詞提取方法的再一個實施例的流程圖;
圖7是根據本公開的實體詞提取方法的又一個實施例的示意圖;
圖8是根據本公開的實體詞提取裝置的一個實施例的結構示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字跳網絡技術有限公司,未經北京字跳網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111007981.9/2.html,轉載請聲明來源鉆瓜專利網。





