[發明專利]基于歧義實體詞的文本處理方法和裝置有效
| 申請號: | 201810044364.8 | 申請日: | 2018-01-17 |
| 公開(公告)號: | CN108280061B | 公開(公告)日: | 2021-10-26 |
| 發明(設計)人: | 馮知凡;陸超;朱勇;李瑩 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/247;G06N3/08;G06K9/62 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 歧義 實體詞 文本 處理 方法 裝置 | ||
本發明提出一種基于歧義實體詞的文本處理方法和裝置,其中,方法包括:獲取待消歧文本的上下文,以及待消歧文本表征的至少兩個候選實體,通過訓練的詞向量模型生成上下文的語義向量,通過訓練的無監督神經網絡模型,生成至少兩個候選實體的第一實體向量,計算上下文與每一個候選實體之間的相似度,確定出待消歧文本在上下文中所表征的目標實體。通過已學習得到各實體文本語義以及各實體之間關系的無監督神經網絡模型,使得生成的候選實體的第一實體向量也包含了候選實體的文本語義以及與各實體之間的關系,使得待消歧文本的實體信息得以完整刻畫,再與上下文語義向量計算相似度,確定目標實體,提高了待消歧文本消歧的準確度。
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種基于歧義實體詞的文本處理方法和裝置。
背景技術
隨著移動互聯網的普及,微博、貼吧及各大新聞網站等極大的方便了人們的生活,但這些平臺上的數據絕大部分都是以非結構化或半結構化的形式存在,導致這些知識庫中的數據存在著大量的歧義實體詞,通過對歧義實體詞進行消歧處理,可以辨別在不同上下文中該實體詞真實指示哪個事物,為后續的具體應用提供便利。
但相關技術中,一種方式可以利用現有知識庫數據,計算文本重疊度和相關度,進行消歧;另一種方式利用現有知識庫數據,進行無監督或半監督的模型訓練,依據語義對歧義實體詞進行消歧。但這兩種方式,消歧效果較差。
發明內容
本發明旨在至少在一定程度上解決相關技術中的技術問題之一。
為此,本發明的第一個目的在于提出一種基于歧義實體詞的文本處理方法,訓練完成的無監督神經網絡模型已學習得到各實體的文本語義以及各實體之間的關系,通過無進度神經網絡模型對候選實體進行處理,生成第一實體向量,使得第一實體向量也包含了候選實體的文本語義以及與各實體之間的關系,使得實體信息刻畫較完整,再將第一實體向量和上下文語義向量計算相似度,確定目標實體,提高了待消歧文本消歧的準確度。
本發明的第二個目的在于提出一種基于歧義實體詞的文本處理裝置。
本發明的第三個目的在于提出一種計算機設備。
本發明的第四個目的在于提出一種非臨時性計算機可讀存儲介質。
本發明的第五個目的在于提出一種計算機程序產品。
為達上述目的,本發明第一方面實施例提出了一種基于歧義實體詞的文本處理方法,包括:
獲取待消歧文本的上下文,以及所述待消歧文本表征的至少兩個候選實體;其中,所述至少兩個候選實體具有不同語義;
根據經過訓練的詞向量模型,生成所述上下文的語義向量;
根據經過訓練的無監督神經網絡模型,生成所述至少兩個候選實體的第一實體向量;其中,所述無監督神經網絡模型已學習得到各實體的文本語義以及各實體之間的關系;
根據所述上下文的語義向量和所述至少兩個候選實體的第一實體向量,確定所述上下文與每一個候選實體之間的相似度;
根據所述上下文與每一個候選實體之間的相似度,從至少兩個候選實體中,確定出所述待消歧文本在所述上下文中所表征的目標實體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810044364.8/2.html,轉載請聲明來源鉆瓜專利網。





