[發明專利]基于歧義實體詞的文本處理方法和裝置有效
| 申請號: | 201810044364.8 | 申請日: | 2018-01-17 |
| 公開(公告)號: | CN108280061B | 公開(公告)日: | 2021-10-26 |
| 發明(設計)人: | 馮知凡;陸超;朱勇;李瑩 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/247;G06N3/08;G06K9/62 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 歧義 實體詞 文本 處理 方法 裝置 | ||
1.一種基于歧義實體詞的文本處理方法,其特征在于,包括以下步驟:
獲取待消歧文本的上下文,以及所述待消歧文本表征的至少兩個候選實體;其中,所述至少兩個候選實體具有不同語義;
根據經過訓練的詞向量模型,生成所述上下文的語義向量;
根據經過訓練的無監督神經網絡模型,生成所述至少兩個候選實體的第一實體向量;其中,所述無監督神經網絡模型已學習得到各實體的文本語義以及各實體之間的關系;
根據所述上下文的語義向量和所述至少兩個候選實體的第一實體向量,確定所述上下文與每一個候選實體之間的相似度;
根據所述上下文與每一個候選實體之間的相似度,從至少兩個候選實體中,確定出所述待消歧文本在所述上下文中所表征的目標實體;
所述根據經過訓練的無監督神經網絡模型,生成所述至少兩個候選實體的第一實體向量之前,還包括:
采用經過訓練的有監督神經網絡模型,生成預設知識庫中各實體的第二實體向量;所述有監督神經網絡模型已學習得到各實體的語義;
根據所述知識庫中各實體的第二實體向量,對所述無監督神經網絡模型輸出的各實體的第一實體向量進行初始化;
根據實體間關聯關系,對初始化后的無監督神經網絡模型進行訓練。
2.根據權利要求1所述的文本處理方法,其特征在于,所述采用經過訓練的有監督神經網絡模型,生成所述知識庫中各實體的第二實體向量之前,還包括:
根據知識庫中各實體的屬性,以及各實體的介紹信息提取的關鍵字,生成訓練樣本的正例;
根據所述知識庫中各實體的全部文本描述信息,生成訓練樣本的負例;
根據所述訓練樣本,對有監督神經網絡模型進行訓練;其中,所述有監督神經網絡模型包括:用于輸入訓練樣本中各文本的語義向量的第一層,以及用于預測第一層輸入文本所描述實體的第二層;所述第二層的參數,用于生成所述第二實體向量;
當所述有監督神經網絡模型中,第一層輸入的訓練樣本中文本用于描述所述第二層輸出的實體時,確定所述有監督神經網絡模型訓練完成。
3.根據權利要求2所述的文本處理方法,其特征在于,所述根據所述知識庫中各實體的全部文本描述信息,生成訓練樣本的負例,包括:
對所述知識庫中各實體的全部文本描述信息進行切詞處理后,對切詞得到的各詞條進行詞頻統計;
根據各詞條的詞頻,對各詞條進行負采樣,得到所述訓練樣本的負例。
4.根據權利要求1所述的文本處理方法,其特征在于,所述根據實體間關系,對初始化后的無監督神經網絡模型進行訓練,包括:
根據知識庫中存在關聯關系的各實體,和/或,根據搜索日志中存在共現關系的實體,對初始化后的無監督神經網絡模型進行訓練;
當所述無監督神經網絡模型輸出的第一實體向量之間的距離相對應于實體之間關系緊密程度時,其中,所述第一實體向量已學習到各實體語義以及各實體之間關系,所述無監督神經網絡模型訓練完成。
5.根據權利要求1-4任一項所述的文本處理方法,其特征在于,所述根據經過訓練的詞向量模型,生成所述上下文的語義向量之前,還包括:
針對不同的應用場景,分別生成對應的訓練語料;
采用各應用場景對應的訓練語料進行詞向量模型訓練,以得到各應用場景適用的詞向量模型。
6.根據權利要求1-4任一項所述的文本處理方法,其特征在于,所述生成所述至少兩個候選實體的第一實體向量之后,還包括:
根據所述至少兩個候選實體的第一實體向量,確定不同候選實體之間的相似度;
根據不同候選實體之間的相似度,進行實體關系挖掘或實體推薦。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810044364.8/1.html,轉載請聲明來源鉆瓜專利網。





