[發明專利]用于使用深度神經網絡來進行獨立于領域和語言的定義提取的系統和方法在審
| 申請號: | 201880090471.2 | 申請日: | 2018-12-27 |
| 公開(公告)號: | CN111742322A | 公開(公告)日: | 2020-10-02 |
| 發明(設計)人: | 賀一帆;趙林;徐魁;馮哲 | 申請(專利權)人: | 羅伯特·博世有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06N3/08;G06N3/04 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 張健;陳嵐 |
| 地址: | 德國斯*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 使用 深度 神經網絡 進行 立于 領域 語言 定義 提取 系統 方法 | ||
1.一種用于從文本媒體中自動生成術語定義知識庫(KB)的方法,所述方法包括:
接收單詞序列以在構建術語定義KB中使用;
使用密集向量表示將所述單詞序列中的每個單詞映射到實值密集向量;
使用卷積神經網絡(CNN)定義標識模型基于單詞的密集向量表示來處理所述單詞序列,以標識所述單詞序列是否包括術語定義,并且利用指示所述單詞序列內是否存在術語定義的標記來標記所述單詞序列;
使用條件隨機場(CRF)定義提取模型基于單詞的密集向量表示以及所述標記來處理所述單詞序列,以標識所述單詞序列中的術語定義的邊界;
將術語定義添加到術語定義KB。
2.根據權利要求1所述的方法,其中密集向量表示是由單詞表示訓練組件生成的,單詞表示訓練組件接收文本集合作為輸入,并且使用跳字遞歸神經網絡(RNN)來處理所述文本集合以生成密集向量表示。
3.根據權利要求1所述的方法,其中所述標記是二進制標記,其指示所述單詞序列內的術語定義的存在是真還是假。
4.根據權利要求3所述的方法,其中CNN定義標識模型是由CNN訓練組件生成的,CNN訓練組件使用密集向量表示和多個訓練單詞序列來訓練CNN定義標識模型,以自動標識單詞序列是否包括術語定義,并且將適當的二進制標記指派給所述單詞序列。
5.根據權利要求4所述的方法,其中指派給相應訓練單詞序列的所述標記是由人類注釋者指派的。
6.根據權利要求1所述的方法,其中CRF定義提取模型是由CRF訓練組件生成的,CRF訓練組件使用密集向量表示以及由CNN定義標識模型指派的所述二進制標記來訓練CRF定義提取模型,以自動檢測所述單詞序列情況下的術語定義的邊界。
7.根據權利要求1所述的方法,其中CRF定義提取模型被配置成:對所述單詞序列中屬于所述單詞序列中的術語定義的一部分的單詞加標簽。
8.一種用于從文本媒體中自動生成術語定義知識庫(KB)的系統,所述系統包括:
定義提取組件,其被配置成使用密集向量表示、CNN定義標識模型和CRF定義提取模型來處理單詞序列,以提取所述單詞序列中找到的術語定義,并且將所提取的術語定義添加到術語定義KB,
其中密集向量表示用于將所述單詞序列中的單詞映射到實值向量,
其中CNN定義標識模型基于密集向量表示來處理所述單詞序列,以標識相應的單詞序列是否包括術語定義,并且利用指示所述單詞序列內是否存在術語定義的標記來標記所述單詞序列,以及
其中CRF定義提取模型基于單詞的密集向量表示以及由CNN定義標識模型指派的所述標記來處理所述單詞序列,以標識所述單詞序列中的術語定義的邊界。
9.根據權利要求8所述的系統,其中密集向量表示是由單詞表示訓練組件生成的,單詞表示訓練組件接收文本集合作為輸入,并且使用跳字遞歸神經網絡(RNN)來處理所述文本集合以生成密集向量表示。
10.根據權利要求8所述的系統,其中所述標記是二進制標記,其指示所述單詞序列內的術語定義的存在是真還是假。
11.根據權利要求10所述的系統,其中CNN定義標識模型是由CNN訓練組件生成的,CNN訓練組件使用密集向量表示和多個訓練單詞序列來訓練CNN定義標識模型,以自動標識單詞序列是否包括術語定義,并且將適當的二進制標記指派給所述單詞序列。
12.根據權利要求11所述的系統,其中指派給相應訓練單詞序列的所述標記是由人類注釋者指派的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于羅伯特·博世有限公司,未經羅伯特·博世有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880090471.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于個人UV暴露測量的裝置和系統
- 下一篇:始終開啟的關鍵字檢測器





