[發(fā)明專利]用于使用深度神經(jīng)網(wǎng)絡(luò)來進(jìn)行獨(dú)立于領(lǐng)域和語言的定義提取的系統(tǒng)和方法在審
| 申請?zhí)枺?/td> | 201880090471.2 | 申請日: | 2018-12-27 |
| 公開(公告)號: | CN111742322A | 公開(公告)日: | 2020-10-02 |
| 發(fā)明(設(shè)計)人: | 賀一帆;趙林;徐魁;馮哲 | 申請(專利權(quán))人: | 羅伯特·博世有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06N3/08;G06N3/04 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 張健;陳嵐 |
| 地址: | 德國斯*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 使用 深度 神經(jīng)網(wǎng)絡(luò) 進(jìn)行 立于 領(lǐng)域 語言 定義 提取 系統(tǒng) 方法 | ||
一種用于自動生成術(shù)語定義知識庫(KB)的方法,包括使用密集向量表示將單詞序列中的每個單詞映射到實值密集向量。然后,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型來處理所述單詞序列,以標(biāo)識所述單詞序列是否包括術(shù)語定義,并且利用指示所述單詞序列內(nèi)是否存在術(shù)語定義的標(biāo)記來標(biāo)記所述單詞序列。然后,使用條件隨機(jī)場(CRF)模型來處理所述單詞序列,以標(biāo)識所述單詞序列中的術(shù)語定義的邊界。然后,提取術(shù)語定義并且將其添加到術(shù)語定義KB。
相關(guān)申請的交叉引用
本申請要求He等人于2017年12月29日提交的題為“SYSTEM AND METHOD FOR DOMAIN-AND LANGUAGE- INDEPENDENT DEFINITION EXTRACTION USING DEEP NEURAL NETWORKS”的美國臨時申請序列號62/611,577的優(yōu)先權(quán),該申請的公開內(nèi)容通過引用在此整體地并入本文中。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理(NLP)、信息提取、術(shù)語處理和人機(jī)交互(HMI)的領(lǐng)域。
背景技術(shù)
知識庫(KB)處于現(xiàn)代智能系統(tǒng)的最重要的支柱之中。KB既作為獨(dú)立的產(chǎn)品或服務(wù)而提供,又使得能夠?qū)崿F(xiàn)下游應(yīng)用,諸如問題回答和語義搜索:例如,為了由汽車專業(yè)人士來回答關(guān)于“直接注入”的問題,許多系統(tǒng)都依賴于關(guān)于汽車術(shù)語的預(yù)先構(gòu)建的知識庫。
基于KB的應(yīng)用面臨的主要障礙之一是:與手動KB構(gòu)建、尤其是特定于領(lǐng)域的KB構(gòu)建相關(guān)聯(lián)的龐大成本,該KB構(gòu)建需要領(lǐng)域?qū)<疫M(jìn)行大量繁瑣的工作。
自動KB構(gòu)建由于顯著降低該成本的可能性而吸引了很多興趣。然而,大多數(shù)自動KB構(gòu)建仍然依賴于復(fù)雜的機(jī)器學(xué)習(xí)算法和精心策劃(curate)的特征,并且它仍然需要相當(dāng)多的努力來設(shè)計這些算法和特征并且使這些算法和特征適應(yīng)不同的語言,這將使所需的努力倍增。
發(fā)明內(nèi)容
提出了一種用于從自由文本中提取術(shù)語定義的系統(tǒng),該系統(tǒng)不需要特征設(shè)計并且獨(dú)立于領(lǐng)域和語言兩者。它利用無監(jiān)督式單詞向量來捕獲單詞中的語義信息,并且利用CNN和CRF模型來分別檢測定義的存在和邊界,從而產(chǎn)生幾乎不需要人類干預(yù)的定義提取系統(tǒng)。
附圖說明
圖1是根據(jù)本公開的用于自動構(gòu)建術(shù)語定義知識庫(KB)的系統(tǒng)的高級架構(gòu)的示意圖。
圖2是根據(jù)本公開的獨(dú)立于領(lǐng)域的術(shù)語鏈接系統(tǒng)的工作流程圖。
圖3描繪了用于定義標(biāo)識的CNN架構(gòu)。
具體實施方式
出于促進(jìn)對本公開原理的理解的目的,現(xiàn)在將參考附圖中所圖示、并且在以下書面說明書中描述的實施例。要理解的是,由此不意圖對本公開的范圍進(jìn)行限制。要進(jìn)一步理解的是,本公開包括對所說明的實施例的任何更改和修改,并且包括本公開所屬領(lǐng)域的普通技術(shù)人員將通常想到的對本公開原理的進(jìn)一步應(yīng)用。
本公開涉及一種用于自動構(gòu)建術(shù)語定義KB的系統(tǒng)和方法,該系統(tǒng)和方法在特征設(shè)計方面需要最小的努力并且易于適應(yīng)多種語言。圖1中描繪了這種系統(tǒng)的架構(gòu)的高級示意圖。該系統(tǒng)接收文本媒體(諸如,技術(shù)文檔和用戶生成的內(nèi)容)作為輸入。技術(shù)文檔包括:學(xué)術(shù)論文、技術(shù)報告、規(guī)范、手冊等,而用戶生成的內(nèi)容指代已經(jīng)由用戶生成并且發(fā)布到在線平臺(諸如,社交媒體、Wiki、論壇等等)的文本內(nèi)容。該系統(tǒng)從文本媒體來輸出具有術(shù)語定義的術(shù)語KB。術(shù)語KB可以采用任何合適的形式。
該系統(tǒng)包括定義提取系統(tǒng),該定義提取系統(tǒng)被配置成使用單詞向量模型、卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型和條件隨機(jī)場(CRF)模型,以便從文本媒體中標(biāo)識并提取術(shù)語定義,并且使用所提取的定義來構(gòu)建術(shù)語定義KB。定義提取系統(tǒng)可以在線地實現(xiàn)為服務(wù)器,該服務(wù)器提供術(shù)語定義提取和知識庫生成作為服務(wù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于羅伯特·博世有限公司,未經(jīng)羅伯特·博世有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880090471.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機(jī)存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





