[發(fā)明專利]一種應(yīng)用于制造業(yè)科學(xué)技術(shù)文檔的命名實(shí)體識(shí)別模型在審
| 申請(qǐng)?zhí)枺?/td> | 202111643086.6 | 申請(qǐng)日: | 2021-12-29 |
| 公開(公告)號(hào): | CN114510940A | 公開(公告)日: | 2022-05-17 |
| 發(fā)明(設(shè)計(jì))人: | 王明浩 | 申請(qǐng)(專利權(quán))人: | 中云開源數(shù)據(jù)技術(shù)(上海)有限公司 |
| 主分類號(hào): | G06F40/295 | 分類號(hào): | G06F40/295;G06F40/242;G06F40/247;G06F40/126;G06N3/04;G06N3/08;G06N5/02 |
| 代理公司: | 上海伯瑞杰知識(shí)產(chǎn)權(quán)代理有限公司 31227 | 代理人: | 俞磊 |
| 地址: | 200131 上海市浦東新區(qū)中國(guó)(上海)自*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 應(yīng)用于 制造業(yè) 科學(xué)技術(shù) 文檔 命名 實(shí)體 識(shí)別 模型 | ||
本發(fā)明公開了一種應(yīng)用于制造業(yè)科學(xué)技術(shù)文檔的命名實(shí)體識(shí)別模型,其網(wǎng)絡(luò)結(jié)構(gòu)包括詞嵌入層SciBERT,其用于將輸入的詞轉(zhuǎn)換為固定長(zhǎng)度的向量;BiLSTM層,其利用文本序列的上下文信息挖掘隱藏特征,其用于編碼文本;注意力層,其用于降低實(shí)體內(nèi)部不相關(guān)修飾詞的權(quán)重,界定實(shí)體的邊界,避免重要實(shí)體抽取的遺漏;CRF層,其作為網(wǎng)絡(luò)結(jié)構(gòu)的輸出層,用于避免文本序列中的實(shí)體被錯(cuò)誤標(biāo)注。本發(fā)明的命名實(shí)體識(shí)別模型能從文本中提取信息和生成知識(shí),能解析制造領(lǐng)域中的產(chǎn)品設(shè)計(jì)文本數(shù)據(jù)、工程測(cè)試文本數(shù)據(jù)、供應(yīng)商數(shù)據(jù)數(shù)據(jù)、維護(hù)記錄數(shù)據(jù)和產(chǎn)品使用數(shù)據(jù)等各種與制造科學(xué)技術(shù)相當(dāng)?shù)奈臋n,能為企業(yè)實(shí)現(xiàn)各種數(shù)據(jù)資產(chǎn)互連提供技術(shù)基礎(chǔ),是促進(jìn)企業(yè)的數(shù)字化轉(zhuǎn)型的關(guān)鍵。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,尤其涉及到一種應(yīng)用于制造業(yè)科學(xué)技術(shù)文檔的命名實(shí)體識(shí)別模型。
背景技術(shù)
隨著與制造業(yè)相關(guān)的科技文獻(xiàn)和互聯(lián)網(wǎng)上可用的數(shù)字資源數(shù)量呈指數(shù)級(jí)增長(zhǎng),從制造科學(xué)技術(shù)文檔中搜索和提取有價(jià)值的信息具有挑戰(zhàn)性。現(xiàn)有的命名實(shí)體識(shí)別模型在材料科學(xué)、生物醫(yī)學(xué)、化學(xué)科學(xué)、網(wǎng)絡(luò)安全、維護(hù)實(shí)踐和取證科學(xué)等特定領(lǐng)域均有相關(guān)研究和應(yīng)用,但針對(duì)制造科學(xué)技術(shù)文檔,研究使用命名實(shí)體識(shí)別模型并抽取其中有價(jià)值的信息尚處于技術(shù)語(yǔ)言處理研究和應(yīng)用的萌芽階段。
現(xiàn)有其他領(lǐng)域的命名實(shí)體識(shí)別模型的缺陷如下:
1)現(xiàn)有的標(biāo)準(zhǔn)命名實(shí)體識(shí)別模型無(wú)法識(shí)別特定領(lǐng)域的術(shù)語(yǔ)和概念。
2)由于不同領(lǐng)域技術(shù)文檔具有不同的特點(diǎn),因此針對(duì)特定領(lǐng)域開發(fā)的命名實(shí)體識(shí)別模型無(wú)法移植到制造業(yè)領(lǐng)域。
3)現(xiàn)有技術(shù)中心缺乏利用已構(gòu)建的制造業(yè)領(lǐng)域的命名實(shí)體識(shí)別模型對(duì)制造科學(xué)技術(shù)文檔進(jìn)行自動(dòng)分類的研究。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種應(yīng)用于制造業(yè)科學(xué)技術(shù)文檔的命名實(shí)體識(shí)別模型,其從制造科學(xué)技術(shù)文檔中抽取信息,并利用這些信息對(duì)制造科學(xué)技術(shù)文檔按不同制造主題分類,組合深度學(xué)習(xí)模型、注意力機(jī)制、預(yù)訓(xùn)練模型和條件隨機(jī)場(chǎng)等技術(shù),構(gòu)建命名實(shí)體識(shí)別模型,該模型能從制造科學(xué)技術(shù)文檔中抽取關(guān)鍵的制造概念和實(shí)體,能為專注于制造的研究人員、年輕工程師和非技術(shù)專業(yè)人員提供快速搜索與制造相關(guān)的特定信息。
本發(fā)明的上述技術(shù)目的是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
一種應(yīng)用于制造業(yè)科學(xué)技術(shù)文檔的命名實(shí)體識(shí)別模型,包括如下步驟:
I.數(shù)據(jù)收集
選取現(xiàn)有目標(biāo)文本,構(gòu)成訓(xùn)練命名實(shí)體識(shí)別模型的原始語(yǔ)料庫(kù);
II.數(shù)據(jù)預(yù)處理
去除原始語(yǔ)料庫(kù)中的標(biāo)點(diǎn)和停用詞,執(zhí)行詞形還原,形成語(yǔ)料庫(kù)對(duì)應(yīng)的詞典;人工定義若干種制造文本類別;并為詞典中的每一個(gè)詞分配一個(gè)制造文本類別標(biāo)簽;采用定制化的詞表提取算法,用BIOES格式自動(dòng)標(biāo)注原始語(yǔ)料庫(kù);
III.命名實(shí)體識(shí)別模型的網(wǎng)絡(luò)結(jié)構(gòu)
1)詞嵌入層SciBERT,其用于將輸入的詞轉(zhuǎn)換為固定長(zhǎng)度的向量;
2)位于詞嵌入層SciBERT之上的BiLSTM層,其利用文本序列的上下文信息挖掘隱藏特征,其用于編碼文本;
3)位于BiLSTM層之上的注意力層,其用于降低實(shí)體內(nèi)部不相關(guān)修飾詞的權(quán)重,界定實(shí)體的邊界,避免重要實(shí)體抽取的遺漏;
4)位于注意力層之上的CRF層,其作為網(wǎng)絡(luò)結(jié)構(gòu)的輸出層,用于避免文本序列中的實(shí)體被錯(cuò)誤標(biāo)注;
IV.命名實(shí)體識(shí)別模型的訓(xùn)練
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中云開源數(shù)據(jù)技術(shù)(上海)有限公司,未經(jīng)中云開源數(shù)據(jù)技術(shù)(上海)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111643086.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 蜜煉金戈馬清熱解毒膏
- 鋁/木復(fù)合人造板
- 用于制造業(yè)廠房的電動(dòng)門
- 一種面向裝備制造業(yè)的知識(shí)創(chuàng)新評(píng)價(jià)體系動(dòng)態(tài)識(shí)別方法
- 一種蓄熱式催化焚燒爐
- 一種制造業(yè)信息化服務(wù)終端設(shè)備
- 一種基于區(qū)塊鏈多方自我維持的制造業(yè)跨數(shù)據(jù)實(shí)體溯源方法
- 一種基于數(shù)據(jù)分析平臺(tái)的自助建模方法和系統(tǒng)
- 一種制造業(yè)數(shù)據(jù)模型的構(gòu)建方法
- 一種面向制造業(yè)數(shù)據(jù)空間的大數(shù)據(jù)體系結(jié)構(gòu)構(gòu)建方法
- 智能視覺(jué)輔助設(shè)備
- 生物飼養(yǎng)法現(xiàn)代科學(xué)技術(shù)
- 一種計(jì)算機(jī)科學(xué)技術(shù)設(shè)備
- 一種建筑科學(xué)技術(shù)墻角模板
- 刑事科學(xué)技術(shù)用骨骼粉碎機(jī)構(gòu)
- 一種計(jì)算機(jī)科學(xué)技術(shù)設(shè)備
- 一種用于科學(xué)技術(shù)教學(xué)的黑板
- 一種計(jì)算機(jī)科學(xué)技術(shù)設(shè)備
- 教材(電子科學(xué)技術(shù)與科學(xué))
- 股票行為科學(xué)技術(shù)應(yīng)用方法及系統(tǒng)
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備





