[發(fā)明專利]標準文本標注、標準圖譜構(gòu)建方法及裝置有效
| 申請?zhí)枺?/td> | 202110337459.0 | 申請日: | 2021-03-30 |
| 公開(公告)號: | CN112733508B | 公開(公告)日: | 2021-06-18 |
| 發(fā)明(設(shè)計)人: | 郝文建;王立璽;胡晨;高艷炫 | 申請(專利權(quán))人: | 中國電子技術(shù)標準化研究院;北京賽西科技發(fā)展有限責任公司 |
| 主分類號: | G06F40/169 | 分類號: | G06F40/169;G06F40/205 |
| 代理公司: | 北京路浩知識產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 張睿 |
| 地址: | 100007 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 標準 文本 標注 圖譜 構(gòu)建 方法 裝置 | ||
本發(fā)明提供一種標準文本標注、標準圖譜構(gòu)建方法及裝置,基于結(jié)構(gòu)化模板,從待標注標準文本中提取標準要素文本和非標準要素文本;基于預設(shè)關(guān)鍵詞和預設(shè)規(guī)則,從標準要素文本中提取標準要素三元組;對非標準要素文本進行閱讀理解,提取非標準要素三元組;分別對標準要素三元組和非標準要素三元組進行實體融合,并對實體融合后的各三元組進行文本標注。本發(fā)明基于預設(shè)關(guān)鍵詞和預設(shè)規(guī)則提取標準要素三元組,以及基于閱讀理解提取非標準要素三元組,從而可以快速且準確提取出用于構(gòu)建標準圖譜的三元組,避免傳統(tǒng)方法中基于人工標注文本導致構(gòu)建標準圖譜效率較低的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)領(lǐng)域,尤其涉及一種標準文本標注、標準圖譜構(gòu)建方法及裝置。
背景技術(shù)
標準是對重復性事物和概念所做的統(tǒng)一規(guī)定,它以科學、技術(shù)和實踐經(jīng)驗的綜合為基礎(chǔ),作為共同遵守的準則和依據(jù)。標準的制定和類型按內(nèi)容劃分有基礎(chǔ)標準(一般包括名詞術(shù)語、符號、代號、機械制圖、公差與配合等)、產(chǎn)品標準、輔助產(chǎn)品標準(工具、模具、量具、夾具等)、原材料標準、方法標準(包括工藝要求、過程、要素、工藝說明等)。
在對標準進行查詢或宣貫學習時,目前多采用標準圖譜查詢標準中的相關(guān)信息,而傳統(tǒng)方法構(gòu)建標準圖譜時需要通過人工對大量歷史標準文本中的關(guān)鍵信息進行標注,以進行實體鏈接,不僅效率較低,而且依賴人工也會出現(xiàn)大量重復標注。
發(fā)明內(nèi)容
本發(fā)明提供一種標準文本標注、標準圖譜構(gòu)建方法及裝置,用以解決現(xiàn)有技術(shù)中構(gòu)建標準圖譜時進行文本標注效率較低的缺陷。
本發(fā)明提供一種標準文本標注方法,包括:
基于結(jié)構(gòu)化模板,從待標注標準文本中提取標準要素文本和非標準要素文本;
基于預設(shè)關(guān)鍵詞和預設(shè)規(guī)則,從所述標準要素文本中提取標準要素三元組;
對所述非標準要素文本進行閱讀理解,提取非標準要素三元組;
分別對所述標準要素三元組和所述非標準要素三元組進行實體融合,并對實體融合后的各三元組進行文本標注。
根據(jù)本發(fā)明提供的一種標準文本標注方法,所述結(jié)構(gòu)化模板包括所述標準要素文本的屬性信息;
所述基于結(jié)構(gòu)化模板,從待標注標準文本中提取標準要素文本和非標準要素文本,包括:
基于所述標準要素文本的屬性信息,從所述標準文本中提取標準要素文本;
在從所述標準文本中提取標準要素文本之后,將所述標準文本中的其余文本作為非標準要素文本。
根據(jù)本發(fā)明提供的一種標準文本標注方法,所述預設(shè)關(guān)鍵詞和所述預設(shè)規(guī)則是基于所述標準要素文本的類型確定的,所述標準要素文本的類型包括語句引導類型和條目引導類型中的至少一種。
根據(jù)本發(fā)明提供的一種標準文本標注方法,所述標準要素三元組包括標準要素主實體詞、標準要素副實體詞以及用于表征所述標準要素主實體詞與所述標準要素副實體詞關(guān)系的標準要素關(guān)系詞;
所述基于預設(shè)關(guān)鍵詞和預設(shè)規(guī)則,從所述標準要素文本中提取標準要素三元組,包括:
基于所述預設(shè)關(guān)鍵詞,從所述標準要素文本中確定所述標準要素主實體詞以及所述標準要素副實體詞;
基于所述預設(shè)規(guī)則,確定所述標準要素關(guān)系詞。
根據(jù)本發(fā)明提供的一種標準文本標注方法,所述對所述非標準要素文本進行閱讀理解,提取非標準要素三元組,包括:
將所述非標準要素文本輸入至閱讀理解模型,得到所述閱讀理解模型輸出的所述非標準要素三元組;
其中,所述閱讀理解模型是基于樣本非標準要素文本以及所述樣本非標準要素文本的樣本非標準要素三元組訓練得到的。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國電子技術(shù)標準化研究院;北京賽西科技發(fā)展有限責任公司,未經(jīng)中國電子技術(shù)標準化研究院;北京賽西科技發(fā)展有限責任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110337459.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于圖譜界面的數(shù)據(jù)處理方法及系統(tǒng)
- 用于內(nèi)容特征圖譜化的特征圖譜布局的服務(wù)器及介質(zhì)
- 圖譜的構(gòu)建方法及裝置、電子設(shè)備
- 信息圖譜構(gòu)建方法、裝置及設(shè)備
- 知識圖譜的完善方法及裝置、數(shù)據(jù)處理方法及裝置
- 一種知識圖譜的構(gòu)建方法、裝置、知識圖譜系統(tǒng)及設(shè)備
- 一種基于知識圖譜的故障判別推理方法
- 一種事件圖譜的匹配方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種用于創(chuàng)建知識圖譜的計算機設(shè)備
- 一種支持增量實體關(guān)聯(lián)的關(guān)系圖譜計算方法





