[發明專利]標準文本標注、標準圖譜構建方法及裝置有效
| 申請號: | 202110337459.0 | 申請日: | 2021-03-30 |
| 公開(公告)號: | CN112733508B | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 郝文建;王立璽;胡晨;高艷炫 | 申請(專利權)人: | 中國電子技術標準化研究院;北京賽西科技發展有限責任公司 |
| 主分類號: | G06F40/169 | 分類號: | G06F40/169;G06F40/205 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 張睿 |
| 地址: | 100007 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標準 文本 標注 圖譜 構建 方法 裝置 | ||
1.一種標準文本標注方法,其特征在于,包括:
基于結構化模板,從待標注標準文本中提取標準要素文本和非標準要素文本;
基于預設關鍵詞和預設規則,從所述標準要素文本中提取標準要素三元組;
對所述非標準要素文本進行閱讀理解,提取非標準要素三元組;
分別對所述標準要素三元組和所述非標準要素三元組進行實體融合,并對實體融合后的各三元組進行文本標注;
所述標準要素三元組包括標準要素主實體詞、標準要素副實體詞以及用于表征所述標準要素主實體詞與所述標準要素副實體詞關系的標準要素關系詞;
所述基于預設關鍵詞和預設規則,從所述標準要素文本中提取標準要素三元組,包括:
基于所述預設關鍵詞,從所述標準要素文本中確定所述標準要素主實體詞以及所述標準要素副實體詞;
基于所述預設規則,確定所述標準要素關系詞;
所述對所述非標準要素文本進行閱讀理解,提取非標準要素三元組,包括:
將所述非標準要素文本輸入至閱讀理解模型,得到所述閱讀理解模型輸出的所述非標準要素三元組;
其中,所述閱讀理解模型是基于樣本非標準要素文本以及所述樣本非標準要素文本的樣本非標準要素三元組訓練得到的。
2.根據權利要求1所述的標準文本標注方法,其特征在于,所述結構化模板包括所述標準要素文本的屬性信息;
所述基于結構化模板,從待標注標準文本中提取標準要素文本和非標準要素文本,包括:
基于所述標準要素文本的屬性信息,從所述標準文本中提取標準要素文本;
在從所述標準文本中提取標準要素文本之后,將所述標準文本中的其余文本作為非標準要素文本。
3.根據權利要求1所述的標準文本標注方法,其特征在于,所述預設關鍵詞和所述預設規則是基于所述標準要素文本的類型確定的,所述標準要素文本的類型包括語句引導類型和條目引導類型中的至少一種。
4.根據權利要求1至3任一項所述的標準文本標注方法,其特征在于,所述實體融合包括實體消歧、實體對齊以及屬性對齊中的至少一種。
5.一種標準圖譜構建方法,其特征在于,包括:
獲取歷史標準文本;
采用如權利要求1至4任一項所述的標準文本標注方法對所述歷史標準文本進行三元組標注,并對標注后的三元組進行實體鏈接,構建標準圖譜。
6.一種標準文本標注裝置,其特征在于,包括:
文本提取單元,用于基于結構化模板,將待標注標準文本劃分為標準要素文本和非標準要素文本;
第一提取單元,用于基于預設關鍵詞和預設規則,從所述標準要素文本中提取標準要素三元組;
第二提取單元,用于對所述非標準要素文本進行閱讀理解,提取非標準要素三元組;
文本標注單元,用于分別對所述標準要素三元組和所述非標準要素三元組進行實體融合,并對實體融合后的各三元組進行文本標注;
所述標準要素三元組包括標準要素主實體詞、標準要素副實體詞以及用于表征所述標準要素主實體詞與所述標準要素副實體詞關系的標準要素關系詞;
其中,所述第一提取單元,包括:
實體詞提取單元,用于基于所述預設關鍵詞,從所述標準要素文本中確定所述標準要素主實體詞以及所述標準要素副實體詞;
關系詞提取單元,用于基于所述預設規則,確定所述標準要素關系詞;
所述第二提取單元,具體用于:
將非標準要素文本輸入至閱讀理解模型,得到閱讀理解模型輸出的非標準要素三元組;
其中,閱讀理解模型是基于樣本非標準要素文本以及樣本非標準要素文本的樣本非標準要素三元組訓練得到的。
7.一種標準圖譜構建裝置,其特征在于,包括:
獲取單元,用于獲取歷史標準文本;
構建單元,用于采用如權利要求1至4任一項所述的標準文本標注方法對所述歷史標準文本進行三元組標注,并對標注后的三元組進行實體鏈接,構建標準圖譜。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子技術標準化研究院;北京賽西科技發展有限責任公司,未經中國電子技術標準化研究院;北京賽西科技發展有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110337459.0/1.html,轉載請聲明來源鉆瓜專利網。





