[發明專利]一種構建部署文本實體關系提取模型的方法和存儲設備有效
| 申請號: | 202011258349.7 | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112417083B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 伍臣周;莊莉;蘇江文;王秋琳;宋立華 | 申請(專利權)人: | 福建億榕信息技術有限公司;國網信息通信產業集團有限公司;國網信通億力科技有限責任公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/36;G06F40/295 |
| 代理公司: | 福州市景弘專利代理事務所(普通合伙) 35219 | 代理人: | 魏小霞;林祥翔 |
| 地址: | 350000 福建省福*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 構建 部署 文本 實體 關系 提取 模型 方法 存儲 設備 | ||
本發明涉及數據處理技術領域,特別涉及一種構建部署文本實體關系提取模型的方法和存儲設備。所述一種構建部署文本實體關系提取模型的方法,包括步驟:創建項目工程,創建數據存儲目錄;采集數據,對所述數據進行預處理;根據第四預設規范對所述預處理后的數據進行標注,抽取評估數據,并根據第五預設規范對所述評估數據進行數據評估;對標注后的數據進行切分成不同類型數據;選定訓練模型,并將所述不同類型數據進行處理使得符合所述訓練模型接收的數據格式;根據處理后的測試數據和處理后的評估數據對訓練后的訓練模型進行模型評估,若評估合格,則發布評估合格的模型。通過上述技術方案大大降低自然語言處理技術的應用門檻。
技術領域
本發明涉及數據處理技術領域,特別涉及一種構建部署文本實體關系提取模型的方法和存儲設備。
背景技術
在我國信息化建設過程中,各行各業都產生了大量的非結構化數據(如word、pdf、ceb等文檔)。如何挖掘非結構化數據價值,成為當今的一個熱點問題。隨著自然語言處理技術的快速發展,使用自然語言處理技術將難以分析的非結構化數據轉換為易于分析的結構化數據,是挖掘非結構化數據價值的一種有效方式。其中,文本實體關系提取是非結構化數據轉結構化數據的重要環節。通過提取文本數據中的實體、關系,結合文本主題識別和內容相關性分析,能夠為后續的文本自動分類、推薦、領域知識圖譜的構建等應用場景提供結構化數據的支撐。
目前,市面上有很多基于機器學習或深度學習的文本實體關系提取的技術方案和技術實現。也有很多專家、學者提出了各個領域內(如醫療、司法、音樂等)的文本實體關系提取的優化方案,能夠提升領域內實體提取的效果。然而,在項目中并不是每個人都掌握機器學習及深度學習技術和能夠搭建其運行環境;在項目前期也不一定需要追求文本實體關系提取的高準確率和召回率等指標。很多時候,當具備一定數據時,人們會希望通過某種框架快速的實現文本實體關系模型的構建及評估,并且能夠基于框架預留的調優點開展模型調優,最后還能夠簡易地模型服務部署。
在工業界,目前有以下幾種文本實體關系提取方法和框架:
1、華為AI開發平臺ModelArts
該框架嚴重依賴于華為生態圈。它的主要不足之一是:必須購買華為云服務器進行數據、模型的存儲;不足之二是:未預留數據前處理和后處理的介入點;不足之三是:模型僅支持在華為云服務器上發布部署,不能夠在特定的局域網內部署,如國家電網的內網環境。
2、百度EasyDL定制AI訓練平臺
該框架嚴重依賴于百度生態圈。它的主要不足之一是:必須購買百度云服務器進行數據、模型的存儲;不足之二是:未預留數據前處理和后處理的介入點;不足之三是:模型僅支持在百度云服務器上發布部署,不能夠在特定的局域網內部署,如國家電網的內網環境。
綜上所述,不管是華為還是百度提供的AI訓練平臺,雖然實現了從數據標注到模型發布全過程的可視化操作,但除了需要收費外,還存在著靈活性不夠、未提供數據處理工具及預留人工調優介入點等不足之處。無法滿足企業對于訓練平臺的自主可控和內網環境應用的需求。
發明內容
為此,需要提供一種構建部署文本實體關系提取模型的方法,用以解決現有文本實體關系提取技術方案存在靈活性不夠、未提供數據處理工具及預留人工調優介入點不足等問題。具體技術方案如下:
一種構建部署文本實體關系提取模型的方法,包括步驟:
在源碼管理平臺上按第一預設規范創建項目工程,在數據存儲平臺按第二預設規范創建數據存儲目錄;
采集數據,并按第三預設規范對所述數據進行預處理,并存儲預處理后的數據至對應的數據存儲目錄中;
根據第四預設規范對所述預處理后的數據進行標注,抽取評估數據,并根據第五預設規范對所述評估數據進行數據評估;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建億榕信息技術有限公司;國網信息通信產業集團有限公司;國網信通億力科技有限責任公司,未經福建億榕信息技術有限公司;國網信息通信產業集團有限公司;國網信通億力科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011258349.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種擾流式污水處理攪拌裝置
- 下一篇:一種便于清潔的裝配式陽臺封閉玻璃窗結構





