[發明專利]文本切分方法、裝置及計算機設備有效
| 申請號: | 202110895881.8 | 申請日: | 2021-08-05 |
| 公開(公告)號: | CN113609860B | 公開(公告)日: | 2023-09-19 |
| 發明(設計)人: | 劉勃;黃云峰;周冬梅;肖德凡 | 申請(專利權)人: | 湖南特能博世科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/284;G06F40/205;G06F16/35;G06N20/00 |
| 代理公司: | 北京超凡宏宇知識產權代理有限公司 11463 | 代理人: | 梁韜 |
| 地址: | 410000 湖南省長沙市高*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 切分 方法 裝置 計算機 設備 | ||
1.一種文本切分方法,其特征在于,所述方法包括:
接收待切分的文本;
將所述文本輸入文本單元切分模型,輸出文本單元,其中,所述文本單元包括同時包含物料名稱及物料用量的至少一個文本塊;
判斷各文本單元的末尾字符類型;
若文本單元的末尾字符類型為數詞,則將所述文本單元輸入量詞添加模型,在所述文本單元的末尾字符后添加量詞后作為一文本切分結果輸出;
若文本單元的末尾字符類型不是數詞,則直接將所述文本單元作為一文本切分結果輸出;
所述文本單元切分模型包括文本單元切分機器學習模型和文本單元切分命名實體識別模型中任一種;
所述將所述文本輸入文本單元切分模型,輸出文本單元的步驟,包括:
將所述文本根據分隔符拆分為多個文本塊;
將多個所述文本塊依次輸入所述文本單元切分機器學習模型;
若當前的文本塊同時包含物料名稱和物料用量,則將所述文本塊作為一文本單元輸出;
若當前的文本塊不同時包含物料名稱和物料用量,則繼續輸入下一個文本塊,直至輸入的全部文本塊中累積包含物料名稱和物料用量,將全部文本塊組合為一文本單元輸出;
或者,所述將所述文本輸入文本單元切分模型,輸出文本單元的步驟,包括:
將所述文本輸入所述文本單元切分命名實體識別模型,對所述文本中的文本單元標注標簽;
根據所述文本中標注的標簽,將所述文本切分為文本單元并輸出。
2.根據權利要求1所述的文本切分方法,其特征在于,所述文本單元切分機器學習模型的訓練過程,包括:
獲取第一樣本文本單元集和樣本文本塊集,其中,所述第一樣本文本單元集為同時包含物料名稱和物料用量的文本單元的集合,所述樣本文本塊集為不同時包含物料名稱或物料用量的文本塊的集合;
對所述第一樣本文本單元集進行樣本擴充,得到第二樣本文本單元集,其中,所述第二樣本文本單元集包含第一樣本文本單元集中的全部初始樣本文本單元及各初始樣本文本單元對應的變換文本單元,其中,變換文本單元為初始文本單元的末尾字符后添加量詞或刪除量詞得到的文本單元;
將所述樣本文本塊集和所述第二樣本文本單元集輸入基礎機器學習模型進行迭代訓練,得到所述文本單元切分機器學習模型。
3.根據權利要求2所述的文本切分方法,其特征在于,所述對所述第一樣本文本單元集進行樣本擴充,得到第二樣本文本單元集的步驟,包括:
確定所述第一樣本文本單元集中的每個初始樣本文本單元的末尾字符類型;
根據各初始樣本文本單元的末尾字符類型,獲得各初始樣本文本塊對應的基礎文本單元組,其中,基礎文本單元組包括末尾字符類型為量詞的第一文本單元和末尾字符類型為數詞的第二文本單元;
為所述第一文本單元末尾添加第一類干擾項,為所述第二文本單元末尾添加第二類干擾項,得到所述第二樣本文本單元集,其中,所述第一類干擾項為第一文本單元中量詞與隨機數詞的組合,所述第二類干擾項為隨機數詞。
4.根據權利要求2所述的文本切分方法,其特征在于,所述將所述樣本文本塊集和所述第二樣本文本單元集輸入基礎機器學習模型進行迭代訓練,得到所述文本單元切分機器學習模型的步驟,包括:
對輸入基礎機器學習模型的樣本文本單元的末尾字符中量詞和數詞的權重進行設置;
利用支持向量機算法和權重增強后的樣本文本單元,對基礎機器學習模型進行迭代訓練,得到所述文本單元切分機器學習模型。
5.根據權利要求1所述的文本切分方法,其特征在于,所述文本單元切分命名實體識別模型的訓練過程,包括:
獲取樣本文本;
對所述樣本文本進行預處理;
將預處理后的樣本文本輸入基礎命名實體識別模型,并設置所述基礎命名實體識別模型的超參數;
對所述基礎命名實體識別模型進行迭代訓練,得到所述文本單元切分命名實體識別模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南特能博世科技有限公司,未經湖南特能博世科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110895881.8/1.html,轉載請聲明來源鉆瓜專利網。





