[發明專利]基于知識庫的文本校對方法在審
| 申請號: | 202210511027.1 | 申請日: | 2022-05-11 |
| 公開(公告)號: | CN115293137A | 公開(公告)日: | 2022-11-04 |
| 發明(設計)人: | 張笑然;徐楨虎;蘇忠瑩;陳涵宇;李少博 | 申請(專利權)人: | 四川封面傳媒科技有限責任公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F16/35;G06F16/36;G06F16/951;G06N3/04;G06N3/08 |
| 代理公司: | 成都虹橋專利事務所(普通合伙) 51124 | 代理人: | 吳中偉 |
| 地址: | 610020 四川省成都市*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 知識庫 文本 校對 方法 | ||
本發明涉及文本糾錯領域,為了提高文本糾錯準確率,提供了一種基于知識庫的文本校對方法,包括:步驟1、根據文本所屬領域進行文本領域分類;步驟2、基于分類后的文本進行實體要素抽取,并獲取各實體要素間的語義規則數據;步驟3、基于文本領域、實體要素及實體要素間的語義規則數據構建知識庫;步驟4、對待校驗文本進行文本糾錯,然后獲取待校驗文本的文本領域分類、實體要素及實體要素間的語義規則數據,并將其與知識庫中的對應數據進行比對以實現二次糾錯。采用上述方式可以提高文本糾錯準確率。
技術領域
本發明涉及文本糾錯領域,具體是一種基于知識庫的文本校對方法。
背景技術
伴隨著互聯網的飛速發展,媒體行業也在逐步擴大影響力,隨著新聞信息化進程的不斷 拓展,新聞創作者面臨著日益增加的稿件發布量,其中部分稿件存在實體對象、文本短語和 語義規則表述有誤的情況,人工審核校對在大數量級的稿件下無法保證高質量的正確校對。 因此必須建立相關AI算法文本自動校對機制,提升企業快速有效、智能批量處理文本內容的 綜合能力。
現有新聞行業在文本校對方面存在著人物實體關系復雜,短語表述混淆、實體詞有錯字、 漏字、多字等固有問題,其中對于政治領域文本的校對要求更加嚴格:例如,文本中若出現 政府高層官員的職務頭銜全稱不準確、有錯別字的情況;或是面向不同政治情景下的高層職 務描述有嚴格的順序要求和特定職務描述要求(即描述對象本身具有復數個職務名稱,但在 具體情景下只可選用其中特定的復數或單個職務進行描述,且復數個職務名稱需嚴格按照對 應規則作出有序排列);或是文本中出現多個政府高層官員時沒有完全匹配對應的職務名稱, 導致讀者面對混亂的人物實體關系。面向全領域的糾錯方法雖然覆蓋面廣,但是對于特定領 域的糾錯效果不佳。同時,現有的糾錯模型主要分為基于規則和基于模型算法,基于規則的 方法需要構建大量的規則庫并且需要長期人工維護和定期更新才能保證糾錯的準確率,而基 于模型算法的方法則需要大規模的有效訓練數據集,線上模型過大會導致校對效率低下,且 糾錯結果存在一定的準確率誤差。
發明內容
為了提高文本糾錯準確率,本申請提供了一種基于知識庫的文本校對方法。
本發明解決上述問題所采用的技術方案是:
基于知識庫的文本校對方法,包括:
步驟1、根據文本所屬領域進行文本領域分類;
步驟2、基于分類后的文本進行實體要素抽取,并獲取各實體要素間的語義規則數據;
步驟3、基于文本領域、實體要素及實體要素間的語義規則數據構建知識庫;
步驟4、對待校驗文本進行文本糾錯,然后獲取待校驗文本的文本領域分類、實體要素 及實體要素間的語義規則數據,并將其與知識庫中的對應數據進行比對以實現二次糾錯。
進一步地,所述步驟1包括:
步驟11、基于全網可靠新聞源,依靠爬蟲算法獲取模型訓練數據集;
步驟12、基于Glove模型與XLNet模型構建文本分類模型;
步驟13、采用模型訓練數據集對文本分類模型進行模型訓練;
步驟14、使用訓練后的文本分類模型進行文本領域分類。
進一步地,所述步驟2包括:
步驟21、基于XLNet語言模型、雙向長短時記憶網絡BiLSTM和條件隨機場CRF構建實體抽取模型;
步驟22、對實體抽取模型進行訓練,并采用訓練后的實體抽取模型對分類后的文本進行 實體要素抽取;
步驟23、采用Stanford CoreNLP對分類后的文本進行依存句法分析以獲取各實體要素間 的語義規則數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川封面傳媒科技有限責任公司,未經四川封面傳媒科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210511027.1/2.html,轉載請聲明來源鉆瓜專利網。





