[發明專利]非結構化文本的分類方法及計算機可讀存儲介質有效
| 申請號: | 202011514745.1 | 申請日: | 2020-12-21 |
| 公開(公告)號: | CN112579775B | 公開(公告)日: | 2022-11-22 |
| 發明(設計)人: | 林宇彬;黃曉予;張詩鳴;楊迪珊;顏磊;胡臻達;張成煒;傅本釗;張勁波;程諾;熊瑩 | 申請(專利權)人: | 國網福建省電力有限公司經濟技術研究院;國網福建省電力有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/289;G06F40/242 |
| 代理公司: | 福州市博深專利事務所(普通合伙) 35214 | 代理人: | 顏麗蓉 |
| 地址: | 350000 福建省福州*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結構 文本 分類 方法 計算機 可讀 存儲 介質 | ||
本發明公開了一種非結構化文本的分類方法及計算機可讀存儲介質,方法包括:構建評審專業詞匯庫;對待分類的修改意見文本進行清洗,并根據清洗后的修改意見文本,切分得到單字的順序數組;根據評審專業詞匯庫,構建順序數組對應的前綴詞典,并根據前綴詞典,形成有向無環圖;分別計算有向無環圖中各路徑的概率;判斷最大概率值是否大于或等于預設的閾值;若是,則根據最大概率值對應的路徑,得到最優分詞結果;若否,則根據馬爾科夫模型,對順序數組進行中文分詞,得到最優分詞結果;將最優分詞結果與預設的典型修改意見進行模糊匹配,并根據模糊匹配的結果對修改意見文本進行分類。本發明可實現修改意見的自動分類。
技術領域
本發明涉及文本分類技術領域,尤其涉及一種非結構化文本的分類方法及計算機可讀存儲介質。
背景技術
當前,面對國資委對國網公司經營績效的更高要求和社會降低電價預期的雙重壓力,以及電量增速趨緩、電價空間收窄的新常態,電網精準投資已成為公司提質增效,降本節支,提升穩健經營水平的重要舉措。項目可研評審是項目投資決策之前,論證把關項目建設必要性、可行性、經濟性的重要工作,是投資決策的重要參考依據,是落實公司精準投資戰略舉措的重要抓手。
評審專家針對報審項目可行性研究報告提出的修改意見,是電網基建項目的重點關注內容,蘊含了豐富的信息。自然語言處理是計算機科學領域與人工智能領域中的一個重要方向,它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。如何基于自然語言處理技術,將專家修改意見“標簽化”以輔助項目質量提升是目前有待解決的問題。
發明內容
本發明所要解決的技術問題是:提供一種非結構化文本的分類方法及計算機可讀存儲介質,可實現修改意見的自動分類,提高修改意見分類統計的自動化水平。
為了解決上述技術問題,本發明采用的技術方案為:一種非結構化文本的分類方法,其特征在于,包括:
構建評審專業詞匯庫,所述評審專業詞匯庫包括歷史修改意見中的詞語及其詞頻;
對待分類的修改意見文本進行清洗,并根據清洗后的修改意見文本,切分得到單字的順序數組;
根據所述評審專業詞匯庫,構建所述順序數組對應的前綴詞典,并根據所述前綴詞典,形成有向無環圖;
分別計算所述有向無環圖中各路徑的概率;
判斷最大概率值是否大于或等于預設的閾值;
若是,則根據最大概率值對應的路徑,得到最優分詞結果;
若否,則根據馬爾科夫模型,對所述順序數組進行中文分詞,得到最優分詞結果;
將所述最優分詞結果與預設的典型修改意見進行模糊匹配,并根據模糊匹配的結果對所述修改意見文本進行分類,標記所述修改意見文本的類型。
本發明還提出了一種計算機可讀存儲介質,其上存儲有計算機程序,所述程序被處理器執行時實現如上所述的方法的步驟。
本發明的有益效果在于:通過對修改意見文本進行清洗,避免特殊字符對分詞結果的干擾;通過利用前綴詞典或馬爾科夫模型對清洗后的修改意見文本進行中文分詞,可得到最優分詞結果,后續根據最優分詞結果進行匹配分類,提高修改意見文本的分類準確性。本發明可實現修改意見的自動分類,提高修改意見分類統計的自動化水平。
附圖說明
圖1為本發明的一種非結構化文本的分類方法的流程圖;
圖2為本發明實施例一的方法流程圖;
圖3為本發明實施例一的單字的順序數組的示意圖;
圖4為本發明實施例一的有向無環圖的示意圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網福建省電力有限公司經濟技術研究院;國網福建省電力有限公司,未經國網福建省電力有限公司經濟技術研究院;國網福建省電力有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011514745.1/2.html,轉載請聲明來源鉆瓜專利網。





