[發明專利]一種用于電力95598工單的領域術語識別系統及方法有效
| 申請號: | 201810132551.1 | 申請日: | 2018-02-09 |
| 公開(公告)號: | CN108363691B | 公開(公告)日: | 2021-07-20 |
| 發明(設計)人: | 嵇友浪;朱君;俞陽;趙洪瑩;李辰剛 | 申請(專利權)人: | 國網江蘇省電力有限公司電力科學研究院;國家電網公司;南京云問網絡技術有限公司;江蘇省電力試驗研究院有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/295;G06F40/216;G06Q50/06 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 董建林;閆方圓 |
| 地址: | 210000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 電力 95598 領域 術語 識別 系統 方法 | ||
本發明公開了一種用于電力95598工單的領域術語識別系統及方法,文本獲取模塊通過文本預處理模塊與候選串抽取模塊相連接,候選串抽取模塊分別通過內部統計分析模塊、領域特征分析模塊與術語特征樣本庫識別模塊相連接,術語特征樣本庫識別模塊分別通過第一術語篩選模塊、第二術語篩選模塊與人工審核模塊相連接,人工審核模塊通過術語特征樣本庫與第二術語篩選模塊相連接,人工審核模塊還與啟發式推薦模塊相連接。本發明能有效提高后續使用中領域術語識別的精確程度,同時,系引入的啟發式模塊可以減少人工審核術語的工作量并發現術語的變體,保證于電力95598工單的領域術語識別效率和準確性,具有良好的應用前景。
技術領域
本發明涉及一種用于電力95598工單的領域術語識別系統及方法,屬于術語識別技術領域。
背景技術
術語是指在特定專業領域中一般概念的詞語指稱(參見GB/T15237.1-2000《中華人民共和國國家標準術語工作-詞匯》)。術語在文獻中作為一個完整的語言單位出現,必須結合穩定,出現頻繁并且使用自由。其次,術語作為專業領域中的一般概念,本身還應該有很強的領域性。
與英語等西方語言不同,漢語書面語書寫時詞語之間沒有的明顯的邊界符號。而在對文本語義的理解中,漢語的語義又是以詞為單位的。因此,準確識別出漢語詞語是漢語的自然語言處理中重要的一步。專業領域文獻、文本中包含有大量的領域術語。將自然語言處理技術運用于專業領域時,需要補充大量專業領域術語的知識。整理術語時通常會采用人工錄入整理或者匹配現有領域詞典的方法,然而人工整理術語費時費力,采用詞典匹配時,大量的術語的變體很難識別,這兩種方法都很難得到很高的覆蓋率。因此,需要引入領域術語識別技術。
領域術語識別技術在自然語言處理中有著廣泛的應用。對于提高領域文本在信息檢索、信息抽取、本體構建、文本分類聚類等應用中的精度都有著重要的作用。目前、從批量文本中識別領域術語的系統主要有以下兩類,均存在不同的缺點,具體如下:
(1)基于統計信息的領域術語識別系統,這類系統主要根據領域術語本身的特征識別領域術語,一般采用統計學以及信息論中的相關方法。通常的流程是:用統計學中的方法建立起文本的統計信息,根據統計結果對候選的文本串進行篩選,得到一批候選短語并進行人工檢驗。常用的統計方法有假設檢驗中的卡方檢驗、T檢驗、對數似然比以及信息論中的點互信息方法等等,該基于統計的方法不依賴外部資源,不局限于某一領域,通用性較強。但是,基于統計的方法通常將領域術語出現的頻率作為評判的顯式或者隱式條件,因此這類算法識別的效果依賴于語料的規模和候選領域術語的頻繁出現。因此低頻率的領域術語識別效果不理想。也造成領域術語識別精確率和召回率很難取得滿意的平衡。
(2)基于有監督機器學習的領域術語識別系統,這類系統采用人工或半自動標注小批量的訓練語料,將領域術語的特征表示為字詞分布的特征,用某種機器學習模型學習這些特征,再利用該模型預測領域文本中未發現的術語,目前用于領域術語識別的機器學習模型主要包括最大熵模型、支持向量機、隱馬爾科夫模型、最大熵馬爾科夫模型和條件隨機場模型(CRF)等,這種基于有監督機器學習的領域術語識別系統的識別準確率較高,且不受到詞語出現頻率的限制。然而,該系統需要用戶參與標注訓練預料,人工工作量大,導致最終標注語料和實驗量不夠大,制約了其的實用性。
95598電力工單是電力行業的領域術語,是用電客戶通過電力客服熱線95598反映的業務咨詢、用電訴求等所形成的文本,由客服代表根據用電客戶描述的問題現象,以及該問題給用電客戶帶來的影響程度選擇對應的業務類型。如何克服現有技術的識別問題,針對電力95598工單完成更好的領域術語識別,是當前需要解決的問題。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網江蘇省電力有限公司電力科學研究院;國家電網公司;南京云問網絡技術有限公司;江蘇省電力試驗研究院有限公司,未經國網江蘇省電力有限公司電力科學研究院;國家電網公司;南京云問網絡技術有限公司;江蘇省電力試驗研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810132551.1/2.html,轉載請聲明來源鉆瓜專利網。





