[發明專利]面向油氣管道領域的多策略融合的標準術語處理方法有效
| 申請號: | 201310088217.8 | 申請日: | 2013-03-19 |
| 公開(公告)號: | CN104063382B | 公開(公告)日: | 2018-01-02 |
| 發明(設計)人: | 劉冰;潘騰;黃維和;稅碧垣;劉艷雙;李云杰;張妮;吳凱旋;王禹欽 | 申請(專利權)人: | 中國石油天然氣股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京華沛德權律師事務所11302 | 代理人: | 劉杰 |
| 地址: | 100007 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 油氣 管道 領域 策略 融合 標準 術語 處理 方法 | ||
1.一種面向油氣管道領域的多策略融合的標準術語處理方法,其特征在于該方法分為以下三個模塊:1)油氣管道領域語料預處理及文本分詞結果優化;2)分別通過單一算法以及多種算法組合的形式實現術語構建;3)通過總結的規則對獲得的術語進行過濾,剔除垃圾詞語和常規的詞語,優化術語處理的結果;
總體流程為:
1)油氣管道領域語料預處理及語料分詞結果優化
收集油氣管道領域文本;
對語料格式進行轉換;
進行ICTCLAS分詞;
對分詞進行優化;
進行噪音過濾;
得分詞結果;
2)油氣管道領域術語構建方法
得分詞結果后,加入第三方語料后進行組合算法、TF-IDF算法、C-MI算法和RD算法;
進行術語構建;
3)油氣管道領域術語構建優化
術語構建后,選取候選術語;
進行規則過濾;
建成標準術語數據庫;
其中,所述組合算法為:各算法之間的融合;
a.融合模塊Ⅰ和模塊Ⅱ的術語構建
該方法融合了TF-IDF、C-value和互信息的優點,更好的利用了詞語的詞頻、結構緊密性和網狀術語的特征;
具體包括三個基本步驟:
a)樣本抽取:分別選擇每種融合方法的Top N個候選術語結果;
b)參數訓練:將TF-IDF模塊與C-MI模塊進行融合時,為了訓練得到TF-IDF的權重ɑ和C-MI的權重β,依次設置ɑ從0.1-0.9,則β從0.9-0.1,且以0.1作為參數調整的步長;在不同參數下,對加權后的候選術語進行重排序,統計融合后的術語分布密度規律;
c)參數選擇:選取最優分布下的參數作為加權權值,具體是通過基于密度的OPTICS聚類算法,統計樣本在排序后的術語集中的分布情況,密度算法的值越小,對應的權值越好;
分別對于使用不同方法取得的結果進行在以下區間處理標準術語和非術語,進行訓練;
標準術語區間內的選擇個數:
區間1:500-1000:20
區間2:1000-5000:20
區間3:5000-20000:20
區間4:20000-50000:20
區間5:50000-140000:20
非術語區間內的選擇個數:
區間1:500-1000:5
區間2:1000-5000:10
區間3:5000-20000:15
區間4:20000-50000:30
區間5:50000-140000:35
在參數的訓練上,優先選擇C-MI的值,即設C-MI的權重為ɑ,TF-IDF的權重為β,且滿足ɑ+β=1的約束條件,則假設ɑ=0.6開始訓練,會得出C-MI和TF-IDF不同加權對應的結果曲線圖;
通過數據計算對比,得出TF-IDF算法與C-MI算法的最優融合參數值為:ɑ=0.3,β=0.7;其中ɑ為TF-IDF的權重,β為C-MI的權重;
b.融合模塊Ⅰ和模塊Ⅲ的術語構建
該方法充分考慮了詞語的TF-IDF特征和詞語的領域相關性特征,對TF-IDF值較高但領域相關性較低的詞語進行過濾,同時對一些TF-IDF值較低但領域相關性較高的詞語進行提升,優化術語提取結果;
通過與a.同樣的參數訓練方法計算對比,可得出TF-IDF算法與RD算法的最優融合參數值為:ɑ=0.8,γ=0.2;其中ɑ為TF-IDF的權重,γ為RD的權重;
c.融合模塊Ⅱ和模塊Ⅲ的術語構建
該方法在互信息和C-value值的基礎上進一步引入了詞語的領域相關性特征,從領域流通度的角度對基于互信息和C-value值的術語提取結果進行優化;
通過與a.同樣的參數訓練方法計算對比,可得出C-MI算法與RD算法的最優融合參數值為:β=0.8,γ=0.2;其中β為C-MI的權重,γ為RD的權重;
d.融合模塊Ⅰ、模塊Ⅱ和模塊Ⅲ的術語構建
該方法充分考慮了詞語的TF-IDF特征、互信息、C-value值和領域相關性特征,對以上特征進行參數選取,進行基于統計分布密度規律的方法訓練,選擇最優分布下的參數值,即得到最終輸出的術語列表;
通過同樣的參數訓練方法計算對比,可得出TF-IDF算法、C-MI算法與RD算法的最優融合參數值為:ɑ=0.5,β=0.3,γ=0.2;其中ɑ為TF-IDF的權重,β為C-MI的權重,γ為RD的權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國石油天然氣股份有限公司,未經中國石油天然氣股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310088217.8/1.html,轉載請聲明來源鉆瓜專利網。





