[發明專利]一種基于組合特征加權的科技文獻標注精簡研究結論的方法流程在審
| 申請號: | 201610125685.1 | 申請日: | 2016-03-04 |
| 公開(公告)號: | CN107153664A | 公開(公告)日: | 2017-09-12 |
| 發明(設計)人: | 賀惠新;史亞平;張魏巍;熊海濤 | 申請(專利權)人: | 同方知網(北京)技術有限公司;《中國學術期刊(光盤版)》電子雜志社有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京遠大卓悅知識產權代理事務所(普通合伙)11369 | 代理人: | 史霞 |
| 地址: | 100084 北京市海淀區清華*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 組合 特征 加權 科技 文獻 標注 精簡 研究 結論 方法 流程 | ||
1.一種基于組合特征加權的科技文獻標注精簡研究結論的方法流程,其特征在于:包括分類抽取流程,既是基于訓練語料,做數據前清洗,然后分句獲得句子和類標簽,句子特征選擇進行特征化,然后訓練分類器,評價分類器,對訓練的分類器進行保存序列化,在應用階段,獲得應用文本,對其同樣數據清洗,分句,然后特征化(應用階段chi詞特征是使用訓練階段的chi詞),加載訓練分類器對應用文本進行研究結論預測,之后對預測的結果句子人工審核,進行后數據清洗處理,然后將這些清洗規則加入到原有程序中,迭代實驗,具體的步驟如下:
步驟一:前數據清洗模塊
由于句子本身會有亂碼公式表格英文字母數字等,需要對句子進行預處理去掉這些臟東西,在這里需要數據前清洗,閱讀大量待處理的文本,總結出的文本前處理特點,結合其特點采用規則處理清洗;
步驟二:訓練階段模塊
獲取訓練樣本全文文本,這些訓練樣本全部經過人工標注,即對全文字段中的全部內容(這里指的是正文的全部內容,不包括參考文獻等),按照句子級別(句號)標出屬于研究結論的句子,非研究結論的句子不予標注,一篇文章可以標注多個結論句子,經過程序處理獲得全篇的句子(保持原文句子順序)和對應的標簽屬于研究結論的句子對應的標簽為正例1,不屬于研究結論的句子對應標簽為反例0,假如一篇被標注的文章有50句子,標記為研究結論的5句,其余45句是非研究結論,那么正例就是5句話,反例45句話,這樣就獲得了句子樣本數據,假如有10篇標注的文章,那么按照文章的順序,每篇文章分50個句子,那么就是500個句子,具體的,訓練過程的算法為:
(1)獲取樣本
獲取訓練樣本文句子記錄為集合Sens={Sens(i)},對應的句子訓練標簽 集合為Labels={Labels(i)},句子總數為N,各個句子表示為Sens(i),其中1=<i<=N,要求N盡可能大,N>=10000,Labels(i)的取值為1或0兩種取值,其中1代表本句子是研究結論句,為正例表示,0代表本句子是非研究結論句子,為反例表示;
(2)對訓練語料Sens(i)句子進行特征化表示,句子特征化這里使用了以下特征:人工標記的標識詞特征1個、chi詞頻特征200個、句子所在文章級別的相關特征4個、句子級別的相關特征10個、詞語級別的相關特征3個、句序特征1個、句序比特征1個、句子結論段特征4個,一共224個特征,可以表示為F={f1,f2,f3……fn},fi表示每個特征n為224,f0到f224一共224個特征,每個句子都要提取224個特征;
步驟三:選取分類器訓練與評價模塊
(31)樣本類平衡處理,這里分類屬于二分類問題,由于樣本中正例(研究結論句子很少),反例(非研究結論句子很多)造成樣本分布不均勻,對于這些不均勻樣本直接采用分類的話會影響分類效果,所以需要進行樣本類平衡處理,有三種辦法可以處理:1增加少數類樣本數量,2減少多數類樣本數量,3增加少數類樣本的權重比例。可以根據需要采用任何一種方法處理;
(32)訓練分類器,使用常用的分類器DecisionTree、SVM、GaussianNB、RandomForest、GradientBoosting等分別對輸入特征矩陣F和label訓練,可以選用5折交叉驗證,(80%數據訓練,20%的數據來測試)來平均訓練的分類器,某些情況下還要進行分類器的參數調優;
(33)評價分類器,評價參數主要是預測標簽的準確率,召回率,F值,a:正例測試文檔被正確分類為該類的數量,b:負例測試文檔被錯誤分類為屬于該類的數量,c:正例測試文檔被錯誤分類為不屬于該類的數量,d:負例測試文檔被正確分類為不屬于該類的數量,準確率precision=a/(a+b),召回率recall=a/(a=c),F=(2*precision*recall)/(precision+recall),選擇F值較大的分類器作為生成的模型,如果效果不太理想,需要調整分類器參數,選擇好分類器之后,將訓練得到的這個分類器序列化到硬盤上保存 起來,當需要應用測試的時候將其加載到內存即可進行應用預測;
步驟四:應用分類器預測研究結論標簽模塊
將待預測的rec文本全文字段的正文部分經過程序分句提取出對應的特征矩陣,{f0,f1......f223}這種形式,然后可以加載訓練保存的分類器模型進行預測出對應的研究結論標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同方知網(北京)技術有限公司;《中國學術期刊(光盤版)》電子雜志社有限公司,未經同方知網(北京)技術有限公司;《中國學術期刊(光盤版)》電子雜志社有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610125685.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種域名資源緩存方法及裝置
- 下一篇:一種數字報紙展示方法及系統





