[發(fā)明專利]一種基于組合特征加權的科技文獻標注精簡研究結(jié)論的方法流程在審
| 申請?zhí)枺?/td> | 201610125685.1 | 申請日: | 2016-03-04 |
| 公開(公告)號: | CN107153664A | 公開(公告)日: | 2017-09-12 |
| 發(fā)明(設計)人: | 賀惠新;史亞平;張魏巍;熊海濤 | 申請(專利權)人: | 同方知網(wǎng)(北京)技術有限公司;《中國學術期刊(光盤版)》電子雜志社有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京遠大卓悅知識產(chǎn)權代理事務所(普通合伙)11369 | 代理人: | 史霞 |
| 地址: | 100084 北京市海淀區(qū)清華*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 組合 特征 加權 科技 文獻 標注 精簡 研究 結(jié)論 方法 流程 | ||
技術領域
本發(fā)明新型涉及基于組合特征加權的科技文獻標注精簡研究結(jié)論的方法流程技術領域,具體為一種基于組合特征加權的科技文獻標注精簡研究結(jié)論的方法流程。
背景技術
伴隨著科學技術的飛速發(fā)展,文獻在各個學科及各種生活、生產(chǎn)領域總均有廣泛應用,且數(shù)量巨大,文獻的精簡的研究結(jié)論作為一種簡明扼要的信息歸結(jié)內(nèi)容,亦廣泛存在于文獻的原始語句中,而從文獻中抽取出這些句子實際上仍是基于人工閱讀和標注,這就帶來很大的勞動量,不適合海量的文獻的信息提取,而目前研究中對文獻研究結(jié)論提出的提取方法,多數(shù)基于文本分類的文章,有基于文本情感分析,文本相似度檢測、基本利用規(guī)則抽、統(tǒng)計機器學習方法等進行文本處理科技術語,命名實體識別等,但對于期刊中文文本來講,其規(guī)則復雜性太高,而單獨基于統(tǒng)計機器學習的方法對中文內(nèi)容識別其效果依賴于特征的選取,這給實際提取本發(fā)明基于期刊論文等資源,從內(nèi)容碎片化角度上將文章碎片化為句子級別,以句子為單位來抽取每篇文章的研究結(jié)論,作為每篇文章的得到的實際結(jié)論。
發(fā)明新型內(nèi)容
本發(fā)明新型的目的在于提供一種基于組合特征加權的科技文獻標注精簡研究結(jié)論的方法流程,以解決上述背景技術中提出的問題。
為實現(xiàn)上述目的,本發(fā)明新型提供如下技術方案:一種基于組合特征加權的科技文獻標注精簡研究結(jié)論的方法流程,其包括分類抽取流程,既是基于訓練語料,做數(shù)據(jù)前清洗,然后分句獲得句子和類標簽,句子特征選擇進行特征化,然后訓練分類器,評價分類器,對訓練的分類器進行保存序列化,在應用階段,獲得應用文本,對其同樣數(shù)據(jù)清洗,分句,然后特征化(應用 階段chi詞特征是使用訓練階段的chi詞),加載訓練分類器對應用文本進行研究結(jié)論預測,之后對預測的結(jié)果句子人工審核,進行后數(shù)據(jù)清洗處理,然后將這些清洗規(guī)則加入到原有程序中,迭代實驗,具體的步驟如下:
步驟一:前數(shù)據(jù)清洗模塊
由于句子本身會有亂碼公式表格英文字母數(shù)字等,需要對句子進行預處理去掉這些臟東西,在這里需要數(shù)據(jù)前清洗,閱讀大量待處理的文本,總結(jié)出的文本前處理特點,結(jié)合其特點采用規(guī)則處理清洗;
步驟二:訓練階段模塊
獲取訓練樣本的全文文本,這些訓練樣本全部經(jīng)過人工標注,即對全文字段中的全部內(nèi)容(這里指的是正文的全部內(nèi)容,不包括參考文獻等),按照句子級別(句號)標出屬于研究結(jié)論的句子,非研究結(jié)論的句子不予標注,一篇文章可以標注多個結(jié)論句子,經(jīng)過程序處理獲得全篇的句子(保持原文句子順序)和對應的標簽屬于研究結(jié)論的句子對應的標簽為正例1,不屬于研究結(jié)論的句子對應標簽為反例0,假如一篇被標注的文章有50句子,標記為研究結(jié)論的5句,其余45句是非研究結(jié)論,那么正例就是5句話,反例45句話,這樣就獲得了句子樣本數(shù)據(jù),假如有10篇標注的文章,那么按照文章的順序,每篇文章分50個句子,那么就是500個句子,具體的,訓練過程的算法為:
(1)獲取樣本
獲取訓練樣本文句子記錄為集合Sens={Sens(i)},對應的句子訓練標簽集合為Labels={Labels(i)},句子總數(shù)為N,各個句子表示為Sens(i),其中1=<i<=N,要求N盡可能大,N>=10000,Labels(i)的取值為1或0兩種取值,其中1代表本句子是研究結(jié)論句,為正例表示,0代表本句子是非研究結(jié)論句子,為反例表示;
(2)對訓練語料Sens(i)句子進行特征化表示,句子特征化這里使用了以下特征:人工標記的標識詞特征1個、chi詞頻特征200個、句子所在文章級別的相關特征4個、句子級別的相關特征10個、詞語級別的相關特征3 個、句序特征1個、句序比特征1個、句子結(jié)論段特征4個,一共224個特征,可以表示為F={f1,f2,f3……fn},fi表示每個特征n為224,f0到f224一共224個特征,每個句子都要提取224個特征;
步驟三:選取分類器訓練與評價模塊
(31)樣本類平衡處理,這里分類屬于二分類問題,由于樣本中正例(研究結(jié)論句子很少),反例(非研究結(jié)論句子很多)造成樣本分布不均勻,對于這些不均勻樣本直接采用分類的話會影響分類效果,所以需要進行樣本類平衡處理,有三種辦法可以處理:1增加少數(shù)類樣本數(shù)量,2減少多數(shù)類樣本數(shù)量,3增加少數(shù)類樣本的權重比例。可以根據(jù)需要采用任何一種方法處理;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同方知網(wǎng)(北京)技術有限公司;《中國學術期刊(光盤版)》電子雜志社有限公司,未經(jīng)同方知網(wǎng)(北京)技術有限公司;《中國學術期刊(光盤版)》電子雜志社有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610125685.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





