[發(fā)明專利]一種自由定制的中文預(yù)處理方法及其系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710827271.8 | 申請日: | 2017-09-14 |
| 公開(公告)號: | CN107577666B | 公開(公告)日: | 2019-11-19 |
| 發(fā)明(設(shè)計)人: | 何峻青;涂曼姝;趙學(xué)敏;顏永紅 | 申請(專利權(quán))人: | 中國科學(xué)院聲學(xué)研究所 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 11472 北京方安思達(dá)知識產(chǎn)權(quán)代理有限公司 | 代理人: | 陳琳琳;張紅生<國際申請>=<國際公布> |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 自由 定制 中文 預(yù)處理 方法 及其 系統(tǒng) | ||
1.一種自由定制的中文預(yù)處理方法,具體步驟如下:
步驟1)從配置文件中讀取參數(shù)列表并記錄;
步驟2)判斷輸入是否為一個文件夾;若輸入為文件夾,則開辟進(jìn)程池,進(jìn)程數(shù)目為設(shè)定的參數(shù)threads,后續(xù)進(jìn)行多進(jìn)程操作,讀取并處理所述文件夾中的每個文件,生成詞典,合并詞典;若輸入不是一個文件夾,而是單個文件,再判斷進(jìn)程數(shù)threads是否大于1,如果進(jìn)程數(shù)threads大于1,則將該單個文件分割成threads個子文件,然后開辟進(jìn)程池,進(jìn)程數(shù)目為設(shè)定的參數(shù)threads,后續(xù)進(jìn)行多進(jìn)程操作,讀取并處理每個子文件,生成詞典,然后合并詞典;如果進(jìn)程數(shù)等于1,則進(jìn)行單進(jìn)程操作,讀取并處理單個文件,生成詞典;
步驟3)根據(jù)步驟2)處理得到的詞典,進(jìn)一步生成一個全局詞典,保存在outputdir文件夾下的df文件夾中;對步驟2)輸入的每一個文件夾中的文件或單個文件的子文件,生成分詞后的結(jié)果和帶詞頻的結(jié)果,并分別保存在用戶指定的outputdir文件夾下的seg文件夾、tf文件夾;
步驟4)根據(jù)df文件夾中的全局詞典和參數(shù)列表中的dfTheshold閾值,計算全局的停用詞,再結(jié)合用戶指定的停用詞典userstopwords,生成一個全局停用詞詞典,并將其保存在outputdir文件夾下的df文件夾中;根據(jù)步驟3)中的tf文件夾,生成一個當(dāng)前文檔特有的停用詞詞典;
根據(jù)停用詞詞典,判斷每個所述文件或子文件中的每個詞是否在停用詞詞典中,若該詞在停用詞詞典中,則濾除該詞,若該停用詞不在停用詞詞典中,則將該詞保留;
將濾除后的文件或子文件保存到outputdir文件夾下的remove_words文件夾中,每個文檔特有的停用詞詞典在下一個文檔進(jìn)行停用詞濾除前將被更新,程序結(jié)束后文檔特有的停用詞詞典即被刪除;
步驟5)判斷步驟2)的輸入是否為單文件且多進(jìn)程;如果步驟2)的輸入為單個文件且多進(jìn)程,將remove_words文件夾中被分割的處理后的多個子文件進(jìn)行合并,得到一個大文件,并且將所述多個子文件刪除;否則,再繼續(xù)判斷是否為文件夾;如果是文件夾,則程序結(jié)束;如果是單進(jìn)程,則程序結(jié)束。
2.根據(jù)權(quán)利要求1所述的自由定制的中文預(yù)處理方法,其特征在于,步驟1)中,所述配置文件采用yaml的格式,所述參數(shù)有數(shù)值和類型警報機制。
3.根據(jù)權(quán)利要求1所述的自由定制的中文預(yù)處理方法,其特征在于,步驟1)中,所述參數(shù)列表包括:要刪除的字符,記為delete,采用列表的數(shù)據(jù)結(jié)構(gòu)存儲;要替換的字符,記為punchdic,采用字典數(shù)據(jù)結(jié)構(gòu)存儲;需要提取內(nèi)容的標(biāo)簽,extractbetween,采用字典數(shù)據(jù)結(jié)構(gòu)存儲;文檔單元,表示每行一個文檔還是整個文件一個文檔,記為documentunit;是否去除第一行,記為deletefirstline;是否轉(zhuǎn)換成簡體中文,記為if2simplified;是否分詞,記為ifseg;分詞粒度,記為seglevel;用于分詞的自定義詞典,記為userdic;詞頻-逆文檔頻率閾值,記為tfidfThreshold;文檔頻率閾值,記為dfThreshold;進(jìn)程數(shù),記為threads;是否刪除出現(xiàn)一次的詞,記為deletesingle;輸入形式,記為inputform;語料路徑,記為corpuspath;用戶已經(jīng)處理好的文件夾,記為userprocessdir;用戶自定義停用詞文件,記為userstopwords;輸出文件夾,記為outputdir。
4.根據(jù)權(quán)利要求1所述的自由定制的中文預(yù)處理方法,其特征在于,步驟2)中進(jìn)行多進(jìn)程操作的具體步驟如下:
如果輸入是一個文件夾,則獲取所述文件夾中的所有文檔的路徑,并將其放入到進(jìn)程共享的列表中,每個進(jìn)程從中取出一個路徑,刪除列表中該路徑,然后讀取文檔并進(jìn)行相應(yīng)的文本處理,直到該路徑列表為空,返回各個線程的詞典和總文檔數(shù);然后合并詞典和文檔數(shù);
如果輸入為單個文件,且進(jìn)程數(shù)大于1,則將所述單個文件均勻分割成threads個子文件,每個子文件的字節(jié)數(shù)相同,每個進(jìn)程處理一個子文件,最后合并詞典和文檔數(shù);如果進(jìn)程數(shù)為1,就直接處理并返回詞典和文檔數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院聲學(xué)研究所,未經(jīng)中國科學(xué)院聲學(xué)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710827271.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:文本情感傾向的判別方法
- 下一篇:一種實體詞處理方法和裝置
- 電鍍預(yù)處理溶液和電鍍預(yù)處理方法
- 鐵水預(yù)處理方法及其預(yù)處理裝置
- 預(yù)處理裝置及其預(yù)處理方法
- 預(yù)處理組件、使用該預(yù)處理組件進(jìn)行試樣的預(yù)處理的預(yù)處理裝置及包括該預(yù)處理裝置的分析系統(tǒng)
- 待測樣品預(yù)處理裝置、預(yù)處理筒及預(yù)處理方法
- 醋酸纖維卷曲預(yù)處理裝置、預(yù)處理液及預(yù)處理方法
- 預(yù)處理裝置
- 預(yù)處理濾芯
- 甘薯儲藏預(yù)處理設(shè)備及預(yù)處理方法
- 水樣預(yù)處理裝置、水樣預(yù)處理系統(tǒng)及水樣預(yù)處理方法





