[發(fā)明專利]用于圖紙排版的文本斷句方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201710187190.6 | 申請日: | 2017-03-27 |
| 公開(公告)號: | CN107038152A | 公開(公告)日: | 2017-08-11 |
| 發(fā)明(設(shè)計)人: | 席斌;李明;王興強;彭成超 | 申請(專利權(quán))人: | 成都優(yōu)譯信息技術(shù)股份有限公司 |
| 主分類號: | G06F17/25 | 分類號: | G06F17/25;G06F17/27;G06K9/62 |
| 代理公司: | 成都行之專利代理事務(wù)所(普通合伙)51220 | 代理人: | 馮龍 |
| 地址: | 610000 四川省成都*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 圖紙 排版 文本 斷句 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及圖紙排版,具體涉及用于圖紙排版的文本斷句方法及系統(tǒng)。
背景技術(shù)
隨著國際合作日益加強,無論是中國公司還是外國公司,在國際工程與國際科研的立項及開展過程中,都需要通過圖紙文件與對方進行交流。圖紙文件中的注釋內(nèi)容、公司信息和標注等文本往往需要進行非語法的斷句,由于各種語言文化的差異,這些文本斷句往往也存在極大的區(qū)別,增大了文本斷句的難度。
傳統(tǒng)對圖紙排版中文本的斷句,往往采用人工排版和人工斷句,費時費力,成本較高;同時,對不同語言的圖紙需要不同的工作人員對其進行排版和斷句,極大的降低了圖紙排版效率。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是在圖紙排版中采用人工斷句時,費時費力,成本較高,多語種圖紙文本斷句效率低下,目的在于提供用于圖紙排版的文本斷句方法及系統(tǒng),解決上述問題。
本發(fā)明通過下述技術(shù)方案實現(xiàn):
用于圖紙排版的文本斷句方法,包括以下步驟:S1:對完成斷句的句群進行SVM學(xué)習(xí);S2:利用學(xué)習(xí)后的SVM對需要斷句的句群進行分析;S3:根據(jù)分析結(jié)果對需要斷句的句群進行斷句。
現(xiàn)有技術(shù)中,圖紙排版中采用人工斷句時,費時費力,成本較高,多語種圖紙文本斷句效率低下。本發(fā)明應(yīng)用時,先對完成斷句的句群進行SVM學(xué)習(xí),再利用學(xué)習(xí)后的SVM對需要斷句的句群進行分析,然后根據(jù)分析結(jié)果對需要斷句的句群進行斷句,從而實現(xiàn)對圖紙排版中的文字進行機器斷句,提高了文本斷句效率,降低了成本。對斷句的句群進行機器學(xué)習(xí)時,由于句群的特征量龐大,使得學(xué)習(xí)樣本為高維樣本,一般的機器學(xué)習(xí)方法在這里需要對學(xué)習(xí)樣本進行降維處理,同時,句群的特征量一般為非線性數(shù)據(jù),一般的機器學(xué)習(xí)方法對非線性問題處理效果不好。針對以上兩個特點,發(fā)明人通過大量實驗和創(chuàng)造性勞動,優(yōu)選出SVM作為本發(fā)明的機器學(xué)習(xí)方法,SVM適合解決高維問題,而不需要對學(xué)習(xí)樣本進行降維處理,提高了文本斷句效率,同時SVM適合解決非線性問題,提高了本發(fā)明的處理效果。SVM比起其他機器學(xué)習(xí)方法,還具有小樣本情況下,機器學(xué)習(xí)的能力,這就使得進行多語種圖紙文本斷句時,只需要增加一個語種的小樣本進行學(xué)習(xí),就可以實現(xiàn)對該語種圖紙文本的斷句, 提高了多語種圖紙文本斷句的效率。
進一步的,步驟S1包括以下子步驟:S11:收集完成斷句的句群;S12:標記完成斷句的句群中需要提取特征的地方;S13:對標記后句群的特征進行SVM學(xué)習(xí)。
本發(fā)明應(yīng)用時,先收集完成斷句的句群,再標記完成斷句的句群中需要提取特征的地方,然后對標記后句群的特征進行SVM學(xué)習(xí)。本發(fā)明通過對完成斷句的句群進行標記,提高了提取特征的準確性和效率。
再進一步的,步驟S13中所述SVM學(xué)習(xí)包括利用線性核函數(shù)對特征進行處理。
本發(fā)明應(yīng)用時,所述SVM學(xué)習(xí)包括利用線性核函數(shù)對特征進行處理。SVM在機器學(xué)習(xí)的過程中,需要數(shù)據(jù)是可分的,而句群的特征量在當前維度是不可分的,于是需要通過核函數(shù)對該句群的特征量進行升維使得句群的特征量在更高的維度上可分。發(fā)明人選取了線性核函數(shù)、多項式核函數(shù)、sigmoid核函數(shù)和高斯核函數(shù)等多種核函數(shù)進行大量的實驗和創(chuàng)造性勞動發(fā)現(xiàn),多項式核函數(shù)、sigmoid核函數(shù)和高斯核函數(shù)在機器學(xué)習(xí)過程中,會使得SVM出現(xiàn)過學(xué)習(xí)現(xiàn)象,從而將線性核函數(shù)優(yōu)選為本發(fā)明所使用的核函數(shù),使得SVM學(xué)習(xí)過程更加穩(wěn)定,對文本斷句處理更加準確。
再進一步的,所述SVM學(xué)習(xí)后形成二元分類器。
本發(fā)明應(yīng)用時,SVM學(xué)習(xí)后形成二元分類器,使得SVM在對需要斷句的句群分析時,只需要通過二元分類器將該句群的特征值與學(xué)習(xí)的特征值進行“是”與“否”的判斷,就可以得出需要斷句的位置,提高了文本斷句效率。
進一步的,步驟S2包括以下子步驟:S21:輸入需要斷句的句群;S22:標記需要斷句的句群中需要提取特征的地方;S23:對標記后句群的特征通過SVM進行分析。
本發(fā)明應(yīng)用時,先輸入需要斷句的句群,再標記需要斷句的句群中需要提取特征的地方,然后對標記后句群的特征通過SVM進行分析。本發(fā)明通過對需要斷句的句群進行標記,提高了提取特征的準確性和效率。
用于圖紙排版的文本斷句系統(tǒng),包括:對完成斷句的句群進行SVM學(xué)習(xí)的學(xué)習(xí)單元;利用學(xué)習(xí)后的SVM對需要斷句的句群進行分析的分析單元;根據(jù)分析結(jié)果對需要斷句的句群進行斷句的斷句單元。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都優(yōu)譯信息技術(shù)股份有限公司,未經(jīng)成都優(yōu)譯信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710187190.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種恒張力自動放卷儲料機構(gòu)
- 下一篇:波紋管成型機





