[發(fā)明專利]一種序列還原方法及設(shè)備有效
| 申請?zhí)枺?/td> | 201611263256.7 | 申請日: | 2016-12-30 |
| 公開(公告)號: | CN106776577B | 公開(公告)日: | 2020-02-18 |
| 發(fā)明(設(shè)計(jì))人: | 張琪;郭鳳閣;張淑燕 | 申請(專利權(quán))人: | 寧波優(yōu)策信息技術(shù)有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30 |
| 代理公司: | 北京聯(lián)瑞聯(lián)豐知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11411 | 代理人: | 繆恩生 |
| 地址: | 315000 浙江省寧波市鄞州*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 序列 還原 方法 設(shè)備 | ||
本發(fā)明實(shí)施例公開了一種序列還原方法及設(shè)備,所述方法包括:所述設(shè)備將待切分序列作為輸入序列,獲取待切分序列的序列長度m;其中,m為正整數(shù);所述設(shè)備將待切分序列的序列首字與其后連續(xù)的n個(gè)字組成詞,獲取m個(gè)詞組,將所述m個(gè)詞組稱為第一詞組;其中,n為0到m?1的整數(shù);所述設(shè)備將所述第一詞組中各詞組與預(yù)先獲取的細(xì)粒度切分詞組進(jìn)行匹配,獲取匹配成功的詞組,將匹配成功的詞組稱為第二詞組;所述設(shè)備獲取所述第二詞組中各詞組序列長度,將所述第二詞組中詞組序列長度最長的詞組作為待切分序列的分割序列,從而解決了分詞結(jié)果的準(zhǔn)確率低下和分析速度慢的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,尤其涉及一種序列還原方法及設(shè)備。
背景技術(shù)
為了得到一句話的最優(yōu)分詞結(jié)果,我們會(huì)先使用機(jī)械切分器得到它認(rèn)為最好的切分結(jié)果,然后利用工具箱toolkits工具分析該結(jié)果與少部分隨機(jī)切分結(jié)果得到最優(yōu)的分詞結(jié)果。
目前機(jī)械切分器的切分結(jié)果只有智能切分以及細(xì)粒度切分。比如,切分器將“結(jié)婚的和尚未結(jié)婚的”這句話,按照智能模式切分為“結(jié)婚的|和尚|未|結(jié)婚的”,按照細(xì)粒度模式切分為“結(jié)婚的|結(jié)婚|的|和尚|尚未|未結(jié)婚|結(jié)婚|的”,這是目前切分器給出的方案。但這種方案只給出了切分器認(rèn)為的最好的結(jié)果以及其能夠切分出的所有詞的集合,并沒有給出“結(jié)婚的|和|尚未|結(jié)婚的”以及“結(jié)婚|的|和|尚未|結(jié)婚|的”等還原序列,利用toolkits去分析還原序列的最優(yōu)分詞結(jié)果。
因此,已有切分方案存在明顯的缺點(diǎn):機(jī)械切分器無法對序列進(jìn)行還原以供toolkits分析,從而toolkits不得不使用切分出的所有詞的組合得到的隨機(jī)結(jié)果進(jìn)行分析,這樣嚴(yán)重影響toolkits得到的分詞結(jié)果的準(zhǔn)確率和分析速度。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提出一種序列還原方法及設(shè)備,旨在解決分詞結(jié)果的準(zhǔn)確率低下和分析速度慢的問題。
為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:
第一方面,本發(fā)明實(shí)施例提供了一種序列還原方法,所述方法用于一種序列還原設(shè)備,所述方法包括:
所述設(shè)備將待切分序列作為輸入序列,獲取待切分序列的序列長度m;其中,m為正整數(shù);
所述設(shè)備將待切分序列的序列首字與其后連續(xù)的n個(gè)字組成詞,獲取m個(gè)詞組,將所述m個(gè)詞組稱為第一詞組;其中,n為0到m-1的整數(shù);
所述設(shè)備將所述第一詞組中各詞組與預(yù)先獲取的細(xì)粒度切分詞組進(jìn)行匹配,獲取匹配成功的詞組,將匹配成功的詞組稱為第二詞組;
所述設(shè)備獲取所述第二詞組中各詞組序列長度,將所述第二詞組中詞組序列長度最長的詞組作為待切分序列的分割序列。
在上述方案中,所述設(shè)備將所述第一詞組中各詞組與預(yù)先獲取的細(xì)粒度切分詞組進(jìn)行匹配,獲取匹配成功的詞組,將匹配成功的詞組稱為第二詞組,具體包括:
所述設(shè)備將所述第一詞組中各詞組與預(yù)先獲取的細(xì)粒度切分詞組進(jìn)行比較;
當(dāng)所述第一詞組中存在與預(yù)先獲取的細(xì)粒度切分詞組相同的詞組時(shí),所述設(shè)備獲取第一詞組中與預(yù)先獲取的細(xì)粒度切分詞組相同的詞組;
所述設(shè)備將第一詞組中與預(yù)先獲取的細(xì)粒度切分詞組相同的所有詞組稱為第二詞組。
在上述方案中,所述設(shè)備獲取所述第二詞組中各詞組序列長度,將所述第二詞組中詞組序列長度最長的詞組作為待切分序列的分割序列,具體包括:
所述設(shè)備獲取所述第二詞組中各詞組的序列長度;
所述設(shè)備將所述第二詞組中各詞組的序列長度進(jìn)行比較,獲取所述第二詞組中序列長度最長的詞組;
所述設(shè)備將所述第二詞組中序列長度最長的詞組作為待切分序列的分割序列。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于寧波優(yōu)策信息技術(shù)有限公司,未經(jīng)寧波優(yōu)策信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611263256.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗(yàn)設(shè)備、驗(yàn)證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動(dòng)設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點(diǎn)設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





