[發(fā)明專利]一種分詞方法、裝置、系統(tǒng)及設(shè)備在審
| 申請?zhí)枺?/td> | 202111334749.6 | 申請日: | 2021-11-11 |
| 公開(公告)號: | CN114065757A | 公開(公告)日: | 2022-02-18 |
| 發(fā)明(設(shè)計)人: | 梁浩晨 | 申請(專利權(quán))人: | 東方財富信息股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289 |
| 代理公司: | 上海百一領(lǐng)御專利代理事務(wù)所(普通合伙) 31243 | 代理人: | 王奎宇;朱永海 |
| 地址: | 201800 上海*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 分詞 方法 裝置 系統(tǒng) 設(shè)備 | ||
1.一種分詞方法,其特征在于,所述方法包括:
對獲取的待分詞文本進(jìn)行分詞,獲取第一分詞結(jié)果;
基于第一預(yù)設(shè)條件,遍歷所述第一分詞結(jié)果,對所述第一分詞結(jié)果中的每個分詞進(jìn)行判斷,若當(dāng)前分詞符合所述第一預(yù)設(shè)條件,則將當(dāng)前分詞確定為觸發(fā)詞;
判斷所述觸發(fā)詞前后預(yù)設(shè)范圍內(nèi)的其它詞是否滿足第二預(yù)設(shè)條件,若滿足,則基于預(yù)設(shè)規(guī)則對所述觸發(fā)詞前后預(yù)設(shè)范圍內(nèi)的分詞結(jié)果進(jìn)行重新分詞;
繼續(xù)遍歷,直至所述第一分詞結(jié)果的最后一個分詞,獲取第二分詞結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對獲取的待分詞文本進(jìn)行分詞,獲取第一分詞結(jié)果包括:
獲取待分詞文本;
采用基于維特比算法的分詞工具,對所述待分詞文本進(jìn)行分詞,獲取第一分詞結(jié)果。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一預(yù)設(shè)條件包括以下至少任一項:
預(yù)設(shè)的一個或多個詞名稱;
預(yù)設(shè)的一種或多種詞性。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第二預(yù)設(shè)條件包括以下至少任一項:
預(yù)設(shè)的一個或多個詞名稱;
預(yù)設(shè)的一種或多種詞性。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述繼續(xù)遍歷之前,所述方法還包括:
將當(dāng)前遍歷位置移動至所述觸發(fā)詞前后預(yù)設(shè)范圍內(nèi)的分詞結(jié)果之前的一個分詞。
6.一種分詞裝置,其特征在于,所述裝置包括:
第一模塊,用于對獲取的待分詞文本進(jìn)行分詞,獲取第一分詞結(jié)果;
第二模塊,用于基于第一預(yù)設(shè)條件,遍歷所述第一分詞結(jié)果,對所述第一分詞結(jié)果中的每個分詞進(jìn)行判斷,若當(dāng)前分詞符合所述第一預(yù)設(shè)條件,則將當(dāng)前分詞確定為觸發(fā)詞;
第三模塊,用于判斷所述觸發(fā)詞前后預(yù)設(shè)范圍內(nèi)的其它詞是否滿足第二預(yù)設(shè)條件,若滿足,則基于預(yù)設(shè)規(guī)則對所述觸發(fā)詞前后預(yù)設(shè)范圍內(nèi)的分詞結(jié)果進(jìn)行重新分詞;
第四模塊,用于繼續(xù)遍歷,直至所述第一分詞結(jié)果的最后一個分詞,獲取第二分詞結(jié)果。
7.一種分詞系統(tǒng),其特征在于,所述系統(tǒng)包括:
第一單元,用于維護(hù)詞典數(shù)據(jù);
第二單元,用于利用所述詞典數(shù)據(jù),對獲取的待分詞文本執(zhí)行維特比算法,獲取第一分詞結(jié)果;
第三單元,用于維護(hù)規(guī)則數(shù)據(jù),其中,所述規(guī)則數(shù)據(jù)包括第一預(yù)設(shè)條件、第二預(yù)設(shè)條件、預(yù)設(shè)范圍和預(yù)設(shè)規(guī)則。
第四單元,用于根據(jù)規(guī)則數(shù)據(jù),對所述第一分詞結(jié)果進(jìn)行遍歷處理,獲取第二分詞結(jié)果,其中,對所述第一分詞結(jié)果進(jìn)行遍歷處理包括:
若所述第一分詞結(jié)果中的當(dāng)前分詞符合所述第一預(yù)設(shè)條件,則將當(dāng)前分詞確定為觸發(fā)詞,判斷所述觸發(fā)詞前后預(yù)設(shè)范圍內(nèi)的其它詞是否滿足第二預(yù)設(shè)條件,若滿足,則基于預(yù)設(shè)規(guī)則對所述觸發(fā)詞前后預(yù)設(shè)范圍內(nèi)的分詞結(jié)果進(jìn)行重新分詞,繼續(xù)遍歷,直至所述第一分詞結(jié)果的最后一個分詞。
8.一種計算機(jī)可讀介質(zhì),其特征在于,
其上存儲有計算機(jī)可讀指令,所述計算機(jī)可讀指令被處理器執(zhí)行以實現(xiàn)如權(quán)利要求1至5中任一項所述的方法。
9.一種分詞設(shè)備,其特征在于,所述設(shè)備包括:
一個或多個處理器;以及
存儲有計算機(jī)可讀指令的存儲器,所述計算機(jī)可讀指令在被執(zhí)行時使所述處理器執(zhí)行如權(quán)利要求1至5中任一項所述方法的操作。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東方財富信息股份有限公司,未經(jīng)東方財富信息股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111334749.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





