[發(fā)明專利]多粒度融合的分詞方法、裝置、設(shè)備和存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110776456.7 | 申請日: | 2021-07-08 |
| 公開(公告)號: | CN113505592A | 公開(公告)日: | 2021-10-15 |
| 發(fā)明(設(shè)計(jì))人: | 顧敏;杜向陽;徐芳 | 申請(專利權(quán))人: | 上海艾爵斯信息科技有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京知果之信知識產(chǎn)權(quán)代理有限公司 11541 | 代理人: | 卜榮麗;李志剛 |
| 地址: | 200000 上海市徐匯區(qū)*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 粒度 融合 分詞 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
本申請公開了一種多粒度融合的分詞方法、裝置、設(shè)備和存儲介質(zhì)。一種多粒度融合的分詞方法,包括:建立粗粒度法律分詞語料集合和細(xì)粒度法律分詞語料集合;根據(jù)所述粗粒度法律分詞語料集合和細(xì)粒度法律分詞語料集合對法律分詞模型進(jìn)行訓(xùn)練;將待識別的文本輸入到經(jīng)過訓(xùn)練的法律分詞模型中進(jìn)行分詞,分別得到粗粒度和細(xì)粒度的分詞結(jié)果。本申請采用多粒度分詞方法,滿足法律場景中的分詞需求。對于文本的理解與認(rèn)知需要分詞作為輔助,本發(fā)明可以提高文本閱讀效率,發(fā)現(xiàn)法律領(lǐng)域中的特定詞組。
技術(shù)領(lǐng)域
本申請涉及分詞處理技術(shù)領(lǐng)域,具體而言,涉及一種多粒度融合的分詞方法、裝置、設(shè)備和存儲介質(zhì)。
背景技術(shù)
現(xiàn)有技術(shù)中,分詞方法主要是面向通用的數(shù)據(jù)集的,無法滿足特定的某一個(gè)場景的需求,比如,法律場景需求。法律領(lǐng)域中存在著大量的法律實(shí)體,通用的分詞模型無法準(zhǔn)確對于此類法律實(shí)體進(jìn)行切分,如“中華人民共和國刑法”被誤分為“中華人民共和國”和“刑法”兩個(gè)詞語。分詞結(jié)果對于法律認(rèn)識閱讀會(huì)產(chǎn)生障礙,帶來不好的體驗(yàn)度。
發(fā)明內(nèi)容
本申請的主要目的在于提供一種多粒度融合的分詞方法、裝置、設(shè)備和存儲介質(zhì),以解決上述問題。
為了實(shí)現(xiàn)上述目的,根據(jù)本申請的一個(gè)方面,提供了一種多粒度融合的分詞方法。
本申請的多粒度融合的分詞方法,包括:
建立粗粒度法律分詞語料集合和細(xì)粒度法律分詞語料集合;
根據(jù)所述粗粒度法律分詞語料集合和細(xì)粒度法律分詞語料集合對法律分詞模型進(jìn)行訓(xùn)練;
將待識別的文本輸入到經(jīng)過訓(xùn)練的法律分詞模型中進(jìn)行分詞,得到粗粒度和細(xì)粒度的分詞結(jié)果。
進(jìn)一步的,建立粗粒度法律分詞語料集合和細(xì)粒度法律分詞語料集合,包括:
根據(jù)信息處理用現(xiàn)代漢語分詞規(guī)范標(biāo)準(zhǔn)和法律專業(yè)知識設(shè)計(jì)粗粒度和細(xì)粒度分詞規(guī)則;
根據(jù)所述分詞規(guī)則進(jìn)行分詞數(shù)據(jù)集標(biāo)注,并劃分成粗粒度法律分詞語料集合和細(xì)粒度法律分詞語料集合。
進(jìn)一步的,將待識別的文本輸入到經(jīng)過訓(xùn)練的法律分詞模型中進(jìn)行分詞得到粗粒度和細(xì)粒度的分詞結(jié)果之后,所述方法還包括:
采用預(yù)先設(shè)定的自定義詞表對所述分詞結(jié)果進(jìn)行修正。
進(jìn)一步的,采用預(yù)先設(shè)定的自定義詞表對所述分詞結(jié)果進(jìn)行修正,包括:
判斷所述自定義詞表中是否包含分詞結(jié)果;如果是,則判斷所述自定義詞表中是否存在所述分詞結(jié)果的子集,或者,是否存在包含所述分詞結(jié)果的長詞組;
如果是,則讀取所述自定義詞表中,所述分詞結(jié)果的子集,或包含所述分詞結(jié)果的長詞組作為候選集合;
根據(jù)所述候選集合對所述分詞結(jié)果中的相關(guān)的詞進(jìn)行替換。
進(jìn)一步的,根據(jù)所述候選集合對所述分詞結(jié)果中的相關(guān)的詞進(jìn)行替換,包括:
判斷所述自定義詞表中是否包含詞頻;
如果是,則確定所述候選集合中詞頻最高的詞語;
確定分詞結(jié)果中與所述候選集合中詞頻最高的詞語的相關(guān)詞語;
在所述分詞結(jié)果中,使用所述詞頻最高的詞語替換掉相關(guān)詞語,得到修正后的分詞結(jié)果。
進(jìn)一步的,如果所述自定義詞表中不包含詞頻,所述方法還包括:
確定所述候選集合中詞長最長的詞組;
確定所述分詞結(jié)果中與所述詞長最長的詞組相關(guān)的詞;
在所述分詞結(jié)果中,使用所述詞長最長的詞組替換掉相關(guān)的詞,得到修正后的分詞結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海艾爵斯信息科技有限公司,未經(jīng)上海艾爵斯信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110776456.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





