[發(fā)明專利]分詞模型訓(xùn)練方法和裝置、及存儲(chǔ)介質(zhì)有效
| 申請?zhí)枺?/td> | 201711450699.1 | 申請日: | 2017-12-27 |
| 公開(公告)號: | CN108038108B | 公開(公告)日: | 2021-12-10 |
| 發(fā)明(設(shè)計(jì))人: | 李玉信;崔朝輝;趙立軍;張霞 | 申請(專利權(quán))人: | 東軟集團(tuán)股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289 |
| 代理公司: | 北京清亦華知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 張潤 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分詞 模型 訓(xùn)練 方法 裝置 存儲(chǔ) 介質(zhì) | ||
本發(fā)明提出一種分詞模型訓(xùn)練方法和裝置、及存儲(chǔ)介質(zhì),其中方法包括:獲取訓(xùn)練語料;對訓(xùn)練語料中的至少一篇文檔進(jìn)行拆分,獲取各個(gè)類型對應(yīng)的語料元素集;從各個(gè)類型對應(yīng)的語料元素集中抽取語料元素,得到待訓(xùn)練語料元素集;待訓(xùn)練語料元素集中,每個(gè)類型的語料元素?cái)?shù)量滿足預(yù)設(shè)閾值;對待訓(xùn)練語料元素集中的各個(gè)語料元素進(jìn)行分詞以及詞性標(biāo)注,并對分詞模型進(jìn)行訓(xùn)練,從而能夠采用各種類型的語料元素對分詞模型進(jìn)行訓(xùn)練,避免采用多個(gè)相同類型相似內(nèi)容的訓(xùn)練語料,從而提高了訓(xùn)練得到的分詞模型的準(zhǔn)確度,降低了人工成本,提高了分詞模型的訓(xùn)練效率。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種分詞模型訓(xùn)練方法和裝置、及存儲(chǔ)介質(zhì)。
背景技術(shù)
目前,分詞作為自然語言處理的基礎(chǔ),分詞的準(zhǔn)確度直接影響自然語言處理的結(jié)果。為了獲取好的分詞結(jié)果,需要訓(xùn)練質(zhì)量好的分詞模型,而分詞模型的訓(xùn)練需要好的訓(xùn)練語料。
現(xiàn)有技術(shù)中,對分詞模型進(jìn)行訓(xùn)練的過程具體可以為,獲取訓(xùn)練語料,對訓(xùn)練語料進(jìn)行人工分詞以及詞性標(biāo)注,得到標(biāo)注后的訓(xùn)練語料,根據(jù)標(biāo)注后的訓(xùn)練語料對分詞模型進(jìn)行訓(xùn)練。然而上述對分詞模型進(jìn)行訓(xùn)練的過程中,訓(xùn)練語料中可能存在大量類型相同且內(nèi)容相似的訓(xùn)練語料,導(dǎo)致訓(xùn)練語料中的類型不全面,各類型的訓(xùn)練語料的數(shù)量可能差別太大,從而降低了訓(xùn)練得到的分詞模型的準(zhǔn)確度;或者,在分詞模型的準(zhǔn)確度確定的情況下,增加了需要準(zhǔn)備的訓(xùn)練語料的數(shù)量,增加了人工成本。
發(fā)明內(nèi)容
本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本發(fā)明的第一個(gè)目的在于提出一種分詞模型訓(xùn)練方法,用于解決現(xiàn)有技術(shù)中訓(xùn)練得到的分詞模型準(zhǔn)確度差,人工成本高的問題。
本發(fā)明的第二個(gè)目的在于提出一種分詞模型訓(xùn)練裝置。
本發(fā)明的第三個(gè)目的在于提出另一種分詞模型訓(xùn)練裝置。
本發(fā)明的第四個(gè)目的在于提出一種非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
本發(fā)明的第五個(gè)目的在于提出一種計(jì)算機(jī)程序產(chǎn)品。
為達(dá)上述目的,本發(fā)明第一方面實(shí)施例提出了一種分詞模型訓(xùn)練方法,包括:
獲取訓(xùn)練語料;
對所述訓(xùn)練語料中的至少一篇文檔進(jìn)行拆分,獲取各個(gè)類型對應(yīng)的語料元素集;所述語料元素集中包括:對所述文檔拆分得到的相應(yīng)類型的至少一個(gè)語料元素;
從各個(gè)類型對應(yīng)的語料元素集中抽取語料元素,得到待訓(xùn)練語料元素集;所述待訓(xùn)練語料元素集中,每個(gè)類型的語料元素?cái)?shù)量滿足預(yù)設(shè)閾值;
對所述待訓(xùn)練語料元素集中的各個(gè)語料元素進(jìn)行分詞以及詞性標(biāo)注,得到標(biāo)注后的待訓(xùn)練語料元素集;
根據(jù)所述標(biāo)注后的待訓(xùn)練語料集對分詞模型進(jìn)行訓(xùn)練。
進(jìn)一步的,所述對所述訓(xùn)練語料中的至少一篇文檔進(jìn)行拆分,獲取各個(gè)類型對應(yīng)的語料元素集,包括:
對所述至少一篇文檔進(jìn)行拆分,獲取至少一個(gè)語料元素;
針對每個(gè)語料元素,采用N元模型對所述語料元素進(jìn)行切割,獲取所述語料元素中的切割詞;
根據(jù)所述切割詞,計(jì)算任意兩個(gè)語料元素之間的距離;
根據(jù)各個(gè)語料元素之間的距離,對所述至少一個(gè)語料元素進(jìn)行聚類,得到各個(gè)類型對應(yīng)的語料元素集。
進(jìn)一步的,所述語料元素為:至少一個(gè)句子、至少一個(gè)段落或者整篇文章。
進(jìn)一步的,所述從各個(gè)類型對應(yīng)的語料元素集中抽取語料元素,得到待訓(xùn)練語料元素集,包括:
針對每個(gè)類型對應(yīng)的語料元素集,在第一次抽取語料元素時(shí),從所述語料元素集中隨機(jī)抽取語料元素;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東軟集團(tuán)股份有限公司,未經(jīng)東軟集團(tuán)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711450699.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





