[發(fā)明專(zhuān)利]一種基于機(jī)器學(xué)習(xí)的分詞方法及終端設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 201811181894.3 | 申請(qǐng)日: | 2018-10-11 |
| 公開(kāi)(公告)號(hào): | CN109492217A | 公開(kāi)(公告)日: | 2019-03-19 |
| 發(fā)明(設(shè)計(jì))人: | 吳壯偉 | 申請(qǐng)(專(zhuān)利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類(lèi)號(hào): | G06F17/27 | 分類(lèi)號(hào): | G06F17/27 |
| 代理公司: | 深圳中一專(zhuān)利商標(biāo)事務(wù)所 44237 | 代理人: | 官建紅 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分詞 文本數(shù)據(jù) 基于機(jī)器 特征向量 終端設(shè)備 訓(xùn)練集 預(yù)設(shè) 文本 分詞處理 關(guān)系構(gòu)建 構(gòu)建 學(xué)習(xí) | ||
本發(fā)明提供了一種基于機(jī)器學(xué)習(xí)的分詞方法及終端設(shè)備,包括:獲取經(jīng)過(guò)人工分詞的文本數(shù)據(jù);針對(duì)文本數(shù)據(jù)中的任一字符,判斷字符的類(lèi)型;根據(jù)字符的類(lèi)型、在文本數(shù)據(jù)中與字符相鄰且位于字符前面的第一預(yù)設(shè)數(shù)目的字符的類(lèi)型、在文本數(shù)據(jù)中與字符相鄰且位于字符后面的第二預(yù)設(shè)數(shù)目的字符的類(lèi)型,獲取字符的特征向量,得到訓(xùn)練集;構(gòu)建分詞模型,通過(guò)訓(xùn)練集對(duì)分詞模型進(jìn)行訓(xùn)練;根據(jù)完成訓(xùn)練的分詞模型,將待處理文本進(jìn)行分詞處理。本發(fā)明根據(jù)字符與其上下文字符的類(lèi)型關(guān)系構(gòu)建特征向量,對(duì)不同的文本進(jìn)行分詞適應(yīng)性更好,從而提高了分詞的精度。
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種基于機(jī)器學(xué)習(xí)的分詞方法及終端設(shè)備。
背景技術(shù)
在自然語(yǔ)言處理或計(jì)算機(jī)語(yǔ)言中,新詞是指以前從來(lái)沒(méi)有出現(xiàn)過(guò)的詞匯,或者在詞典中沒(méi)有收錄的詞匯。隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,各行各業(yè)隨之出現(xiàn)了多種新詞,尤其是web2.0應(yīng)用的出現(xiàn),允許用戶(hù)自己創(chuàng)造網(wǎng)頁(yè)內(nèi)容,從而導(dǎo)致大量新詞涌現(xiàn)。
在中文信息處理領(lǐng)域,由于中文不像英文等西方語(yǔ)言,詞與詞之間有固定的分隔符,因此中文分詞是一項(xiàng)重要的基礎(chǔ)技術(shù)。新詞的出現(xiàn)很大程度上影響自動(dòng)分詞工具的準(zhǔn)確性,使得分詞的精確度較低。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實(shí)施例提供了一種基于機(jī)器學(xué)習(xí)的分詞方法及終端設(shè)備,以解決現(xiàn)有技術(shù)分詞精確度低的問(wèn)題。
本發(fā)明實(shí)施例的第一方面提供了一種基于機(jī)器學(xué)習(xí)的分詞方法,包括:
獲取經(jīng)過(guò)人工分詞的文本數(shù)據(jù);
針對(duì)所述文本數(shù)據(jù)中的任一字符,判斷所述字符的類(lèi)型,其中,所述字符的類(lèi)型為標(biāo)點(diǎn)符號(hào)、阿拉伯?dāng)?shù)字、中文數(shù)字或字母中的一種,或,所述字符的類(lèi)型為所述字符單獨(dú)構(gòu)成一個(gè)中文詞語(yǔ)、所述字符位于一個(gè)中文詞語(yǔ)的詞首位置、所述字符位于一個(gè)中文詞語(yǔ)的中間位置或所述字符位于一個(gè)中文詞語(yǔ)的詞尾位置中的一種;
根據(jù)所述字符的類(lèi)型、在所述文本數(shù)據(jù)中與所述字符相鄰且位于所述字符前面的第一預(yù)設(shè)數(shù)目的字符的類(lèi)型、在所述文本數(shù)據(jù)中與所述字符相鄰且位于所述字符后面的第二預(yù)設(shè)數(shù)目的字符的類(lèi)型,獲取所述字符的特征向量,得到訓(xùn)練集;
構(gòu)建分詞模型,通過(guò)所述訓(xùn)練集對(duì)所述分詞模型進(jìn)行訓(xùn)練;
根據(jù)完成訓(xùn)練的分詞模型,將待處理文本進(jìn)行分詞處理。
本發(fā)明實(shí)施例的第二方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如下步驟:
獲取經(jīng)過(guò)人工分詞的文本數(shù)據(jù);
針對(duì)所述文本數(shù)據(jù)中的任一字符,判斷所述字符的類(lèi)型,其中,所述字符的類(lèi)型為標(biāo)點(diǎn)符號(hào)、阿拉伯?dāng)?shù)字、中文數(shù)字或字母中的一種,或,所述字符的類(lèi)型為所述字符單獨(dú)構(gòu)成一個(gè)中文詞語(yǔ)、所述字符位于一個(gè)中文詞語(yǔ)的詞首位置、所述字符位于一個(gè)中文詞語(yǔ)的中間位置或所述字符位于一個(gè)中文詞語(yǔ)的詞尾位置中的一種;
根據(jù)所述字符的類(lèi)型、在所述文本數(shù)據(jù)中與所述字符相鄰且位于所述字符前面的第一預(yù)設(shè)數(shù)目的字符的類(lèi)型、在所述文本數(shù)據(jù)中與所述字符相鄰且位于所述字符后面的第二預(yù)設(shè)數(shù)目的字符的類(lèi)型,獲取所述字符的特征向量,得到訓(xùn)練集;
構(gòu)建分詞模型,通過(guò)所述訓(xùn)練集對(duì)所述分詞模型進(jìn)行訓(xùn)練;
根據(jù)完成訓(xùn)練的分詞模型,將待處理文本進(jìn)行分詞處理。
本發(fā)明實(shí)施例的第三方面提供了一種終端設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)可讀指令,所述處理器執(zhí)行所述計(jì)算機(jī)可讀指令時(shí)實(shí)現(xiàn)如下步驟:
獲取經(jīng)過(guò)人工分詞的文本數(shù)據(jù);
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811181894.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種韻律預(yù)測(cè)方法及系統(tǒng)
- 一種基于KNN技術(shù)的語(yǔ)料庫(kù)文本分類(lèi)方法
- 文本數(shù)據(jù)標(biāo)注方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 數(shù)據(jù)采集方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本的處理、文本分類(lèi)模型的訓(xùn)練方法及裝置
- 文本加密方法及裝置、終端設(shè)備、存儲(chǔ)介質(zhì)
- 文本數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 富文本數(shù)據(jù)處理方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 文本分類(lèi)模型構(gòu)建、文本分類(lèi)方法及裝置
- 文本匹配方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于加工能力特征模型的機(jī)器組調(diào)度方法
- 人機(jī)匹配裝置、匹配系統(tǒng)、人機(jī)匹配方法以及人機(jī)匹配程序
- 基于SolidWorks、ADAMS環(huán)境的球形機(jī)器人綜合仿真方法
- 用于訓(xùn)練基于機(jī)器學(xué)習(xí)的模型的系統(tǒng)和計(jì)算機(jī)實(shí)施方法
- 一種機(jī)器人作業(yè)過(guò)程中的自動(dòng)控制方法及裝置
- 一種多模態(tài)機(jī)器人智能繪畫(huà)方法
- 一種基于機(jī)器人的視點(diǎn)規(guī)劃方法、裝置及測(cè)量系統(tǒng)
- 基于落足調(diào)整的四足機(jī)器人動(dòng)步態(tài)穩(wěn)定控制方法及系統(tǒng)
- 基于碰撞類(lèi)型劃分的多機(jī)器人路徑規(guī)劃方法和系統(tǒng)
- 一種基于末端誤差檢測(cè)信息子集的并聯(lián)機(jī)器人標(biāo)定方法





