[發(fā)明專利]一種對(duì)文本序列進(jìn)行分詞的方法、裝置和電子設(shè)備有效
| 申請(qǐng)?zhí)枺?/td> | 201711364208.1 | 申請(qǐng)日: | 2017-12-18 |
| 公開(公告)號(hào): | CN108038103B | 公開(公告)日: | 2021-08-10 |
| 發(fā)明(設(shè)計(jì))人: | 蘇海波;劉鈺;劉譯璟;楊哲銘;楊中亮 | 申請(qǐng)(專利權(quán))人: | 沈陽(yáng)智能大數(shù)據(jù)科技有限公司 |
| 主分類號(hào): | G06F40/289 | 分類號(hào): | G06F40/289;G06N3/04 |
| 代理公司: | 北京國(guó)昊天誠(chéng)知識(shí)產(chǎn)權(quán)代理有限公司 11315 | 代理人: | 李瀟 |
| 地址: | 110623 遼寧省沈*** | 國(guó)省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 序列 進(jìn)行 分詞 方法 裝置 電子設(shè)備 | ||
1.一種對(duì)文本序列進(jìn)行分詞的方法,其特征在于,所述方法包括:
確定與所述文本序列對(duì)應(yīng)的概率矩陣,所述概率矩陣記錄有所述文本序列中的每個(gè)字符與預(yù)設(shè)的每個(gè)標(biāo)注字符相匹配的概率值,所述標(biāo)注字符用于對(duì)所述文本序列進(jìn)行分詞;
確定與所述概率矩陣對(duì)應(yīng)的轉(zhuǎn)移矩陣,所述轉(zhuǎn)移矩陣記錄了所述每個(gè)標(biāo)注字符之間的轉(zhuǎn)移概率;
根據(jù)所述概率矩陣和轉(zhuǎn)移矩陣,對(duì)所述文本序列進(jìn)行分詞;
其中,所述確定與所述概率矩陣對(duì)應(yīng)的轉(zhuǎn)移矩陣,具體為:
將所述概率矩陣輸入至條件隨機(jī)場(chǎng)模型CRF生成對(duì)應(yīng)的轉(zhuǎn)移矩陣;
條件隨機(jī)場(chǎng)模型是一種無向圖模型,是在給定需要標(biāo)記的觀察序列的條件下,計(jì)算整個(gè)標(biāo)記序列的聯(lián)合概率分布;
假設(shè)(X,Y)為一個(gè)線性鏈條件隨機(jī)場(chǎng),則線性鏈條件隨機(jī)場(chǎng)P(Y|X)的參數(shù)化表示為:
其中,z(x)表示規(guī)范化因子,tk表示轉(zhuǎn)移特征函數(shù),Sι表示狀態(tài)特征函數(shù),λk和μι分別為上述特征函數(shù)對(duì)應(yīng)的權(quán)值;一個(gè)線性鏈條件隨機(jī)場(chǎng)由上述轉(zhuǎn)移特征函數(shù)和狀態(tài)特征函數(shù)以及它們的權(quán)值唯一確定,λk和μι的取值為1或0,當(dāng)滿足特征條件時(shí)取1,反之取0;
將概率矩陣輸入CRF后,會(huì)通過最大似然概率算法得到轉(zhuǎn)移矩陣,轉(zhuǎn)移矩陣表示標(biāo)注字符之間的轉(zhuǎn)移概率;對(duì)于轉(zhuǎn)移矩陣A,其中,轉(zhuǎn)移矩陣A是一個(gè)方陣,設(shè)i為方陣的第i行,j為方陣的第j列,則Aij表示從第i個(gè)標(biāo)注字符轉(zhuǎn)移到第j個(gè)標(biāo)注字符的概率;轉(zhuǎn)移矩陣A通過訓(xùn)練過程最大化似然概率不斷更新,經(jīng)多次迭代后得到最優(yōu)的轉(zhuǎn)移矩陣A。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定與所述文本序列對(duì)應(yīng)的概率矩陣,包括:
獲取所述文本序列中的每個(gè)字符的字符向量;
將所述字符向量代替對(duì)應(yīng)的每個(gè)字符生成字符矩陣;
獲取所述字符矩陣的特征向量;
根據(jù)所述特征向量,生成概率矩陣。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述概率矩陣和轉(zhuǎn)移矩陣,對(duì)所述文本序列進(jìn)行分詞,包括:
根據(jù)所述概率矩陣和轉(zhuǎn)移矩陣,確定與所述文本序列對(duì)應(yīng)的標(biāo)注序列;
根據(jù)所述標(biāo)注序列中的標(biāo)注字符對(duì)所述文本序列進(jìn)行分詞。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述獲取所述文本序列中的每個(gè)字符的字符向量,包括:
獲取字符向量的映射字典,所述映射字典記錄了字符與對(duì)應(yīng)字符向量的映射關(guān)系;
從所述字符向量的映射字典中查找所述每個(gè)字符的字符向量。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述獲取所述文本序列中的每個(gè)字符的字符向量之前,所述方法還包括:
對(duì)采集的均衡語(yǔ)料進(jìn)行預(yù)處理生成訓(xùn)練數(shù)據(jù);
通過預(yù)設(shè)的模型對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練生成對(duì)應(yīng)的字符向量模型;
根據(jù)所述字符向量模型生成字符向量的映射字典。
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述特征向量,生成概率矩陣,包括:
將兩個(gè)時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)LSTM連接至同一輸出層,所述兩個(gè)LSTM的時(shí)序方向相反;
將所述特征向量分別輸入至所述兩個(gè)LSTM;
獲取所述兩個(gè)LSTM在預(yù)設(shè)時(shí)間段內(nèi)的每一個(gè)時(shí)間節(jié)點(diǎn)生成的輸出向量;
對(duì)所述每一個(gè)時(shí)間節(jié)點(diǎn)形成的輸出向量進(jìn)行拼接生成拼接向量;
將所述拼接向量傳輸至所述輸出層生成輸出向量;
將所述輸出向量合成為概率矩陣。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于沈陽(yáng)智能大數(shù)據(jù)科技有限公司,未經(jīng)沈陽(yáng)智能大數(shù)據(jù)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711364208.1/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 請(qǐng)求沒有進(jìn)行IMS注冊(cè)的用戶進(jìn)行注冊(cè)的方法
- 對(duì)要進(jìn)行紋理操作的像素進(jìn)行分組
- 對(duì)餐盤進(jìn)行溫度調(diào)節(jié)和進(jìn)行分配的獨(dú)立小車
- 對(duì)圖像進(jìn)行編碼
- 對(duì)任務(wù)進(jìn)行調(diào)度
- 對(duì)任務(wù)進(jìn)行調(diào)度
- 蛋糕(甜蜜進(jìn)行時(shí))
- 對(duì)定位輔助數(shù)據(jù)進(jìn)行分級(jí)和分組以進(jìn)行廣播
- 對(duì)物體進(jìn)行分離和定向以進(jìn)行供料
- 對(duì)工件進(jìn)行評(píng)價(jià)以進(jìn)行加工的方法





