[發(fā)明專利]段落的劃分方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201711082718.X | 申請(qǐng)日: | 2017-11-07 |
| 公開(kāi)(公告)號(hào): | CN109753647B | 公開(kāi)(公告)日: | 2022-11-04 |
| 發(fā)明(設(shè)計(jì))人: | 姜珂 | 申請(qǐng)(專利權(quán))人: | 北京國(guó)雙科技有限公司 |
| 主分類號(hào): | G06F40/279 | 分類號(hào): | G06F40/279 |
| 代理公司: | 北京鼎佳達(dá)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11348 | 代理人: | 王偉鋒;劉鐵生 |
| 地址: | 100083 北京市海淀區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 段落 劃分 方法 裝置 | ||
1.一種段落的劃分方法,其特征在于,包括:
對(duì)待劃分文章進(jìn)行向量化處理得到段落向量,所述段落向量為使用一個(gè)數(shù)組表示一個(gè)自然段;
根據(jù)預(yù)先學(xué)習(xí)的段落分組模型,確定每個(gè)段落向量屬于所述段落分組模型中每個(gè)段落分組的概率,其中,所述段落分組中至少包含一個(gè)自然段,所述段落分組模型是基于邏輯回歸算法或支持向量機(jī)的段落分組模型;
將每個(gè)段落向量以及對(duì)應(yīng)的概率輸入隱馬爾科夫模型,以便根據(jù)每個(gè)段落向量以及對(duì)應(yīng)的概率確定隱含參數(shù);
利用預(yù)設(shè)解碼算法對(duì)所述隱含參數(shù)進(jìn)行解碼,得到每個(gè)段落屬于段落分組的最大概率,根據(jù)所述最大概率對(duì)所述待劃分文章執(zhí)行段落劃分;
將每個(gè)段落向量以及對(duì)應(yīng)的概率輸入隱馬爾科夫模型,以便根據(jù)每個(gè)段落向量以及對(duì)應(yīng)的概率確定隱含參數(shù)包括:
對(duì)隱馬爾科夫模型中的初始狀態(tài)概率矩陣進(jìn)行初始化;
將每個(gè)段落向量以及對(duì)應(yīng)的概率作為可見(jiàn)觀測(cè)序列,記錄于觀測(cè)狀態(tài)轉(zhuǎn)移概率矩陣中;
計(jì)算每個(gè)自然段進(jìn)行自轉(zhuǎn)或者向后轉(zhuǎn)的轉(zhuǎn)移概率,將所述轉(zhuǎn)移概率記錄于所述隱含參數(shù);
利用預(yù)設(shè)解碼算法對(duì)所述隱含參數(shù)進(jìn)行解碼,得到每個(gè)段落屬于段落分組的最大概率包括:
在所述隱含參數(shù)中計(jì)算轉(zhuǎn)移可能的最大概率;
根據(jù)所述最大概率通過(guò)回溯的方式確定最優(yōu)路徑,完成所述待劃分文章的段落劃分。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
獲取樣本文章中進(jìn)行段落分組的標(biāo)記,確定每個(gè)段落分組中的信息要素;
對(duì)所述信息要素進(jìn)行訓(xùn)練學(xué)習(xí),得到訓(xùn)練函數(shù),形成段落分組模型。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,對(duì)待劃分文章進(jìn)行向量化處理得到段落向量包括:
將所述待劃分文章中每個(gè)自然段的字符使用數(shù)字表示,每個(gè)字符對(duì)應(yīng)一個(gè)數(shù)字;
根據(jù)信息增益對(duì)所述數(shù)字進(jìn)行計(jì)算得到預(yù)設(shè)數(shù)量的維度;
按照維度的信息熵大小進(jìn)行排名,獲取排名前N的維度,得到所述段落向量;其中,所述排名前N的維度作為段落向量的信息要素,記錄于所述數(shù)組中。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)預(yù)先學(xué)習(xí)的段落分組模型,確定每個(gè)段落向量屬于所述段落分組模型中每個(gè)段落分組的概率包括:
獲取所述段落分組模型中的訓(xùn)練函數(shù);其中,所述段落分組模型中的每個(gè)段落分組對(duì)應(yīng)一個(gè)訓(xùn)練函數(shù);
利用邏輯回歸算法或者支持向量機(jī),對(duì)所述段落向量進(jìn)行回歸;
計(jì)算每個(gè)段落向量屬于所述每個(gè)段落分組對(duì)應(yīng)的訓(xùn)練函數(shù)的概率。
5.一種段落劃分的裝置,其特征在于,包括:
處理單元,用于對(duì)待劃分文章進(jìn)行向量化處理得到段落向量,所述段落向量為使用一個(gè)數(shù)組表示一個(gè)自然段;
第一確定單元,用于根據(jù)預(yù)先學(xué)習(xí)的段落分組模型,確定所述處理單元得到的每個(gè)段落向量屬于所述段落分組模型中每個(gè)段落分組的概率,其中,所述段落分組中至少包含一個(gè)自然段,所述段落分組模型是基于邏輯回歸算法或支持向量機(jī)的段落分組模型;
輸入單元,用于將每個(gè)段落向量以及對(duì)應(yīng)的概率輸入隱馬爾科夫模型,以便根據(jù)每個(gè)段落向量以及對(duì)應(yīng)的概率確定隱含參數(shù);
解碼單元,用于利用預(yù)設(shè)解碼算法對(duì)所述隱含參數(shù)進(jìn)行解碼,得到每個(gè)段落屬于段落分組的最大概率,根據(jù)所述最大概率對(duì)所述待劃分文章執(zhí)行段落劃分;
所述輸入單元包括:
初始化模塊,用于對(duì)隱馬爾科夫模型中的初始狀態(tài)概率矩陣進(jìn)行初始化;
處理模塊,用于將每個(gè)段落向量以及對(duì)應(yīng)的概率作為可見(jiàn)觀測(cè)序列,記錄于觀測(cè)狀態(tài)轉(zhuǎn)移概率矩陣中;
計(jì)算模塊,用于計(jì)算每個(gè)自然段進(jìn)行自轉(zhuǎn)或者向后轉(zhuǎn)的轉(zhuǎn)移概率,將所述轉(zhuǎn)移概率記錄于所述隱含參數(shù);
所述解碼單元包括:
計(jì)算模塊,用于在所述隱含參數(shù)中計(jì)算轉(zhuǎn)移可能的最大概率;
確定模塊,用于根據(jù)所述最大概率通過(guò)回溯的方式確定最優(yōu)路徑,完成所述待劃分文章的段落劃分。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京國(guó)雙科技有限公司,未經(jīng)北京國(guó)雙科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711082718.X/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種目錄更新方法及裝置
- 變量離散化的方法及裝置
- 一種文檔密級(jí)自動(dòng)識(shí)別方法
- 一種目錄生成方法及裝置
- 一種聊天數(shù)據(jù)分段方法、裝置及存儲(chǔ)介質(zhì)
- 段落層級(jí)的構(gòu)建方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文本中關(guān)鍵段落的檢測(cè)方法及裝置
- 目標(biāo)段落的確定方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備
- 電子文檔中段落順序的處理方法、裝置、存儲(chǔ)介質(zhì)和設(shè)備
- 目標(biāo)文本的摘要提取方法及裝置、電子設(shè)備、存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





