[發(fā)明專利]目標(biāo)對象文本段落劃分方法在審
| 申請?zhí)枺?/td> | 202210182322.7 | 申請日: | 2022-02-25 |
| 公開(公告)號: | CN114564913A | 公開(公告)日: | 2022-05-31 |
| 發(fā)明(設(shè)計(jì))人: | 何松山;陳德全 | 申請(專利權(quán))人: | 盟浪可持續(xù)數(shù)字科技(深圳)有限責(zé)任公司 |
| 主分類號: | G06F40/103 | 分類號: | G06F40/103;G06F40/205;G06F40/289 |
| 代理公司: | 深圳市博太聯(lián)眾專利代理事務(wù)所(特殊普通合伙) 44354 | 代理人: | 任轉(zhuǎn)英 |
| 地址: | 518000 廣東省深圳市前海深港合作區(qū)前*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 目標(biāo) 對象 文本 段落 劃分 方法 | ||
1.目標(biāo)對象文本段落劃分方法,其特征在于,該方法具體包括下述步驟:
步驟一:首先進(jìn)行大段劃分,大段劃分具體方式為:
S01:令i=1,獲取到H11,自動(dòng)計(jì)算H11和H21之間的均值,也就是以第一個(gè)核算段來算,第二個(gè)核算段與第一個(gè)核算段之間的相似值,然后再以第二個(gè)核算段來算,第一個(gè)核算段與第二個(gè)核算段之間的相似值,計(jì)算二者均值,得到相似均值;
S02:若相似均值≤X2,則表示屬于在同一個(gè)大段內(nèi);X2位預(yù)設(shè)數(shù)值;否則跳轉(zhuǎn)至步驟S05;
S03:之后獲取到下一個(gè)核算段,也就是第三個(gè)核算段,獲取到H12和H31之間的均值,代入到步驟S02的判定過程;
S04:依次獲取下一個(gè)核算段,并重復(fù)步驟S02的判定;
S05:自動(dòng)將前面的核算段標(biāo)記為一個(gè)核算大段;
S06:獲取到核算大段后的第一個(gè)核算段,按照步驟S01-S05的原理,得到下一個(gè)核算大段;
S07:重復(fù)步驟S06,得到所有的核算大段;
步驟二:之后進(jìn)行小段劃分,小段劃分原理具體與大段劃分方式類似,僅將相似均值的判定方式修改為:相似均值≤X3,根據(jù)判定將核算大段劃分為一個(gè)個(gè)小的核算小段;
步驟三:得到若干個(gè)劃分大段,若干個(gè)劃分大段內(nèi)包括若干個(gè)劃分小段;
步驟四:進(jìn)行文本格式整理,文本格式整理具體方式為:
將若干個(gè)劃分大段之間以空一行到方式相互間隔,之后將劃分大段內(nèi)的若干個(gè)劃分小組以回車另起一行到方式間隔,完成目標(biāo)文本的段落劃分。
2.根據(jù)權(quán)利要求1所述的目標(biāo)對象文本段落劃分方法,其特征在于,步驟二中進(jìn)行小段劃分的具體方式為:
SS1:選擇第一個(gè)核算大段;
SS2:按照步驟九里面相同的原理,劃分小段,不過將判定方式修改為,按照相似均值≤X3這個(gè)判定方式進(jìn)行判定,此處X3=T1*X2;T1取值為0.45-0.6;
SS3:從第一個(gè)核算大段內(nèi)得到若該個(gè)核算小段;
SS4:之后獲取到第二個(gè)核算大段,重復(fù)步驟SS2-SS3的方式進(jìn)行判定,將其劃分為若干個(gè)核算小段;
SS5:重復(fù)性獲取下一個(gè)核算大段,重復(fù)步驟SS4,將所有的核算大段劃分完成。
3.根據(jù)權(quán)利要求1所述的目標(biāo)對象文本段落劃分方法,其特征在于,在進(jìn)行步驟一之前,還需進(jìn)行下述步驟:
步驟一:獲取到需要進(jìn)行段落劃分的文本,將其標(biāo)記為目標(biāo)文本;
步驟二:對目標(biāo)文本進(jìn)行初步劃分,得到若干個(gè)內(nèi)容段Di,i=1...n;
步驟三:之后得到所有到內(nèi)容段Di,進(jìn)行語句篩選,得到總結(jié)詞和預(yù)設(shè)詞;
步驟四:從所有的內(nèi)容段Di中去除掉預(yù)設(shè)詞和總結(jié)詞,剩余的詞語標(biāo)記為核算詞,得到所有核算詞構(gòu)成的核算段,標(biāo)記為Hi,i=1...n;Hi按照目標(biāo)文本的順序依次排列;
步驟五:令i=1,選取對應(yīng)的核算段H1;
步驟六:獲取到H1內(nèi)所有的核算詞,自動(dòng)獲取到H1與其他核算段之間的相似比,得到H1與其余核算之間的相似比H1j,j=1...n-1;
步驟七:之后令i值加一,重復(fù)步驟五-步驟七,得到所有的相似比,將其標(biāo)記為Hij;此處也是從目標(biāo)文本的第一個(gè)核算段開始;
步驟八:之后進(jìn)行段落文本劃分,段落文本劃分包括大段劃分和小段劃分兩個(gè)步驟。
4.根據(jù)權(quán)利要求3所述的目標(biāo)對象文本段落劃分方法,其特征在于,步驟二中的初步劃分具體方式如下:
獲取到所有到段間符號,段間符號具體為分號或者句號;
從目標(biāo)文本的初始開始往后推,每遇到一個(gè)段間符號時(shí),將其前面所有到內(nèi)容劃分為一個(gè)內(nèi)容段;
持續(xù)往后,得到若干個(gè)內(nèi)容段,將其標(biāo)記為Di,i=1...n。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于盟浪可持續(xù)數(shù)字科技(深圳)有限責(zé)任公司,未經(jīng)盟浪可持續(xù)數(shù)字科技(深圳)有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210182322.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 目標(biāo)檢測裝置、學(xué)習(xí)裝置、目標(biāo)檢測系統(tǒng)及目標(biāo)檢測方法
- 目標(biāo)監(jiān)測方法、目標(biāo)監(jiān)測裝置以及目標(biāo)監(jiān)測程序
- 目標(biāo)監(jiān)控系統(tǒng)及目標(biāo)監(jiān)控方法
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤設(shè)備
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤裝置
- 目標(biāo)檢測方法和目標(biāo)檢測裝置
- 目標(biāo)跟蹤方法、目標(biāo)跟蹤裝置、目標(biāo)跟蹤設(shè)備
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)跟蹤系統(tǒng)及目標(biāo)跟蹤方法
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





