[發(fā)明專利]一種從分詞凈文本到富格式文本的著色方法在審
| 申請?zhí)枺?/td> | 202011469359.5 | 申請日: | 2020-12-14 |
| 公開(公告)號: | CN112560405A | 公開(公告)日: | 2021-03-26 |
| 發(fā)明(設(shè)計)人: | 張勇;朱立松 | 申請(專利權(quán))人: | 央視國際網(wǎng)絡(luò)無錫有限公司 |
| 主分類號: | G06F40/166 | 分類號: | G06F40/166;G06F16/84;G06F16/958 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 214000 江蘇省無錫市新區(qū)震澤路1*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 分詞 文本 格式 著色 方法 | ||
本發(fā)明涉及計算機(jī)信息處理領(lǐng)域,具體涉及一種從分凈文本到富格式文本的著色方法,旨在解決現(xiàn)有技術(shù)中轉(zhuǎn)換過程中容易丟失了原富格式文本中的格式信息形成的問題,其技術(shù)要點在于:包含以下步驟:S1:將分詞凈文本權(quán)重序列轉(zhuǎn)為字權(quán)重序列;S2:指定權(quán)重值對應(yīng)的顏色,并形成顏色序列;S3:使用Needleman_Wunsch計算字權(quán)重序列和顏色序列之間的最佳對齊結(jié)果;S4:令分詞凈文本權(quán)重序列為str1,令富文本序列為str2,利用S3中的方法確定str1中的第i個字符可以對齊到str2中的第j個字符,將str1中的第i個字符的前后插入顏色標(biāo)簽。可以在不丟失富文本格式信息的情況下利用凈分詞權(quán)重序列對富文本進(jìn)行著色。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)信息處理領(lǐng)域,具體涉及一種從分詞凈文本到富格式文本的著色方法。
背景技術(shù)
眾所周知,互聯(lián)網(wǎng)文本基本上都是富格式文本,但是AI模型在對這些文本進(jìn)行處理時,需要首先去掉所有的超文本標(biāo)簽,只對文本的實際內(nèi)容進(jìn)行處理。這就導(dǎo)致了富格式信息的丟失,在重新顯示出來時,也就顯示不出來原文中的各種格式信息了。
發(fā)明內(nèi)容
因此,本發(fā)明要解決的技術(shù)問題在于克服現(xiàn)有技術(shù)中轉(zhuǎn)換過程中容易丟失了原富格式文本中的格式信息形成的缺陷,從而提供一種從分詞凈文本到富格式文本的著色方法。
本發(fā)明的上述技術(shù)目的是通過以下技術(shù)方案得以實現(xiàn)的:
一種從分詞凈文本到富格式文本的著色方法,包含以下步驟:
S1:將分詞凈文本權(quán)重序列轉(zhuǎn)為字權(quán)重序列;
S2:指定權(quán)重值對應(yīng)的顏色,并形成顏色序列;
S3:使用Needleman_Wunsch計算字權(quán)重序列和顏色序列之間的最佳對齊結(jié)果;
S4:令分詞凈文本權(quán)重序列為str1,令富文本序列為str2,利用S3中的方法確定str1中的第i個字符可以對齊到str2中的第j個字符,將str1中的第i個字符的前后插入顏色標(biāo)簽。
優(yōu)選的,所述分詞凈文本中的每一個字都有自己的權(quán)重值。
優(yōu)選的,所述權(quán)重值為可以為任意實數(shù)。
優(yōu)選的,所述S3包含以下步驟:
A1:計算兩個字符串的長度;
A2:建立一個len(str1)+1行l(wèi)en(str2)+1列的矩陣表格,全部初始化為0,然后在第1行和第1列每隔一位減3并填入數(shù)字;
A3:開始填入表格中的其余數(shù)字;
A4:根據(jù)表格F(i,j)來確定最佳對齊序列。
優(yōu)選的,所述A3中填入方法為:比較表格位置對應(yīng)的兩個字符串的字符;使用F(i,j)表示表格中第i行第j列的值。顯然F(0,0)=0,且表格的第1行和第1列都已經(jīng)初始化;則有
其中xi表示字符串str1中的第i個字符,xj表示字符串str2中的第j個字符。s(xi,xj)判斷這兩個字符串是否相同,若相同值為8,若不同值為-5。d為加入空位進(jìn)行匹配的情況,d=-3。
優(yōu)選的,所述A4中確定最佳對其序列的方法為:從表格的最右下端開始,考察相鄰的4個元素,分別是F(i,j),F(i-1,j-1),F(i-1,j),F(i,j-1)。在F(i-1,j-1),F(i-1,j),F(i,j-1)中尋找最大的一個;以下為三種情況:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于央視國際網(wǎng)絡(luò)無錫有限公司,未經(jīng)央視國際網(wǎng)絡(luò)無錫有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011469359.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





