[發(fā)明專利]一種用于構(gòu)建標(biāo)題識別模型的方法、裝置、電子設(shè)備以及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202110320998.3 | 申請日: | 2021-03-25 |
| 公開(公告)號: | CN112818687B | 公開(公告)日: | 2022-07-08 |
| 發(fā)明(設(shè)計(jì))人: | 于海燕;江敏 | 申請(專利權(quán))人: | 杭州數(shù)瀾科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/205;G06K9/62;G06F16/31 |
| 代理公司: | 北京市聯(lián)德律師事務(wù)所 11361 | 代理人: | 黃大正;張來光 |
| 地址: | 311121 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 構(gòu)建 標(biāo)題 識別 模型 方法 裝置 電子設(shè)備 以及 存儲 介質(zhì) | ||
1.一種用于構(gòu)建標(biāo)題識別模型的方法,包括:
對樣本文檔進(jìn)行解析,得到所述樣本文檔的多個(gè)文本塊中的每個(gè)文本塊的解析信息,所述解析信息包含不同維度上的特征信息,所述特征信息至少包括文本內(nèi)容;
基于所述多個(gè)文本塊中的每個(gè)文本塊的文本內(nèi)容提取出所述樣本文檔的標(biāo)題文本塊并作為正樣本置入訓(xùn)練集;
將所述樣本文檔中除標(biāo)題文本塊以外的文本塊確定為非標(biāo)題文本塊,并選擇所述樣本文檔的非標(biāo)題文本塊并作為負(fù)樣本置入所述訓(xùn)練集;
針對所述訓(xùn)練集中的任一樣本,基于所述樣本所對應(yīng)的解析信息中的不同維度上的特征信息構(gòu)建所述樣本的特征向量;以及
依據(jù)所述訓(xùn)練集中多個(gè)樣本的特征向量構(gòu)建標(biāo)題識別模型,
其中,所述基于所述樣本所對應(yīng)的解析信息中的不同維度上的特征信息構(gòu)建所述樣本的特征向量,包括:利用預(yù)先設(shè)定的轉(zhuǎn)換規(guī)則將所述樣本所對應(yīng)的解析信息中的不同維度上的特征信息分別轉(zhuǎn)換為數(shù)字表示,并將所得到的各個(gè)數(shù)字表示的集合確定為所述樣本的特征向量,
其中,所述不同維度至少包括索引號維度、文本長度維度、字號維度、字體方向維度、對齊方向維度和段落說明維度中的一項(xiàng)或多項(xiàng),
并且其中,所述基于所述樣本所對應(yīng)的解析信息中的不同維度上的特征信息構(gòu)建所述樣本的特征向量,包括:
確定所述樣本的索引號,將所述索引號的上一索引號所對應(yīng)的文本塊確定為所述樣本的樣本上文,將所述索引號的下一索引號所對應(yīng)的文本塊確定為所述樣本的樣本下文;
基于所述樣本所對應(yīng)的解析信息中的不同維度上的特征信息,所述樣本上文所對應(yīng)的解析信息中的不同維度上的特征信息,和所述樣本下文所對應(yīng)的解析信息中的不同維度上的特征信息共同構(gòu)建所述樣本的具有上下文特征的特征向量。
2.根據(jù)權(quán)利要求1所述的方法,所述樣本文檔是indd格式的文件。
3.根據(jù)權(quán)利要求2所述的方法,所述對樣本文檔進(jìn)行解析,包括:
調(diào)用InDesignServer服務(wù),將所述indd格式的文件轉(zhuǎn)換為idml文件;
提取出idml文件中的xml文件,解析出所述xml文件中所包含的信息并存入數(shù)據(jù)庫。
4.根據(jù)權(quán)利要求1所述的方法,所述基于所述多個(gè)文本塊中的每個(gè)文本塊所述的文本內(nèi)容提取出所述樣本文檔的標(biāo)題文本塊,包括:
利用相似度分析算法對比所述多個(gè)文本塊中的每個(gè)文本塊中的文本內(nèi)容與人工提供的標(biāo)題內(nèi)容的相似度;
在相似度大于預(yù)定閾值時(shí),將對應(yīng)的文本塊確定為所述樣本文檔的標(biāo)題文本塊。
5.一種使用權(quán)利要求1所構(gòu)建的標(biāo)題識別模型來識別標(biāo)題的方法,包括:
對待識別文檔進(jìn)行解析,得到所述待識別文檔中的多個(gè)文本塊中的每個(gè)文本塊的解析信息,所述解析信息包含不同維度上的特征信息,所述特征信息至少包括文本內(nèi)容;
使用所述多個(gè)文本塊中每個(gè)文本塊所對應(yīng)的解析信息中的不同維度上的特征信息構(gòu)建對應(yīng)文本塊的特征向量;
依據(jù)所述標(biāo)題識別模型對所述多個(gè)文本塊中每個(gè)文本塊的特征向量進(jìn)行預(yù)測,以在所述多個(gè)文本塊中確定出標(biāo)題文本塊。
6.根據(jù)權(quán)利要求5所述的方法,所述在所述多個(gè)文本塊中確定出標(biāo)題文本塊后,還包括:
確定出所述待識別文檔的全部標(biāo)題文本塊,根據(jù)標(biāo)題文本塊的索引號將標(biāo)題文本塊中的標(biāo)題內(nèi)容進(jìn)行拼接。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州數(shù)瀾科技有限公司,未經(jīng)杭州數(shù)瀾科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110320998.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測模型構(gòu)建方法
- 基于人工智能的文章標(biāo)題生成方法、裝置、設(shè)備及介質(zhì)
- 一種相同新聞信息的歸類方法及系統(tǒng)
- 一種新聞主副標(biāo)題檢測方法及裝置
- 標(biāo)題識別方法及裝置
- 用于真產(chǎn)品詞識別的系統(tǒng)、方法和計(jì)算機(jī)可讀介質(zhì)
- 一種文檔系統(tǒng)的側(cè)邊欄展示方法及系統(tǒng)
- 一種文檔標(biāo)題層級的分析方法、裝置及服務(wù)器
- 一種文章標(biāo)題優(yōu)化方法、系統(tǒng)、介質(zhì)及設(shè)備
- 一種文本標(biāo)注方法、裝置、設(shè)備及可讀存儲介質(zhì)
- 數(shù)據(jù)標(biāo)識方法、裝置、計(jì)算機(jī)可讀存儲介質(zhì)及電子設(shè)備





