[發(fā)明專利]基于關(guān)鍵因子的結(jié)構(gòu)化文本搜索方法在審
| 申請(qǐng)?zhí)枺?/td> | 202211414017.2 | 申請(qǐng)日: | 2022-11-11 |
| 公開(公告)號(hào): | CN115713074A | 公開(公告)日: | 2023-02-24 |
| 發(fā)明(設(shè)計(jì))人: | 楊軼涵;范明霞;金卓群;張波;葉少杰;夏溪惠;孫永軍;李建宇;袁翔;王婷婷;韓家鑫;陳波 | 申請(qǐng)(專利權(quán))人: | 浙江華云信息科技有限公司;國(guó)網(wǎng)浙江省電力有限公司經(jīng)濟(jì)技術(shù)研究院 |
| 主分類號(hào): | G06F40/205 | 分類號(hào): | G06F40/205;G06F40/30;G06F16/33;G06F40/289;G06F40/166;G06F16/22;G06F16/28 |
| 代理公司: | 杭州華鼎知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 33217 | 代理人: | 俞宏濤 |
| 地址: | 310008 浙江*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 關(guān)鍵 因子 結(jié)構(gòu) 文本 搜索 方法 | ||
1.基于關(guān)鍵因子的結(jié)構(gòu)化文本搜索方法,其特征在于,所述結(jié)構(gòu)化文本搜索方法包括:
獲取項(xiàng)目文件,基于OCR識(shí)別算法識(shí)別出項(xiàng)目文件的文本脈絡(luò)信息,結(jié)合預(yù)設(shè)項(xiàng)目文本規(guī)則確定項(xiàng)目文件的第一關(guān)鍵因子;
在項(xiàng)目文件中搜索第一關(guān)鍵因子,根據(jù)搜索到的第一關(guān)鍵因子的分布情況,在項(xiàng)目文件中劃分出待搜索區(qū)域;
通過對(duì)待搜索區(qū)域進(jìn)行文本語義分析,搜索到第二關(guān)鍵因子,在第二關(guān)鍵因子與第一關(guān)鍵因子之間建立映射關(guān)系,基于所述映射關(guān)系處理得到結(jié)構(gòu)化文本。
2.根據(jù)權(quán)利要求1所述的基于關(guān)鍵因子的結(jié)構(gòu)化文本搜索方法,其特征在于,所述基于OCR識(shí)別算法識(shí)別出項(xiàng)目文件的文本脈絡(luò)信息,包括:
基于OCR識(shí)別算法定位到項(xiàng)目文件中的標(biāo)題行,識(shí)別標(biāo)題行中的文字作為文本脈絡(luò)信息。
3.根據(jù)權(quán)利要求1所述的基于關(guān)鍵因子的結(jié)構(gòu)化文本搜索方法,其特征在于,所述結(jié)合預(yù)設(shè)項(xiàng)目文本規(guī)則確定項(xiàng)目文件的第一關(guān)鍵因子,包括:
將所述文本脈絡(luò)信息與預(yù)設(shè)項(xiàng)目文本規(guī)則進(jìn)行匹配,匹配到與文本脈絡(luò)信息相似度最高的預(yù)設(shè)項(xiàng)目文本規(guī)則;
根據(jù)匹配到的預(yù)設(shè)項(xiàng)目文本規(guī)則,確定項(xiàng)目文件的第一關(guān)鍵因子。
4.根據(jù)權(quán)利要求1所述的基于關(guān)鍵因子的結(jié)構(gòu)化文本搜索方法,其特征在于,所述預(yù)設(shè)項(xiàng)目文本規(guī)則分別對(duì)應(yīng)不同的項(xiàng)目類型,所述項(xiàng)目類型包括生產(chǎn)技改、生產(chǎn)設(shè)備維修、生產(chǎn)輔助技改、營(yíng)銷、基建、教育培訓(xùn)以及零星購置。
5.根據(jù)權(quán)利要求1所述的基于關(guān)鍵因子的結(jié)構(gòu)化文本搜索方法,其特征在于,所述第一關(guān)鍵因子為與項(xiàng)目現(xiàn)狀、預(yù)期目標(biāo)、項(xiàng)目范圍和規(guī)模、項(xiàng)目必要性、項(xiàng)目技術(shù)方案、設(shè)計(jì)圖紙、購置設(shè)備、項(xiàng)目經(jīng)濟(jì)性、財(cái)務(wù)合規(guī)性以及項(xiàng)目實(shí)施安排相關(guān)的關(guān)鍵詞。
6.根據(jù)權(quán)利要求1所述的基于關(guān)鍵因子的結(jié)構(gòu)化文本搜索方法,其特征在于,所述根據(jù)搜索到的第一關(guān)鍵因子的分布情況,在項(xiàng)目文件中劃分出待搜索區(qū)域,包括:
獲取第一關(guān)鍵因子,在項(xiàng)目文檔的中確定與所述第一關(guān)鍵因子對(duì)應(yīng)的初始區(qū)域;
與預(yù)設(shè)行數(shù)為單位,計(jì)算所述第一關(guān)鍵因子在所述初始區(qū)域中的分布密度,將所述分布密度超過預(yù)設(shè)值的預(yù)設(shè)行數(shù)所在區(qū)域,劃分為待搜索區(qū)域。
7.根據(jù)權(quán)利要求6所述的基于關(guān)鍵因子的結(jié)構(gòu)化文本搜索方法,其特征在于,在劃分出待搜索區(qū)域之后,所述方法還包括:基于所述第一關(guān)鍵因子的分布密度,對(duì)待搜索區(qū)域進(jìn)行搜索優(yōu)先級(jí)排序。
8.根據(jù)權(quán)利要求1所述的基于關(guān)鍵因子的結(jié)構(gòu)化文本搜索方法,其特征在于,所述對(duì)待搜索區(qū)域進(jìn)行文本語義分析,包括:
對(duì)待所搜索區(qū)域的文本進(jìn)行分詞處理,得到所述文本對(duì)應(yīng)的詞向量;
對(duì)各個(gè)詞向量進(jìn)行特征提取,結(jié)合評(píng)估函數(shù)計(jì)算各個(gè)詞向量的評(píng)分值,然后按評(píng)分值對(duì)這些特征進(jìn)行排序,選取若干個(gè)評(píng)分值最高的作為第二關(guān)鍵因子。
9.根據(jù)權(quán)利要求1所述的基于關(guān)鍵因子的結(jié)構(gòu)化文本搜索方法,其特征在于,所述在第二關(guān)鍵因子與第一關(guān)鍵因子之間建立映射關(guān)系,基于所述映射關(guān)系處理得到結(jié)構(gòu)化文本,包括:
將所述第一關(guān)鍵因子作為key,將與所述第一關(guān)鍵因子具有映射關(guān)系的所述第二關(guān)鍵因子作為value,以key:value的形式處理得到結(jié)構(gòu)化文本。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江華云信息科技有限公司;國(guó)網(wǎng)浙江省電力有限公司經(jīng)濟(jì)技術(shù)研究院,未經(jīng)浙江華云信息科技有限公司;國(guó)網(wǎng)浙江省電力有限公司經(jīng)濟(jì)技術(shù)研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211414017.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 標(biāo)有關(guān)鍵點(diǎn)和關(guān)鍵線的人臺(tái)
- 關(guān)鍵詞質(zhì)量度的檢測(cè)方法和裝置
- 關(guān)鍵詞排名的檢測(cè)方法和裝置
- 關(guān)鍵點(diǎn)識(shí)別
- 磁性開關(guān)鍵
- 面板開關(guān)鍵
- 關(guān)鍵短語提取方法以及關(guān)鍵短語提取系統(tǒng)
- 通信行為檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種長(zhǎng)尾關(guān)鍵詞識(shí)別方法、關(guān)鍵詞搜索方法及計(jì)算機(jī)設(shè)備
- Ⅶ因子多肽和Ⅷ因子多肽的聯(lián)合應(yīng)用
- VII因子多肽和IX因子多肽的聯(lián)合應(yīng)用
- 一種城鄉(xiāng)生態(tài)規(guī)劃的生態(tài)等級(jí)空間分區(qū)規(guī)劃控制方法
- 一種基于阿爾法散度的動(dòng)態(tài)PET圖像因子處理方法
- 一種設(shè)備綜合風(fēng)險(xiǎn)評(píng)估方法、裝置和電力系統(tǒng)
- 一種集群資源容量預(yù)測(cè)方法和裝置
- 一種計(jì)算因子植入方法、介質(zhì)及設(shè)備
- 一種規(guī)模組網(wǎng)環(huán)境TI-LFA可靠性評(píng)估測(cè)試方法
- 近地表品質(zhì)因子確定方法及系統(tǒng)
- 一種模擬凝血過程的教學(xué)模型
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺(tái)結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)





