[發明專利]基于關鍵因子的結構化文本搜索方法在審
| 申請號: | 202211414017.2 | 申請日: | 2022-11-11 |
| 公開(公告)號: | CN115713074A | 公開(公告)日: | 2023-02-24 |
| 發明(設計)人: | 楊軼涵;范明霞;金卓群;張波;葉少杰;夏溪惠;孫永軍;李建宇;袁翔;王婷婷;韓家鑫;陳波 | 申請(專利權)人: | 浙江華云信息科技有限公司;國網浙江省電力有限公司經濟技術研究院 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/30;G06F16/33;G06F40/289;G06F40/166;G06F16/22;G06F16/28 |
| 代理公司: | 杭州華鼎知識產權代理事務所(普通合伙) 33217 | 代理人: | 俞宏濤 |
| 地址: | 310008 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 關鍵 因子 結構 文本 搜索 方法 | ||
本發明提出了一種基于關鍵因子的結構化文本搜索方法,包括:獲取項目文件,基于OCR識別算法識別出項目文件的文本脈絡信息,結合預設項目文本規則確定項目文件的第一關鍵因子;在項目文件中搜索第一關鍵因子,根據搜索到的第一關鍵因子的分布情況,在項目文件中劃分出待搜索區域;通過對待搜索區域進行文本語義分析,搜索到第二關鍵因子,在第二關鍵因子與第一關鍵因子之間建立映射關系,基于所述映射關系處理得到結構化文本。本發明針對不同項目類型的項目文本,確定第一關鍵因子和第二關鍵因子,從而獲取項目評審相關的關鍵信息,并形成結構化數據形式存儲的文本信息庫,方便評審人員快速獲取需要的信息,從而提高評審效率。
技術領域
本發明屬于文本處理技術領域,尤其涉及一種基于關鍵因子的結構化文本搜索方法。
背景技術
隨著電力市場化建設的不斷深化,電力公司的經營發展面臨重大機遇挑戰,電力公司在進行電網建設和穩定運維等電力工程時,對依法合規精準投入的要求越來越高,通常需要將與電力工程相關的項目文件上報到相關單位及部門進行評審,進而對電力工程項目的評審工作提出了更高要求。
負責評審工作的相關單位及部門作為評審數據的匯集中心,因每個電力工程對項目文件的文本編寫要求不統一,雖大體行文思路相同,但在文本脈絡的細節上,通常各單位按照不同的理解及行文習慣進行編寫,導致評審專家在解讀不同的項目文件時因結構差異無法快速定位到所需要的信息,需要浪費大量人力、物力對項目文本的信息進行統一管理和數據沉淀,當待評審的電力工程較多時,導致評審周期較長,影響電力工程的執行效率。
發明內容
為了解決現有技術中存在的因每個電力工程對項目文件的文本編寫要求不統一,導致評審專家評審周期較長,影響電力工程的執行效率的缺點和不足,本發明提出了一種基于關鍵因子的結構化文本搜索方法,包括:
獲取項目文件,基于OCR識別算法識別出項目文件的文本脈絡信息,結合預設項目文本規則確定項目文件的第一關鍵因子;
在項目文件中搜索第一關鍵因子,根據搜索到的第一關鍵因子的分布情況,在項目文件中劃分出待搜索區域;
通過對待搜索區域進行文本語義分析,搜索到第二關鍵因子,在第二關鍵因子與第一關鍵因子之間建立映射關系,基于所述映射關系處理得到結構化文本。
可選的,所述基于OCR識別算法識別出項目文件的文本脈絡信息,包括:
基于OCR識別算法定位到項目文件中的標題行,識別標題行中的文字作為文本脈絡信息。
可選的,所述結合預設項目文本規則確定項目文件的第一關鍵因子,包括:
將所述文本脈絡信息與預設項目文本規則進行匹配,匹配到與文本脈絡信息相似度最高的預設項目文本規則;
根據匹配到的預設項目文本規則,確定項目文件的第一關鍵因子。
可選的,所述預設項目文本規則分別對應不同的項目類型,所述項目類型包括生產技改、生產設備維修、生產輔助技改、營銷、基建、教育培訓以及零星購置。
可選的,所述第一關鍵因子為與項目現狀、預期目標、項目范圍和規模、項目必要性、項目技術方案、設計圖紙、購置設備、項目經濟性、財務合規性以及項目實施安排相關的關鍵詞。
可選的,所述根據搜索到的第一關鍵因子的分布情況,在項目文件中劃分出待搜索區域,包括:
獲取第一關鍵因子,在項目文檔的中確定與所述第一關鍵因子對應的初始區域;
與預設行數為單位,計算所述第一關鍵因子在所述初始區域中的分布密度,將所述分布密度超過預設值的預設行數所在區域,劃分為待搜索區域。
可選的,在劃分出待搜索區域之后,所述方法還包括:基于所述第一關鍵因子的分布密度,對待搜索區域進行搜索優先級排序。
可選的,所述對待搜索區域進行文本語義分析,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江華云信息科技有限公司;國網浙江省電力有限公司經濟技術研究院,未經浙江華云信息科技有限公司;國網浙江省電力有限公司經濟技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211414017.2/2.html,轉載請聲明來源鉆瓜專利網。





