[發明專利]一種配網實體相關的語義搜索方法在審
| 申請號: | 202010864615.4 | 申請日: | 2020-08-25 |
| 公開(公告)號: | CN112036178A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 王鑫;張淑娟;汪玉;趙龍;胡世駿;秦丹丹;鄭高峰;劉麗;李龍躍;高博;徐斌;袁方;李金中;王瀟;孫偉;李博;卞真旭;金雨楠;錢光超;仇茹嘉 | 申請(專利權)人: | 國家電網有限公司;國網安徽省電力有限公司;國網安徽省電力有限公司電力科學研究院 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F16/33 |
| 代理公司: | 西安毅聯專利代理有限公司 61225 | 代理人: | 楊燕珠 |
| 地址: | 100032 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 相關 語義 搜索 方法 | ||
1.一種配網實體相關的語義搜索方法,其特征在于,包括步驟1:對配網實體中的文本進行分詞;
所述對配網實體中的文本進行分詞,包括:
S1、對配網實體中的文本基于詞頻的方法得到第一詞庫;
S2、使用配網實體名稱識別模型對配網實體中的文本進行分詞,得到第二詞庫;
S3、合并第一詞庫和第二詞庫得到合并詞庫;
S4、人工對合并詞庫中分詞錯誤的詞語進行刪除,并在配網實體中的文本中標注出對應分詞錯誤的正確詞語,得到標注文本;
S5、使用配網實體名稱識別模型對標注文本再次分詞,得到第三詞庫;
S6、重復S2~S5,直至得到最終詞庫。
2.根據權利要求1所述的一種配網實體相關的語義搜索方法,其特征在于,所述S1基于詞頻的方法是基于Jieba分詞包的一種處理方式。
3.根據權利要求1所述的一種配網實體相關的語義搜索方法,其特征在于,步驟S1在進行之前,先以換行符、句號、逗號等分隔符將配網實體中的文本分成短句。
4.根據權利要求1所述的一種配網實體相關的語義搜索方法,其特征在于,步驟S2配網實體名稱識別模型是BiLSTM-CRF的模型。
5.根據權利要求1所述的一種配網實體相關的語義搜索方法,其特征在于,步驟S6中重復S2~S5,具體的為重復步驟S2~S5的至少一次。
6.一種配網實體相關的語義搜索方法,其特征在于,包括以下步驟:
步驟1:對配網實體中的文本進行分詞,并將分詞分解成單個的字符形式,得到字符表和詞組表;
步驟2:將步驟1中的字符表中的字符進行向量化,得到字符向量;
步驟3:將步驟1中的詞組表中的詞組利用模型訓練得到詞向量;
步驟4:將步驟2中得到的字符向量和詞向量進行合并,得到上下文信息向量;
步驟5:將步驟4中得到上下文信息向量信息傳入雙向LSTM進行訓練,得到輸入配網實體中的文本的語義信息特征;
步驟6:將步驟五中雙向LSTM的輸出輸入條件隨機場,計算輸入詞對應的最優標簽序列,以最大概率的序列作為詞組最后的類別標簽。
7.根據權利要求6所述的一種配網實體相關的語義搜索方法,其特征在于,所述步驟3中的模型為glove模型。
8.根據權利要求6所述的一種配網實體相關的語義搜索方法,其特征在于,所述步驟3中的詞向量,每個詞向量代表一個詞組,且詞向量的維度可以進行調整。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家電網有限公司;國網安徽省電力有限公司;國網安徽省電力有限公司電力科學研究院,未經國家電網有限公司;國網安徽省電力有限公司;國網安徽省電力有限公司電力科學研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010864615.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種TCP熱備架構中TCP流備份和平滑的方法和設備
- 下一篇:一種鏈板轉彎機





