[發明專利]一種基于字符串間相似性的電力系統模型搜索排序方法有效

申請號：	201911423962.7	申請日：	2019-12-31
公開（公告）號：	CN111159499B	公開（公告）日：	2022-04-29
發明（設計）人：	趙增濤;張豪;李定林;佘俊;陳滿;高彥明;彭煜民;賀儒飛;王文輝;向正林;葉復萌;毛允嫻;王方;謝天	申請（專利權）人：	南方電網調峰調頻發電有限公司
主分類號：	G06F16/903	分類號：	G06F16/903;G06Q50/06
代理公司：	華進聯合專利商標代理有限公司 44224	代理人：	潘宏洲
地址：	510000 廣東省廣州***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于字符串相似性電力系統模型搜索排序方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開一種基于字符串間相似性的電力系統模型搜索排序方法，包括采集具有相似性的兩個字符串；構造兩個分別與兩個字符串長度相等的權重數組，初始化后計算各個權重數組各元素之和；遍歷兩個字符串，獲取字符在兩個字符串中的重現范圍，并根據重現情況調整其中一權重數組中字符對應的相似權重值；再根據字符串T₂中每個字符在字符串T₁的重現范圍分別計算每個字符的權重乘積和，由字符的權重乘積和計算兩個字符串的相似性，根據相似性值O的大小在電力系統模型搜索中進行字符串排序。本發明顯著提升電網模型數據搜索結果排序的準確性。

技術領域

本發明涉及計算機數據處理領域，特別涉及一種基于字符串間相似性的電力系統模型搜索排序方法。

背景技術

電力系統模型數據是電力企業的核心數據，調控、監測、運維、建設等各項生產活動都需要借助模型數據，將各項其它數據關聯起來。一個適用于電力系統模型數據搜索的搜索服務，能幫助用戶從繁多的模型數據中快速搜索、定位數據將非常有意義。而搜索結果排序是搜索服務中直接影響搜索結果好壞的一個重要環節，其中字符串相似性是排序中的一項重要因素。一般的按關鍵詞命中次數，或者常見的字符串相似性計算方法(比如，cosine距離，Jaro-Winkler距離等)都不能很好的體現電力系統模型數據的相似性特點。這些特點總體可歸納為以下幾點：

(1)相同的字詞，越多越相似；

(2)相同字詞之間的順序，越相同越相似；

(3)字數越接近越相似；

(4)連續相同的字數，越多越相似；

(5)字符串右側字符匹配比左段字符匹配具有更高的相似性。

上述第(5)條源自電力模型搜索的一個特點。電力模型的搜索中很大一部分是用根據名稱和路徑名來搜索功能位置。這部分數據一般是以類型結尾，比如“XXX開關”、“XXX開關間隔”、“XXX開關柜”。用戶以名稱來搜索時，往往也會在搜索字符串的最后出現類型。當用戶輸入“ABC開關”搜索時，“ABCD開關”比“ABC開關柜”，“XXX站/35kV/XXX開關間隔/ABC開關”比“XXX站/35kV/ABC開關間隔/XXX開關”更接近期望，更應該排在前面。描述成字符串相似性上的期望即上述第(5)條。本發明所描述的字符串相似性計算方法，能在計算過程和結果中很好體現上述特點。

發明內容

本發明的主要目的是提出一種基于字符串間相似性的電力系統模型搜索排序方法，旨在克服以上問題。

為實現上述目的，本發明提出的一種基于字符串間相似性的電力系統模型搜索排序方法，包括如下步驟：

S10采集電力系統模型中彼此具有相似性的文本分別為字符串T₁和字符串T₂，字符串T₁中第j個字符為T₁[j]，共有L₁個字符；字符串T₂中第i個字符為T₂[i]，共有L₂個字符，其中L₁≤L₂；

S20定義字符串T₁中第j個字符的相似權重值為W₁[j]，得到字符串T₁的相似權重數組W₁；定義字符串T₂中第i個字符的相似權重值為W₂[i]，得到字符串T₂的相似權重數組W₂，初始化相似權重數組W₁和W₂；

S30計算相似權重數組W₁初始化的和計算相似權重數組W2初始化的和

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于南方電網調峰調頻發電有限公司，未經南方電網調峰調頻發電有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201911423962.7/2.html，轉載請聲明來源鉆瓜專利網。