[發明專利]一種基于文本的元器件識別方法、系統、裝置和存儲介質有效
| 申請號: | 201811041889.2 | 申請日: | 2018-09-07 |
| 公開(公告)號: | CN109446885B | 公開(公告)日: | 2022-03-15 |
| 發明(設計)人: | 吳賀揚;詹建州;趙引;孫爾安 | 申請(專利權)人: | 廣州算易軟件科技有限公司 |
| 主分類號: | G06V30/422 | 分類號: | G06V30/422;G06V10/774;G06V10/764;G06V10/82;G06K9/62;G06N3/04 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 胡輝 |
| 地址: | 510220 廣東省廣州市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 元器件 識別 方法 系統 裝置 存儲 介質 | ||
1.一種基于文本的元器件識別方法,其特征在于:包括以下步驟:
獲取待識別的電氣圖紙;
對待識別的電氣圖紙進行預處理,獲取待識別的文本;
根據待識別的文本在標注文本庫中進行查詢,判斷待識別的文本在標注文本庫中是否有對應的元器件,若是,則將待識別的文本在標注文本庫中對應的元器件作為第二識別結果,并結束流程;反之,則執行下一步驟;
根據待識別的文本的結構和內容,計算待識別的文本屬于各類元器件的第一概率;
根據待識別的文本屬于各類元器件的第一概率,得到第一識別結果;
所述第一概率的計算公式為:
其中,P(C=Ci)表示待識別的文本屬于第i類元器件的概率,m表示待識別的文本的分詞數量,Nj表示標注文本庫中與待識別的文本在第j個詞語的位置上內容匹配的文本數量;Mj表示標注文本庫中與待識別的文本的第j個詞語內容匹配但位置不同的文本數量;Nij表示標注文本庫中屬于第i類元器件且與待識別的文本在第j個詞語的位置上內容匹配的文本數量;Mij表示標注文本庫中屬于第i類元器件且與待識別的文本的第j個詞語內容匹配但位置不同的文本數量,λ表示第一權重系數,ωj表示第二權重系數;其中,所述標注文本庫包括文本與元器件之間的對應關系,以及每種元器件出現的數量或者比率。
2.根據權利要求1所述的一種基于文本的元器件識別方法,其特征在于:所述對待識別的電氣圖紙進行預處理,獲取待識別的文本,這一步驟具體包括:
從待識別的電氣圖紙中提取文本內容;
根據設定規則對文本內容進行刪除、替換、增加和分詞,得到待識別的文本。
3.根據權利要求1所述的一種基于文本的元器件識別方法,其特征在于:所述根據待識別的文本屬于各類元器件的第一概率,得到第一識別結果,這一步驟具體包括:
根據待識別的文本屬于各類元器件的第一概率,得到所有第一概率中的最大值;
以所有第一概率中的最大值所對應的元器件作為第一識別結果。
4.根據權利要求3所述的一種基于文本的元器件識別方法,其特征在于:還包括以下步驟:
判斷所有第一概率中的最大值是否大于第一設定閾值,若是,則結束流程;反之,則通過分類模型對待識別的文本進行識別,得到第三識別結果。
5.根據權利要求4所述的一種基于文本的元器件識別方法,其特征在于:所述通過分類模型對待識別的文本進行識別,得到第三識別結果,這一步驟具體包括:
將待識別的文本輸入到經過訓練的分類模型中,得到待識別的文本屬于各類元器件的第二概率;
根據待識別的文本屬于各類元器件的第二概率,得到所有第二概率中的最大值;
以所有第二概率中的最大值所對應的元器件作為第三識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州算易軟件科技有限公司,未經廣州算易軟件科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811041889.2/1.html,轉載請聲明來源鉆瓜專利網。





