[發明專利]詞鏈模型的生成方法、裝置、設備及計算機可讀存儲介質有效
| 申請號: | 201811462225.3 | 申請日: | 2018-11-30 |
| 公開(公告)號: | CN109753648B | 公開(公告)日: | 2022-12-20 |
| 發明(設計)人: | 黃越;陳明東 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/247 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 胡海國 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 生成 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
本發明公開一種詞鏈模型的生成方法、裝置、設備及計算機可讀存儲介質,所述方法包括:讀取預設標準詞庫中的標準詞以及與所述標準詞對應的各目標分詞,將各所述目標分詞拆分為單個的目標漢字;根據所述預設標準詞庫中的各標準分詞,確定各所述目標漢字在各層級上的字鏈模型,其中所述層級的級數與所述標準詞中漢字的數量對應;將各所述目標漢字在各層級上的字鏈模型進行合并,生成所述標準詞在各層級上的分詞集合,并根據所述分詞集合,形成所述標準詞的詞鏈模型。本方案將標準詞依據劃分的標準分詞形成詞鏈模型,通過詞鏈模型中各標準分詞之間的相關性實現對非標準詞的匹配,簡化了匹配操作,同時提高匹配的效率以及自動化程度。
技術領域
本發明主要涉及數據處理技術領域,具體地說,涉及一種詞鏈模型的生成方法、裝置、設備及計算機可讀存儲介質。
背景技術
醫藥領域中涉及到眾多表征疾病名稱、藥品名稱、診斷手段的標準詞,而市面上也涉及到多種表征標準詞的非標準詞;為了規范化管理,通常需要為各非標準詞匹配對應的標準詞;在匹配前將各標準詞劃分為各個分詞,而通過各個分詞實現對非標準詞的匹配。
在用各標準詞的分詞為非標準詞匹配對應的標準詞時,匹配的準確性與分詞結果相關;因非標準詞的形式多種多樣,而分詞的形式較為固定,使得在匹配的過程中需要針對不同的非標準詞調整分詞結果,來確保匹配的準確性。此調整的過程增加了匹配的復雜性,降低了匹配效率,匹配的自動化程度低。
發明內容
本發明的主要目的是提供一種詞鏈模型的生成方法、裝置、設備及計算機可讀存儲介質,旨在解決現有技術中通過調整分詞結果來對非匹配詞進行匹配,導致匹配過程復雜,匹配效率低的問題。
為實現上述目的,本發明提供一種詞鏈模型的生成方法,所述詞鏈模型的生成方法包括以下步驟:
讀取預設標準詞庫中的標準詞以及與所述標準詞對應的各目標分詞,將各所述目標分詞拆分為單個的目標漢字;
根據所述預設標準詞庫中的各標準分詞,確定各所述目標漢字在各層級上的字鏈模型,其中所述層級的級數與所述標準詞中漢字的數量對應;
將各所述目標漢字在各層級上的字鏈模型進行合并,生成所述標準詞在各層級上的分詞集合,并根據所述分詞集合,形成所述標準詞的詞鏈模型。
優選地,所述根據所述預設標準詞庫中的各標準分詞,確定各所述目標漢字在各層級上的字鏈模型的步驟包括:
將各所述目標漢字和各所述標準分詞對比,確定包含各所述目標漢字的目標標準分詞;
統計各所述目標標準分詞中所包括的漢字個數,將具有相同所述漢字個數的各目標標準分詞形成各所述目標漢字在各層級上的字鏈模型。
優選地,所述將各所述目標漢字在各層級上的字鏈模型進行合并,生成所述標準詞在各層級上的分詞集合的步驟包括:
讀取各所述目標漢字所生成的各所述字鏈模型中在同一層級上的目標字鏈模型,并將各所述目標字鏈模型中所具有的所述目標標準分詞進行合并,形成字鏈集合;
判斷所述字鏈集合中是否存在重復的所述目標標準分詞,若存在重復的所述目標標準分詞,則將重復的所述目標標準分詞從所述字鏈集合中刪除,并檢測各所述目標漢字在各層級上是否均形成所述字鏈集合;
若各所述目標漢字在各層級上均形成所述字鏈集合,則將各所述字鏈集合確定為所述標準詞在各層級上的分詞集合。
優選地,所述根據所述分詞集合,形成所述標準詞的詞鏈模型的步驟包括:
將所述標準詞和各層級上分詞集合中的目標標準分詞對比,從各層級上的分詞集合中確定包括各個數量所述目標漢字的目標分詞集合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811462225.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:段落的劃分方法及裝置
- 下一篇:基于細粒度匹配信號的文本相關性度量方法和系統





