[發(fā)明專利]藥品分詞搜索方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202010822855.8 | 申請日: | 2020-08-17 |
| 公開(公告)號: | CN111681769B | 公開(公告)日: | 2020-11-13 |
| 發(fā)明(設計)人: | 卓建飛;胡茂華;王新岐 | 申請(專利權)人: | 耀方信息技術(上海)有限公司 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/247;G06F40/284;G16H50/70;G16H70/40 |
| 代理公司: | 上海一平知識產權代理有限公司 31266 | 代理人: | 成春榮;竺云 |
| 地址: | 201201 上海市浦東*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 藥品 分詞 搜索 方法 系統(tǒng) | ||
1.一種藥品分詞搜索方法,其特征在于,包含:
預先設定藥品詞典和規(guī)則詞典,其中所述藥品詞典包括已標注的醫(yī)藥詞條,所述規(guī)則詞典包括劑型特征詞、描述藥品特征的高頻特征詞和藥品的組成特征詞;
根據(jù)所述藥品詞典對輸入的搜索字符串進行多路徑分詞,得到多路徑分詞結果,其中,如果所述多路徑分詞結果的最粗粒度路徑中至少有一組連續(xù)單字的單字數(shù)量在預設范圍內,則根據(jù)所述劑型特征詞、所述描述藥品特征的高頻特征詞和所述藥品的組成特征詞對所述搜索字符串進行重新分詞,其中,如果相鄰的特征詞之間的連續(xù)單字的單字數(shù)量在預設范圍內,則將所述相鄰的特征詞之間的連續(xù)單字合并為一個組合詞,并將包含該組合詞的分詞結果作為一條新的路徑加入到所述多路徑分詞結果;
使用所述多路徑分詞結果進行藥品搜索。
2.如權利要求1所述的藥品分詞搜索方法,其特征在于,所述設定規(guī)則詞典,包含以下子步驟:
分別建立藥品的劑型規(guī)則詞表、藥品的高頻特征規(guī)則詞表、以及藥品的組成特征規(guī)則詞表;以及
將所述藥品的劑型規(guī)則詞表、藥品的高頻特征規(guī)則詞表、以及藥品的組成特征規(guī)則詞表的數(shù)據(jù)進行合并,生成規(guī)則詞典。
3.如權利要求1所述的藥品分詞搜索方法,其特征在于,所述根據(jù)所述藥品詞典對輸入的搜索字符串進行多路徑分詞,進一步包括:
調用第一分詞服務,通過加載常規(guī)的現(xiàn)代漢語分詞模型,再增量裝載藥品詞典,構建雙數(shù)組Trie樹,使所述第一分詞服務基于所述現(xiàn)代漢語分詞模型和藥品詞典對普通詞條和已標注的醫(yī)藥詞條進行切分處理,得到粗分詞網(wǎng);
使用正向/逆向最大粒度匹配原則選取最優(yōu)的兩條路徑,所述路徑按照粒度降序排列,當正向/逆向分詞粒度大小一致時,根據(jù)概率模型計算概率,如果概率不同,則選取最大概率的詞條組成分詞結果,如果概率一樣,則取逆向分詞作為分詞結果,得到最終的多分詞路徑;
對所述多分詞路徑的多條路徑做排序,按粒度大小降序排列。
4.如權利要求3所述的藥品分詞搜索方法,其特征在于,所述根據(jù)所述規(guī)則詞典中的特征詞對所述搜索字符串進行分詞,進一步包括:
使用第二分詞服務,加載所述規(guī)則詞典,構建雙數(shù)組Trie樹,使所述第二分詞服務基于規(guī)則詞典對未標注的醫(yī)藥詞條進行切分處理,得到粗分詞網(wǎng);
使用正向/逆向最大粒度匹配原則選取最優(yōu)路徑,該路徑按照粒度降序排列,當正向/逆向分詞粒度大小一致時,根據(jù)概率模型計算概率,如果概率不同,則選取最大概率的詞條組成分詞結果,如果概率一樣,則取逆向分詞作為分詞結果,得到最優(yōu)路徑分詞結果;
對所述最優(yōu)路徑分詞結果中不在規(guī)則詞典中的連續(xù)單字做合并操作,得到一個或多個組合詞,其中連續(xù)單字的數(shù)量在預設范圍內。
5.如權利要求4所述的藥品分詞搜索方法,其特征在于,在所述根據(jù)所述藥品詞典對輸入的搜索字符串進行多路徑分詞,得到多路徑分詞結果的步驟之前,還包含以下步驟:
對已有的藥品建立藥品索引,其中,所述藥品索引的索引分詞是所述第一分詞服務的索引分詞與所述第二分詞服務的索引分詞的并集。
6.如權利要求1所述的藥品分詞搜索方法,其特征在于,所述根據(jù)所述藥品詞典對輸入的搜索字符串進行多路徑分詞,進一步包括:
使用所述藥品詞典對搜索字符串做詞典全切分后,得到粗分詞網(wǎng);
使用正向/逆向最大粒度匹配原則選取最優(yōu)的兩條路徑,所述路徑按照粒度降序排列,當正向/逆向分詞粒度大小一致時,根據(jù)概率模型計算概率,如果概率不同,則選取最大概率的詞條組成分詞結果,如果概率一樣,則取逆向分詞作為分詞結果,得到最終的多分詞路徑;
對所述多分詞路徑的多條路徑做排序,按粒度大小降序排列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于耀方信息技術(上海)有限公司,未經耀方信息技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010822855.8/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:多功能擴展電路板模塊及移動終端
- 下一篇:焊接圖像處理方法、裝置及電子設備





