[發(fā)明專利]藥品分詞搜索方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202010822855.8 | 申請日: | 2020-08-17 |
| 公開(公告)號: | CN111681769B | 公開(公告)日: | 2020-11-13 |
| 發(fā)明(設(shè)計)人: | 卓建飛;胡茂華;王新岐 | 申請(專利權(quán))人: | 耀方信息技術(shù)(上海)有限公司 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/247;G06F40/284;G16H50/70;G16H70/40 |
| 代理公司: | 上海一平知識產(chǎn)權(quán)代理有限公司 31266 | 代理人: | 成春榮;竺云 |
| 地址: | 201201 上海市浦東*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 藥品 分詞 搜索 方法 系統(tǒng) | ||
本申請涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,公開了一種藥品分詞搜索方法及系統(tǒng),該方法包含:預(yù)先根據(jù)已有的藥品數(shù)據(jù)建立藥品詞典,并且設(shè)定規(guī)則詞典;根據(jù)藥品詞典對輸入的搜索字符串進(jìn)行多路徑分詞,得到多路徑分詞結(jié)果,其中,如果多路徑分詞結(jié)果的最粗粒度路徑中至少有一組連續(xù)單字的單字?jǐn)?shù)量在預(yù)設(shè)范圍內(nèi),則根據(jù)規(guī)則詞典中的特征詞對搜索字符串進(jìn)行分詞;使用多路徑分詞結(jié)果進(jìn)行藥品搜索。本申請對醫(yī)藥行業(yè)的新詞、未標(biāo)注詞的切分效率和準(zhǔn)確率都更高,且能夠減少人工標(biāo)注的成本。
技術(shù)領(lǐng)域
本申請涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及藥品搜索技術(shù)領(lǐng)域。
背景技術(shù)
目前,通過互聯(lián)網(wǎng)進(jìn)行藥品搜索已經(jīng)越來越普遍,當(dāng)前業(yè)界主流的分詞方法,主要圍繞著基于詞典、基于統(tǒng)計、基于理解的三個方向在擴(kuò)展和延伸,雖然這些常規(guī)的做法基本滿足現(xiàn)代漢語、日常用語的分詞,但由于藥品搜索的特殊性,醫(yī)藥詞匯有著偏僻詞多、詞義模糊、語義模糊等特點,造成現(xiàn)有模型無法滿足醫(yī)藥行業(yè)的分詞需求。
例如,常見的藥品名稱:萬高厄貝沙坦氫氯噻嗪分散片,許多分詞器的原生模型得到的結(jié)果為(例如IK分詞器):萬,高,厄,貝,沙,坦,氫,氯,噻,嗪,分散,片。
可見,這樣的藥品分詞結(jié)果過于零散、模糊,用戶輸入藥品名稱時,只能搜索出包含這些字眼的內(nèi)容,造成大量的相關(guān)性較弱的內(nèi)容被召回回來,無法滿足在搜索中精確搜索、丟詞搜索的需求,迫使用戶需要更改關(guān)鍵詞進(jìn)行多次搜索,影響體驗的同時還加大了服務(wù)器的處理壓力。
發(fā)明內(nèi)容
本申請的目的在于提供一種藥品分詞搜索方法及系統(tǒng),能夠彌補(bǔ)現(xiàn)有技術(shù)中難以發(fā)現(xiàn)新詞、標(biāo)注不全面的弊端,對新詞、未標(biāo)注詞的切分效率和準(zhǔn)確率都更高,且能夠減少人工標(biāo)注的成本。
本申請公開了一種藥品分詞搜索方法,包含:
預(yù)先設(shè)定藥品詞典和規(guī)則詞典,其中所述藥品詞典包括已標(biāo)注的醫(yī)藥詞條,所述規(guī)則詞典包括劑型特征詞、高頻特征詞和組成特征詞;
根據(jù)所述藥品詞典對輸入的搜索字符串進(jìn)行多路徑分詞,得到多路徑分詞結(jié)果,其中,如果所述多路徑分詞結(jié)果的最粗粒度路徑中至少有一組連續(xù)單字的單字?jǐn)?shù)量在預(yù)設(shè)范圍內(nèi),則根據(jù)所述規(guī)則詞典中的劑型特征詞、高頻特征詞和組成特征詞對所述搜索字符串進(jìn)行分詞,其中,如果相鄰的特征詞之間的連續(xù)單字的單字?jǐn)?shù)量在預(yù)設(shè)范圍內(nèi),則將所述相鄰的特征詞之間的連續(xù)單字合并為一個組合詞,并將包含該組合詞的分詞結(jié)果作為一條新的路徑加入到所述多路徑分詞結(jié)果;
使用所述多路徑分詞結(jié)果進(jìn)行藥品搜索。
在一個優(yōu)選例中,所述設(shè)定規(guī)則詞典,包含以下子步驟:
分別建立藥品的劑型規(guī)則詞表、藥品的高頻特征規(guī)則詞表、以及藥品的組成特征規(guī)則詞表;以及
將所述藥品的劑型規(guī)則詞表、藥品的高頻特征規(guī)則詞表、以及藥品的組成特征規(guī)則詞表的數(shù)據(jù)進(jìn)行合并,生成規(guī)則詞典。
在一個優(yōu)選例中,所述根據(jù)所述藥品詞典對輸入的搜索字符串進(jìn)行多路徑分詞,進(jìn)一步包括:
調(diào)用第一分詞服務(wù),通過加載常規(guī)的現(xiàn)代漢語分詞模型,再增量裝載藥品詞典,構(gòu)建雙數(shù)組Trie樹,使所述第一分詞服務(wù)基于所述現(xiàn)代漢語分詞模型和藥品詞典對普通詞條和已標(biāo)注的醫(yī)藥詞條進(jìn)行切分處理,得到粗分詞網(wǎng);
使用正向/逆向最大粒度匹配原則選取最優(yōu)的兩條路徑,所述路徑按照粒度降序排列,當(dāng)正向/逆向分詞粒度大小一致時,根據(jù)概率模型計算概率,如果概率不同,則選取最大概率的詞條組成分詞結(jié)果,如果概率一樣,則取逆向分詞作為分詞結(jié)果,得到最終的多分詞路徑;
對所述多分詞路徑的多條路徑做排序,按粒度大小降序排列。
在一個優(yōu)選例中,所述根據(jù)所述規(guī)則詞典中的特征詞對所述搜索字符串進(jìn)行分詞,進(jìn)一步包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于耀方信息技術(shù)(上海)有限公司,未經(jīng)耀方信息技術(shù)(上海)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010822855.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





