[發(fā)明專利]店鋪名稱挖掘方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202010078834.X | 申請(qǐng)日: | 2020-02-03 |
| 公開(kāi)(公告)號(hào): | CN111325025B | 公開(kāi)(公告)日: | 2023-04-07 |
| 發(fā)明(設(shè)計(jì))人: | 李向陽(yáng) | 申請(qǐng)(專利權(quán))人: | 口口相傳(北京)網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號(hào): | G06F40/289 | 分類號(hào): | G06F40/289;G06F40/216 |
| 代理公司: | 北京中強(qiáng)智尚知識(shí)產(chǎn)權(quán)代理有限公司 11448 | 代理人: | 王歡 |
| 地址: | 100102 北京市朝*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 店鋪 名稱 挖掘 方法 裝置 | ||
本發(fā)明公開(kāi)了一種店鋪名稱挖掘方法及裝置。該方法包括:搜集店鋪名稱,根據(jù)搜集到的店鋪名稱,生成核心短語(yǔ)集合和特征短語(yǔ)集合;對(duì)特征短語(yǔ)集合及核心短語(yǔ)集合中的任一短語(yǔ)進(jìn)行分詞,計(jì)算任一分詞結(jié)果作為核心詞的概率以及作為特征詞的概率;獲取待處理的目標(biāo)店鋪名稱,對(duì)目標(biāo)店鋪名稱進(jìn)行分詞,確定至少一個(gè)切分點(diǎn),其中,將切分點(diǎn)之前的詞語(yǔ)作為核心詞,將切分點(diǎn)之后的詞語(yǔ)作為特征詞,根據(jù)核心詞概率及特征詞概率計(jì)算各個(gè)切分點(diǎn)對(duì)應(yīng)的切分概率,根據(jù)切分概率確定目標(biāo)店鋪名稱的目標(biāo)切分點(diǎn),提升了挖掘的準(zhǔn)確率,節(jié)省了挖掘時(shí)間,簡(jiǎn)化了處理流程,克服了現(xiàn)有技術(shù)采用N?gram方法來(lái)一級(jí)一級(jí)地挖掘?qū)е轮貜?fù)操作,且耗費(fèi)時(shí)間的問(wèn)題。
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種店鋪名稱挖掘方法及裝置。
背景技術(shù)
店鋪名稱主要分為兩個(gè)部分:一部分用于描述該店鋪比較特有的名稱(稱之為核心詞),另外一部分用于描述該店鋪的類別或者主營(yíng)菜品(稱之為特征詞)等。一般情況下,該店鋪的核心詞處于該店鋪名稱的前邊部分,特征詞處于該店鋪名稱的后邊部分。
目前店鋪名稱的挖掘方法是通過(guò)挖掘特征詞,主要是利用N-gram方法及人工審核的方式,首先利用N-gram方法進(jìn)行分詞,其中,N的取值與店鋪名稱的長(zhǎng)度相關(guān),例如,店鋪名稱長(zhǎng)度為5,那么N的取值分別為1、2、3、4、5,具體地,先提取一個(gè)后綴詞,統(tǒng)計(jì)高頻,并進(jìn)行人工復(fù)核,然后通過(guò)兩個(gè)后綴詞,3個(gè)后綴詞進(jìn)行重復(fù)操作的方式來(lái)進(jìn)行處理,需要重復(fù)5次這樣的操作,造成店鋪名稱挖掘效率低,以及挖掘的準(zhǔn)確率低。
發(fā)明內(nèi)容
鑒于上述問(wèn)題,提出了本發(fā)明實(shí)施例以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的店鋪名稱挖掘方法及裝置。
根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種店鋪名稱挖掘方法,包括:
搜集店鋪名稱,根據(jù)搜集到的店鋪名稱,生成核心短語(yǔ)集合和特征短語(yǔ)集合;
對(duì)特征短語(yǔ)集合及核心短語(yǔ)集合中的任一短語(yǔ)進(jìn)行分詞,計(jì)算任一分詞結(jié)果作為核心詞的概率以及作為特征詞的概率;
獲取待處理的目標(biāo)店鋪名稱,對(duì)目標(biāo)店鋪名稱進(jìn)行分詞,確定至少一個(gè)切分點(diǎn),其中,將切分點(diǎn)之前的詞語(yǔ)作為核心詞,將切分點(diǎn)之后的詞語(yǔ)作為特征詞,根據(jù)核心詞概率及特征詞概率計(jì)算各個(gè)切分點(diǎn)對(duì)應(yīng)的切分概率,根據(jù)切分概率確定目標(biāo)店鋪名稱的目標(biāo)切分點(diǎn)。
可選地,搜集店鋪名稱,根據(jù)搜集到的店鋪名稱,生成核心短語(yǔ)集合和特征短語(yǔ)集合進(jìn)一步包括:
S1,獲取多個(gè)店鋪名稱,篩選店鋪名稱長(zhǎng)度小于或等于預(yù)設(shè)字長(zhǎng)的店鋪名稱作為核心短語(yǔ);
S2,利用核心短語(yǔ)進(jìn)行店鋪名稱的匹配,將未匹配的店鋪名稱部分作為特征短語(yǔ)記錄至特征短語(yǔ)集合中;
S3,利用特征短語(yǔ)進(jìn)行店鋪名稱的匹配,將未匹配的店鋪名稱部分作為核心短語(yǔ)記錄至核心短語(yǔ)集合中;迭代執(zhí)行S2-S3,得到特征短語(yǔ)集合及核心短語(yǔ)集合。
可選地,根據(jù)核心詞概率及特征詞概率計(jì)算各個(gè)切分點(diǎn)對(duì)應(yīng)的切分概率,根據(jù)切分概率確定目標(biāo)店鋪名稱的目標(biāo)切分點(diǎn)進(jìn)一步包括:
針對(duì)任一切分點(diǎn),查詢確定核心詞的概率及特征詞的概率,根據(jù)核心詞概率及特征詞概率計(jì)算該切分點(diǎn)對(duì)應(yīng)的切分概率;
將最大切分概率對(duì)應(yīng)的切分點(diǎn)確定為目標(biāo)店鋪名稱的目標(biāo)切分點(diǎn)。
可選地,對(duì)特征短語(yǔ)集合及核心短語(yǔ)集合中的任一短語(yǔ)進(jìn)行分詞,計(jì)算任一分詞結(jié)果作為核心詞的概率以及作為特征詞的概率進(jìn)一步包括:
對(duì)特征短語(yǔ)集合及核心短語(yǔ)集合中的任一短語(yǔ)進(jìn)行分詞,統(tǒng)計(jì)任一分詞結(jié)果在核心短語(yǔ)集合中出現(xiàn)的第一詞頻以及在特征短語(yǔ)集合中出現(xiàn)的第二詞頻;
根據(jù)第一詞頻及第二詞頻計(jì)算該分詞結(jié)果作為核心詞的概率以及作為特征詞的概率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于口口相傳(北京)網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)口口相傳(北京)網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010078834.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





