[發明專利]連鎖品牌詞詞庫、類別詞詞庫建立方法和裝置有效
| 申請號: | 201310439450.6 | 申請日: | 2013-09-24 |
| 公開(公告)號: | CN104462143B | 公開(公告)日: | 2018-01-30 |
| 發明(設計)人: | 劉廣權 | 申請(專利權)人: | 高德軟件有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司11227 | 代理人: | 王寶筠 |
| 地址: | 102200 北京市昌*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 連鎖 品牌 詞庫 類別 建立 方法 裝置 | ||
1.一種連鎖品牌詞詞庫建立方法,其特征在于,包括:
將同一城市興趣點POI數據庫中名稱主干相同的POI數據聚合成一個POI數據組,所述POI數據組與所述名稱主干對應;
從各個POI數據組中提取所述POI數據組的識別特征;
從所有POI數據組中抽取出名稱主干已被標記為連鎖品牌詞和非連鎖品牌詞的POI數據組作為訓練數據,基于所述訓練數據的識別特征進行連鎖品牌詞識別器的訓練;
利用訓練后的所述連鎖品牌詞識別器對所有POI數據組對應的名稱主干中未識別的名稱主干進行識別,識別出是連鎖品牌詞的名稱主干;
將所述是連鎖品牌詞的名稱主干存儲在預置的連鎖品牌詞詞庫中。
2.根據權利要求1所述的方法,其特征在于,在利用訓練后的所述連鎖品牌詞識別器對所有POI數據組對應的名稱主干中未識別的名稱主干進行識別之前,還包括檢驗過程,所述檢驗過程包括:
從所有POI數據組中抽取出名稱主干已被標記為連鎖品牌詞和非連鎖品牌詞的POI數據組作為檢驗數據,所述檢驗數據和所述訓練數據為不同的數據;
利用所述連鎖品牌詞識別器對所述檢驗數據的名稱主干進行識別,識別出是連鎖品牌詞的名稱主干;
根據所述連鎖品牌詞識別器對所述檢驗數據的識別結果,計算所述連鎖品牌詞識別器對連鎖品牌詞的識別準確率和/或識別召回率,其中,所述識別準確率等于識別結果中是準確的連鎖品牌詞的名稱主干的數量除以識別結果中識別出的是連鎖品牌詞的名稱主干的數量,所述召回率等于識別結果中是準確的連鎖品牌詞的名稱主干的數量除以所述檢驗數據中已被標記為連鎖品牌詞的名稱主干的數量,所述準確的連鎖品牌詞的名稱主干是既被標記為連鎖品牌詞又被識別為連鎖品牌詞的名稱主干;
判斷所述識別準確率和/或識別召回率是否大于或等于各自對應的閾值;
若否,則調節所述連鎖品牌詞識別器,利用調節后的所述連鎖品牌詞識別器重復所述檢驗過程中的第二至第四個步驟。
3.根據權利要求2所述的方法,其特征在于,所述連鎖品牌詞識別器為線性分類器,所述線性分類器為:
y=∑(Wi×Xi)+b
其中,Wi為第i個識別特征的權重系數,Xi為第i個識別特征的值,b為常數項,當y大于或等于預設閾值則識別所述POI數組對應的名稱主干為連鎖品牌詞,當y小于所述預設閾值則識別所述POI數據組對應的名稱主干為非連鎖品牌詞。
4.根據權利要求1~3任一項所述的方法,其特征在于,POI數據組的識別特征為以下任意一個或任意多個組合:
空間分布距離;空間分布熵;POI數據組中名稱帶有分店標志的POI數據的比率;POI數據組中名稱帶有門標志的POI數據的比率;POI數據組的類別分值,所述類別分值是指將所述POI數據組中類別相同的POI數據聚合成一個數據組,包含POI數據最多的數據組的類別對應的預置分值,所述預置分值是根據預置的所述類別出現連鎖品牌機構的先驗概率得到,所述先驗概率等于N/M,其中M為所述訓練數據中標記為連鎖品牌詞的名稱主干所對應的POI數據的數量,N為所述M個POI數據中與所述包含POI數據最多的數據組的類別相同的POI數據的數量。
5.一種連鎖品牌詞詞庫和類別詞詞庫建立方法,其特征在于,包括:
從用戶查詢日志中,獲取不同用戶在同一城市通過相同的查詢詞查詢得到的POI數據,將獲取到的POI數據聚合成一個POI數據組,所述POI數據組與所述查詢詞對應;
從各個POI數據組中提取所述POI數據組的識別特征;
從所有POI數據組中抽取出查詢詞已被標記為連鎖品牌詞、類別詞和普通詞的POI數據組作為訓練數據,基于所述訓練數據的識別特征進行識別器的訓練;
利用訓練后的識別器對所有POI數據組對應的查詢詞中未識別的查詢詞進行識別,識別出是連鎖品牌詞和類別詞的查詢詞;
將所述是連鎖品牌詞的查詢詞存儲在預置的連鎖品牌詞詞庫中,以及將所述是類別詞的查詢詞存儲在預置的類別詞詞庫中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于高德軟件有限公司,未經高德軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310439450.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種興趣點父子關系的建立方法及裝置
- 下一篇:網頁數據采集方法及裝置





