[發明專利]一種基于查詢日志的新詞自動查找系統和方法無效
| 申請號: | 201210274901.0 | 申請日: | 2012-08-03 |
| 公開(公告)號: | CN102831194A | 公開(公告)日: | 2012-12-19 |
| 發明(設計)人: | 張愛琦;崔世起;楊青 | 申請(專利權)人: | 人民搜索網絡股份公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京匯澤知識產權代理有限公司 11228 | 代理人: | 劉淑敏 |
| 地址: | 100020 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 查詢 日志 新詞 自動 查找 系統 方法 | ||
技術領域
?本發明涉及互聯網信息處理領域,特別涉及一種基于查詢日志的新詞自動查找系統和方法。
背景技術
?隨著互聯網的飛速發展,網絡信息的發布和傳播越來越快,網絡新詞也隨之層出不窮。根據中國語言文字工作委員會的專家所做的統計,自改革開放以來20年內平均每年產生800多個新詞語,而近年來,網絡的發達早已使新詞的產生速度遠遠超過這一數字。新詞的產生導致進行互聯網信息處理時,對詞語的切分、理解和信息檢索的能力大大下降。因此如何有效地發現新詞,是互聯網信息處理領域的一項重要工作。因此,這里所稱的“新詞”,不僅包含傳統語言學上的詞語,還包括互聯網上最新出現的廣為傳頌的短語。
目前的新詞發現方法主要有基于統計和基于規則兩種方法。基于統計的方法,首先利用統計模型,根據詞語的特征信息獲取候選串,再利用詞頻等信息過濾垃圾串,該方法依賴于語料庫的完善,并且傾向于識別較短或高頻的新詞,識別新短語及低頻詞的能力較差。基于規則的方法,一般是根據新詞的語言構詞特征或構詞模式特點建立規則庫、領域詞典或模式庫,然后通過模式匹配發現新詞,該方法需要專業領域知識及語言學基礎,可移植性和可擴展性較差,更新速度較慢。
新詞常常是對新事物或新事件的概述,在構成方面沒有普遍統一的規律,常常不符合漢字的構詞規則,并且新詞產生速度快,覆蓋范圍廣,語料收集工作較難同步。因此傳統的基于統計和基于規則進行新詞識別的方法已無法滿足當前快速、準確發現新詞的需求。
但是現有技術采用基于統計的方法,對語料庫的要求較高,容易產生垃圾串,且常常由于數據稀疏導致無法識別出低頻新詞;而基于規則的方法又依賴規則獲取的有效性和完備性,無法滿足新詞快速更新的需求。
發明內容
?有鑒于此,本發明的主要目的在于提供一種基于查詢日志的新詞自動查找系統和方法,以解決現有統計方法的語料庫難獲取和規則方法的不易擴展等問題,通過使用詞串共現率,輔以過濾策略,該新詞自動查找系統和方法不需要構建語料庫和特殊規則,能夠簡便易行地從查詢日志中自動發現新詞。
為達到上述目的,本發明的技術方案是這樣實現的:
一種基于查詢日志的新詞自動查找系統,主要包括查詢日志預處理模塊、新詞發現模塊和新詞生成模塊;其中:
查詢日志預處理模塊,用于根據設置的定時新詞發現的時間,定期的從查詢日志中獲取定時間隔的這一段時間內的查詢串及查詢頻次,并對查詢串進行分詞處理,保存每個n-gram串及相應的頻次;
新詞發現模塊,根據所述查詢串的分詞結果,統計相同n-gram串的頻次;根據單個詞的頻次和n-gram串的頻次計算n-gram詞串的共現率,并選取共現率較高的詞串作為候選新詞集合;歸并候選新詞集合中相近頻次的父子串;
新詞生成模塊,對候選新詞集合應用過濾和剪枝策略,去除候選新詞集合中的垃圾串,得到最終的新詞集合。將最終新詞集合導入分詞詞庫中,從而實現增量式新詞發現。
其中:所述過濾和剪枝策略包括基本語言學構詞規則策略和成詞模式過濾策略。
所述基本語言學構詞規則策略,包括字數過濾規則,純數字字母串和日期過濾規則,常見輔助詞過濾規則和常見查詢搭配詞過濾規則。
所述成詞模式過濾策略,包括疊詞模式過濾和四字詞的2-2模式剪枝。
一種基于查詢日志的新詞自動查找方法,該方法包括:
A、查詢串的分詞處理步驟:選取一段時間的查詢日志,使用查詢串及查詢頻次,刪除該查詢日志中的其他信息,并使用分詞工具對查詢串進行切分;
B、新詞發現的實現步驟,包括詞串頻率的統計、詞串共現率計算以及父子串歸并;
C、新詞過濾的步驟,包括對生成的候選新詞集合進行過濾,去除垃圾串。
其中:步驟A所述使用分詞工具對查詢串進行切分,對于一個查詢串,分詞切分時會返回多個粒度的結果;采用分詞的最大粒度結果,以保證詞串中任意詞的組合均不為已經存在的詞。
步驟A進一步包括:按照傳統語言學概念,將詞語根據成詞字數分為單元詞、二元詞、三元詞、四元詞和多元詞,并通過擴展該語言學概念,根據數據串進行分詞處理后成詞的詞數,將所述詞串分為2-gram、3-gram、…、n-gram;詞串中的每個詞稱為token,則n-gram的格式為:[token-1][空格][token-2]…[token-n]。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于人民搜索網絡股份公司,未經人民搜索網絡股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210274901.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種虛擬影院交互系統及方法
- 下一篇:改進型泵





