[發明專利]一種獲取英文詞的方法及裝置有效
| 申請號: | 201110333671.6 | 申請日: | 2011-10-28 |
| 公開(公告)號: | CN103092838B | 公開(公告)日: | 2017-07-21 |
| 發明(設計)人: | 李超;宋國龍;賈自艷 | 申請(專利權)人: | 深圳市世紀光速信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司11319 | 代理人: | 蘇培華 |
| 地址: | 518057 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 獲取 英文 方法 裝置 | ||
1.一種獲取英文詞的方法,其特征在于,該方法包括:
獲取搜索引擎查詢日志并進行分詞,獲取含有字母串的查詢詞;
根據預先設置的詞語特征解析方法獲取含有字母串的查詢詞的特征值,提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞,統計該候選詞的詞語特征值;
獲取候選詞中字母串對應的中文詞,統計該中文詞的詞語特征值,獲取該中文詞的詞語特征值與對應候選詞的詞語特征值的比值,如果該比值小于預先設置的比閾值,則該候選詞作為英文詞。
2.如權利要求1所述的方法,其特征在于,所述含有字母串的查詢詞包括:含有英文串的查詢詞以及含有拼音串的查詢詞。
3.如權利要求2所述的方法,其特征在于,所述詞語特征解析方法包括:詞語的搜索次數統計方法以及詞語對應的網頁點擊次數統計方法。
4.如權利要求3所述的方法,其特征在于,所述根據預先設置的詞語特征解析方法獲取含有字母串的查詢詞的特征值,提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞,包括:
統計獲取的各含有字母串的查詢詞在搜索引擎查詢日志中出現的搜索次數;
獲取搜索次數大于預先設置的搜索次數閾值對應的含有字母串的查詢詞,作為初步候選詞;
根據初步候選詞,統計該初步候選詞在搜索引擎查詢日志中出現的網頁點擊次數;
獲取網頁點擊次數大于預先設置的網頁點擊次數閾值對應的初步候選詞,作為候選詞輸出。
5.如權利要求4所述的方法,其特征在于,所述在獲取網頁點擊次數大于預先設置的網頁點擊次數閾值對應的初步候選詞之后,作為候選詞輸出之前,進一步包括:
將獲取的網頁點擊次數大于預先設置的網頁點擊次數閾值對應的初步候選詞作為中間候選詞;
統計中間候選詞在搜索引擎查詢日志中出現的混合查詢次數;
獲取混合查詢次數大于預先設置的混合查詢次數閾值對應的中間候選詞。
6.如權利要求1至5任一項所述的方法,其特征在于,所述提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞的步驟之后,獲取候選詞中字母串對應的中文詞的步驟之前,進一步包括:
根據拼音構成規則對候選詞進行識別;
如果候選詞不符合拼音構成規則,直接將其作為英文詞;
如果候選詞符合拼音構成規則,執行獲取候選詞中字母串對應的中文詞的步驟。
7.一種獲取英文詞的裝置,其特征在于,該裝置包括:查詢詞選取模塊、詞語特征匹配模塊以及英文詞特征匹配模塊,其中,
查詢詞選取模塊,用于根據獲取的搜索引擎查詢日志,進行分詞,獲取含有字母串的查詢詞;
詞語特征匹配模塊,用于根據預先設置的詞語特征解析方法獲取含有字母串的查詢詞的特征值,提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞,統計該候選詞的詞語特征值;
英文詞特征匹配模塊,用于獲取候選詞中字母串對應的中文詞,統計該中文詞的詞語特征值,獲取該中文詞的詞語特征值與對應候選詞的詞語特征值的比值,如果該比值小于預先設置的比閾值,則該候選詞作為英文詞。
8.如權利要求7所述的裝置,其特征在于,進一步包括:
拼音串過濾模塊,用于根據拼音構成規則對詞語特征匹配模塊輸出的候選詞進行識別,如果候選詞不符合拼音構成規則,直接將其作為英文詞;如果候選詞符合拼音構成規則,將該候選詞輸出至英文詞特征匹配模塊。
9.如權利要求7或8所述的裝置,其特征在于,所述詞語特征匹配模塊包括搜索次數統計單元、搜索次數判斷單元、網頁點擊次數統計單元、網頁點擊次數判斷單元以及候選詞存儲單元,其中,
搜索次數統計單元,用于統計查詢詞選取模塊獲取的各含有字母串的查詢詞在搜索引擎查詢日志中出現的搜索次數;
搜索次數判斷單元,用于將搜索次數大于預先設置的搜索次數閾值對應的含有字母串的查詢詞輸出至網頁點擊次數統計單元;
網頁點擊次數統計單元,用于根據接收的含有字母串的查詢詞,統計該含有字母串的查詢詞在搜索引擎查詢日志中出現的網頁點擊次數;
網頁點擊次數判斷單元,用于將網頁點擊次數大于預先設置的網頁點擊次數閾值對應的含有字母串的查詢詞作為候選詞,輸出至候選詞存儲單元進行存儲。
10.如權利要求9所述的裝置,其特征在于,所述詞語特征匹配模塊進一步包括:
混合查詢次數統計單元以及混合查詢次數判斷單元,其中,
混合查詢次數統計單元,用于根據網頁點擊次數判斷單元輸出的含有字母串的查詢詞,統計該含有字母串的查詢詞在搜索引擎查詢日志中出現的混合查詢次數;
混合查詢次數判斷單元,用于將混合查詢次數大于預先設置的混合查詢次數閾值對應的含有字母串的查詢詞作為候選詞,輸出至候選詞存儲單元進行存儲。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市世紀光速信息技術有限公司,未經深圳市世紀光速信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110333671.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:應用于彈射式滑翔機模型的機翼
- 下一篇:玩具螳螂





