[發明專利]一種短語挖掘方法及裝置有效
| 申請號: | 201910219059.2 | 申請日: | 2019-03-21 |
| 公開(公告)號: | CN110008309B | 公開(公告)日: | 2021-03-30 |
| 發明(設計)人: | 謝潤泉;李貴洋 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/335 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 郭潤湘;李娟 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 短語 挖掘 方法 裝置 | ||
本發明涉及計算機技術領域,尤其涉及一種短語挖掘方法及裝置,該方法為,基于預設策略,獲取候選短語集;根據預設過濾規則,對候選短語集進行過濾;針對過濾后的候選短語集中每一個候選短語,獲得設定的多個維度中每個維度的特征信息;基于精選短語質量模型分別獲得以各候選短語每個維度的特征信息為輸入參數確定的質量分值,所述精選短語質量模型用于根據候選短語各維度的特征信息確定候選短語的質量分值;根據各候選短語的質量分值,篩選出滿足預設質量條件的短語,這樣,綜合考慮多個維度的特征信息,使得篩選出的短語更加合理,提高短語挖掘的準確性。
技術領域
本發明涉及計算機技術領域,尤其涉及一種短語挖掘方法及裝置。
背景技術
自然語言處理中,通常首先需要將文本字符串表示成計算機能處理的數值向量。常用的方法可以基于不同粒度表示文本,并且為更加準確,考慮詞與詞之間的關聯關系,可以采用短語(phrase)粒度來表示文本。
現有技術中,phrase挖掘方法,主要是采用頻次統計的方法,一個候選phrase出現次數越多,則成為高質量phrase的可能性就越大,但是現有技術中的這種方式,考慮的維度較少,容易導致挖掘的phrase不合理,降低了準確性。
發明內容
本發明實施例提供一種短語挖掘方法及裝置,以解決現有技術中短語挖掘準確性低,容易導致出現不合理短語的問題。
本發明實施例提供的具體技術方案如下:
本發明一個實施例提供了一種短語挖掘方法,包括:
基于預設策略,獲取候選短語集;
根據預設過濾規則,對候選短語集進行過濾;
針對過濾后的候選短語集中每一個候選短語,獲得設定的多個維度中每個維度的特征信息;
基于精選短語質量模型分別獲得以各候選短語每個維度的特征信息為輸入參數確定的質量分值,所述精選短語質量模型用于根據候選短語各維度的特征信息確定候選短語的質量分值;
根據各候選短語的質量分值,篩選出滿足預設質量條件的短語。
本發明另一個實施例提供了一種短語挖掘裝置,包括:
候選短語獲取模塊,用于基于預設策略,獲取候選短語集;
規則過濾模塊,用于根據預設過濾規則,對候選短語集進行過濾;
特征獲取模塊,用于針對過濾后的候選短語集中每一個候選短語,獲得設定的多個維度中每個維度的特征信息;
質量分值獲取模塊,用于基于精選短語質量模型分別獲得以各候選短語每個維度的特征信息為輸入參數確定的質量分值,所述精選短語質量模型用于根據候選短語各維度的特征信息確定候選短語的質量分值;
篩選模塊,用于根據各候選短語的質量分值,篩選出滿足預設質量條件的短語。
本發明另一個實施例提供了一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時上述任一種短語挖掘方法的步驟。
本發明另一個實施例提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現上述任一種短語挖掘方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910219059.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:針對用戶問句補充信息的方法和裝置
- 下一篇:一種內容搜索方法及裝置





