[發明專利]一種文本關鍵詞處理方法、裝置及設備在審
| 申請號: | 202010412802.9 | 申請日: | 2020-05-15 |
| 公開(公告)號: | CN111339751A | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 劉凡 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/289;G06F40/253;G06F16/35 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司 11315 | 代理人: | 許振新 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 關鍵詞 處理 方法 裝置 設備 | ||
本說明書實施例提供一種文本關鍵詞處理方法、裝置及設備。所述方法包括:對待處理的語句文本進行分詞處理,得到該語義文本中的分詞并進行詞性標注;然后依據分詞的詞性,分析出各分詞之間的句法依存關系,從而得到各分詞對應的分詞樣本;最后將分詞樣本作為預訓練的關鍵詞識別模型的輸入,得到各分詞對應的關鍵詞標簽,進而分析出該語句文本的關鍵詞信息。
技術領域
本文件涉及計算機技術領域,尤其涉及一種文本關鍵詞處理方法、裝置及設備。
背景技術
關鍵詞抽取是快速獲取信息主題的重要手段,在信息檢索和自然語言處理等領域均有重要應用。例如,在具體業務領域,業務方可能每天都會收到大量用戶的反饋的問題信息,為了盡快鎖定熱點問題并給予解決方案,業務方需要花費大量時間才能從海量數據中挖掘出用戶表述的問題。
因此,需要提供一種更可靠的方案。
發明內容
本說明書實施例提供一種文本關鍵詞處理方法、裝置及設備,以高效且準確地抽取文本中的關鍵詞。
本說明書實施例還提供一種文本關鍵詞處理方法,包括:
基于分詞及詞性標注后的語句文本進行依存句法分析,得到所述語句文本內各分詞的句法依存關系;
基于所述語句文本中各分詞的句法依存關系和詞性,生成所述語句文本中各分詞對應的分詞樣本;
分別將所述各分詞對應的分詞樣本作為關鍵詞識別模型的輸入,以得到各分詞對應的關鍵詞標簽,所述關鍵詞識別模型基于批量的語句文本對應的訓練分詞樣本及訓練分詞樣本對應的關鍵詞標簽訓練得到,所述訓練分詞樣本具有與所述分詞樣本相同維度的特征;
基于各分詞及對應的關鍵詞標簽,得到所述語句文本的關鍵詞信息。
本說明書實施例還提供一種文本關鍵詞處理方法,包括:
對批量的語句文本進行分詞及詞性標注處理;
基于分詞及詞性標注處理后的語句文本進行依存句法分析,得到每個語句文本內各分詞的句法依存關系;
基于每個語句文本中各分詞的句法依存關系和詞性,生成每個語句文本中各分詞對應的訓練分詞樣本;
將每個語句文本中各分詞對應的訓練分詞樣本作為關鍵詞識別模型的輸入,將分詞的關鍵詞標簽作為所述關鍵詞識別模型的輸出,對所述關鍵詞識別模型進行訓練。
本說明書實施例還提供一種文本關鍵詞處理裝置,包括:
第一處理模塊,基于分詞及詞性標注后的語句文本進行依存句法分析,得到所述語句文本內各分詞的句法依存關系;
第二處理模塊,基于所述語句文本中各分詞的句法依存關系和詞性,生成所述語句文本中各分詞對應的分詞樣本;
模型識別模塊,分別將所述各分詞對應的分詞樣本作為關鍵詞識別模型的輸入,以得到各分詞對應的關鍵詞標簽,所述關鍵詞識別模型基于批量的語句文本對應的訓練分詞樣本及訓練分詞樣本對應的關鍵詞標簽訓練得到,所述訓練分詞樣本具有與所述分詞樣本相同維度的特征;
第三處理模塊,基于各分詞及對應的關鍵詞標簽,得到所述語句文本的關鍵詞信息。
本說明書實施例還提供一種文本關鍵詞處理裝置,包括:
第一處理模塊,對批量的語句文本進行分詞及詞性標注處理;
第二處理模塊,基于分詞及詞性標注處理后的語句文本進行依存句法分析,得到每個語句文本內各分詞的句法依存關系;
第三處理模塊,基于每個語句文本中各分詞的句法依存關系和詞性,生成每個語句文本中各分詞對應的訓練分詞樣本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010412802.9/2.html,轉載請聲明來源鉆瓜專利網。





