[發明專利]數據處理方法及系統和服務器在審
| 申請號: | 201711416280.4 | 申請日: | 2017-12-22 |
| 公開(公告)號: | CN108009155A | 公開(公告)日: | 2018-05-08 |
| 發明(設計)人: | 劉帥 | 申請(專利權)人: | 聯想(北京)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 呂雁葭 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 系統 服務器 | ||
本公開提供了一種數據處理方法,該方法包括:獲取包含有指定短語的樣本語料;確定包含在樣本語料中的指定短語的詞性特征屬性;以及基于指定短語及其詞性特征屬性,確定出用于對語料進行短語識別的詞性組合集。本公開還提供了一種數據處理系統和一種服務器。
技術領域
本公開涉及一種數據處理方法及系統和服務器。
背景技術
在輿情分析中,我們一般都想從某一(或某些)特定行業的用戶反饋語料中,得到與該行業產品密切相關的描述類短語,如在關于手機的評論語料中,提取“屏幕的分辨率高”、“電池容量大”等短語。
目前,現有的解決方案是利用自然語言處理技術,并通過特定算法抽取相應的信息來識別語料中的相關短語。
然而,在實現本公開構思的過程中,發明人發現相關技術中至少存在以下缺陷:抽取這些信息的特定算法都需要大量的訓練語料,這些訓練語料又需要人工去標注短語出現的位置,會帶來大量的人力消耗。
針對上述問題,目前相關技術中尚未給出有效的解決方案。
發明內容
本公開的一個方面提供了一種數據處理方法,包括:獲取包含有指定短語的樣本語料;確定包含在上述樣本語料中的上述指定短語的詞性特征屬性;以及基于上述指定短語及其詞性特征屬性,確定出用于對語料進行短語識別的詞性組合集。
可選地,基于上述指定短語及其詞性特征屬性,確定出用于對語料進行短語識別的詞性組合集包括:從上述樣本語料中提取上述指定短語;對提取出來的上述指定短語進行分詞處理,得到多個短語分詞;將上述多個短語分詞進行排列組合,得到多個組合短語;基于上述指定短語的詞性特征屬性,確定上述多個組合短語的詞性特征屬性;以及基于上述多個組合短語的詞性特征屬性,確定出用于對語料進行短語識別的詞性組合集。
可選地,從上述樣本語料中提取上述指定短語包括:從上述樣本語料中提取帶有標識的短語作為上述指定短語。
可選地,上述方法還包括:在確定出上述詞性組合集之后,按詞性特征屬性條件對上述詞性組合集中包含的所有詞性組合進行統計;以及基于統計結果,確定詞性組合子集,其中,上述詞性組合子集中包含的詞性組合為從上述詞性組合集中選出的統計結果滿足預設條件的詞性組合。
可選地,上述方法還包括:在確定出上述詞性組合集之后,獲取上述詞性組合集中包含的至少一個名詞性短語的詞性組合以及至少一個非名詞性短語的詞性組合;以及使用上述至少一個名詞性短語的詞性組合替換上述至少一個非名詞性短語的詞性組合中的名詞詞性部分進行窮舉,得到最終的詞性組合集。
可選地,上述方法還包括:獲取待識別的目標語料;將上述目標語料進行分詞處理,得到多個分詞;針對上述多個分詞,確定其中至少一個分詞的詞性組合;以及將上述至少一個分詞的詞性組合與上述詞性組合集中的各詞性組合進行匹配,以從上述至少一個分詞中識別出詞性組合命中上述詞性組合集中的詞性組合的目標分詞。
可選地,上述方法還包括:利用預設過濾條件對上述目標分詞進行過濾;以及基于過濾結果,確定出最終的分詞識別對象。
本公開的另一個方面提供了一種數據處理系統,包括:獲取模塊,用于獲取包含有指定短語的樣本語料;第一確定模塊,用于確定包含在上述樣本語料中的上述指定短語的詞性特征屬性;以及第二確定模塊,用于基于上述指定短語及其詞性特征屬性,確定出用于對語料進行短語識別的詞性組合集。
可選地,上述第二確定模塊包括:提取單元,用于從上述樣本語料中提取上述指定短語;分詞單元,用于對提取出來的上述指定短語進行分詞處理,得到多個短語分詞;組合單元,用于將上述多個短語分詞進行排列組合,得到多個組合短語;第一確定單元,用于基于上述指定短語的詞性特征屬性,確定上述多個組合短語的詞性特征屬性;以及第二確定單元,用于基于上述多個組合短語的詞性特征屬性,確定出用于對語料進行短語識別的詞性組合集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于聯想(北京)有限公司,未經聯想(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711416280.4/2.html,轉載請聲明來源鉆瓜專利網。





