[發明專利]一種文本處理方法及裝置在審
| 申請號: | 201910269029.2 | 申請日: | 2019-04-04 |
| 公開(公告)號: | CN111858837A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 王旭;陳坦訪;王偉瑋;李奘 | 申請(專利權)人: | 北京嘀嘀無限科技發展有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/20;G06F40/289 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 劉靜 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 處理 方法 裝置 | ||
本申請涉及文本處理技術領域,尤其涉及一種文本處理方法及裝置。本申請通過將獲取到的中文文本進行分詞處理,得到多個中文詞語,在預設好的中英文映射表中查找出與每個中文詞語分別對應的英文字母序列,進而將中文文本轉化為對應的英文文本,進一步地,從英文文本中抽取出多個英文關鍵短語,并根據中英文映射表,分別將每個英文關鍵短語轉化為中文關鍵短語。與現有技術中只基于中文文本抽取中文關鍵短語的方法相比,本申請通過預設規則將中文文本轉化為英文文本,并采用成熟的英文關鍵短語的抽取算法對該英文文本進行英文關鍵短語的抽取,進而將英文關鍵短語轉化為中文關鍵短語,可以提升中文關鍵短語抽取的準確率和效率。
技術領域
本申請涉及文本處理技術領域,尤其涉及一種文本處理方法及裝置。
背景技術
關鍵短語自動抽取是文本信息處理的重要技術,是在進行文本自動摘要、文本自動分類、主題提取及專利檢索分析等文本信息理解工作時,都要應用到的一項關鍵技術。
目前,現有技術中,基于中文文本進行中文關鍵短語的抽取,存在比如字符編碼、語言習慣的問題,造成中文關鍵短語抽取的效率低下而且準確率不高。
發明內容
有鑒于此,本申請實施例的目的在于提供一種文本處理方法及裝置,可以提升中文關鍵短語抽取的準確率和效率。
主要包括以下幾個方面:
第一方面,本申請實施例提供一種文本處理方法,所述文本處理方法包括:
將獲取到的中文文本進行分詞處理,得到多個中文詞語;
在預設好的中英文映射表中查找出與每個中文詞語分別對應的英文字母序列;
根據查找出的多個英文字母序列,將所述中文文本轉化為對應的英文文本;
從所述英文文本中抽取出多個英文關鍵短語;
根據所述中英文映射表,分別將每個英文關鍵短語轉化為中文關鍵短語。
在一種可能的實施方式中,根據以下步驟建立所述中英文映射表:
獲取中文詞語庫中所有的中文詞語,分別對每個中文詞語進行編號;
基于每個中文詞語對應的編號,分別確定每個中文詞語對應的英文字母序列;
按照每個中文詞語、每個中文詞語對應的編號及英文字母序列的相互對應關系,建立所述中英文映射表。
在一種可能的實施方式中,所述基于每個中文詞語對應的編號,分別確定每個中文詞語對應的英文字母序列,包括:
將每個中文詞語對應的編號與預設數值進行相除計算,并確定每個相除計算結果中的商值和余數;
根據每個中文詞語對應的商值和余數,確定每個中文詞語對應的英文字母序列。
在一種可能的實施方式中,所述從所述英文文本中抽取出多個英文關鍵短語,包括:
對所述英文文本中至少兩個連續的英文字母序列進行組合,確定出多個英文字母短語;
將所述多個英文字母短語和查找出的所述多個英文字母序列,確定為多個候選英文關鍵短語;
從所述多個候選英文關鍵短語中抽取出英文關鍵短語。
在一種可能的實施方式中,所述從所述多個候選英文關鍵短語中抽取出英文關鍵短語,包括:
確定每個候選英文關鍵短語的受歡迎度、聚合度以及信息量;
根據每個候選英文關鍵短語的受歡迎度、聚合度以及信息量,對每個候選英文關鍵短語進行評分;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京嘀嘀無限科技發展有限公司,未經北京嘀嘀無限科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910269029.2/2.html,轉載請聲明來源鉆瓜專利網。





