[發(fā)明專利]一種標簽的提取方法、裝置、設備及可讀存儲介質在審
| 申請?zhí)枺?/td> | 202011146256.5 | 申請日: | 2020-10-23 |
| 公開(公告)號: | CN112256832A | 公開(公告)日: | 2021-01-22 |
| 發(fā)明(設計)人: | 陳揚;陸惠國;陸爭輝;顧文斌;祝志偉 | 申請(專利權)人: | 上海恒生聚源數據服務有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 劉穎 |
| 地址: | 200127 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 標簽 提取 方法 裝置 設備 可讀 存儲 介質 | ||
本申請實施例提供了一種標簽的提取方法、裝置、設備及可讀存儲介質,對獲取的文本進行處理,得到候選詞集合。依據參數,計算候選詞的初始權重值,依據初始權重值和預設的權重迭代算法,計算候選詞集合中的詞的第一權重值。依據第一權重值以及調整系數,確定候選詞集合中的詞的第二權重值,依據第二權重值,從候選詞集合中選擇文本的標簽。目標候選詞的參數至少包括目標候選詞的詞頻、目標候選詞的詞長和/或目標候選詞的詞跨度,目標候選詞的調整系數包括第一調整系數和/或第二調整系數,可見,本方法結合了詞長、詞跨度和調整系數,而非僅有詞頻,不僅能夠降低對于詞頻的依賴程度,更能從多個維度獲取權重,從而提高標簽提取的準確性。
技術領域
本申請涉及數據處理技術領域,尤其涉及一種標簽的提取方法、裝置、設備及可讀存儲介質。
背景技術
文本的標簽是能夠表達文本核心內容的詞語,該詞語有助于對文本進行簡單的描述和分類,例如,在新聞資訊領域中,文本資訊數據具有數量大,內容魚目混雜、難以精確推送、讀者閱讀困難等難點,資訊文本的標簽有助于文本資訊的內容分類、匯集、檢索以及后續(xù)的個性化推薦,但是,現有的標簽提取算法,提取的標簽的準確性不高,即標簽不能表示文本的核心內容。
發(fā)明內容
申請人在研究的過程中發(fā)現,現有的標簽的提取方法,過度依賴詞頻這一個因素,所以,提取的標簽準確性不高。
有鑒于此,本申請?zhí)峁┝艘环N標簽的提取方法、裝置、設備及可讀存儲介質,用于提高標簽的準確性,如下:
一種標簽的提取方法,包括:
獲取文本;
對所述文本進行處理,得到候選詞集合,所述處理至少包括分詞處理;
依據參數,計算所述候選詞的初始權重值,其中,目標候選詞的所述參數至少包括所述目標候選詞的詞頻、所述目標候選詞的詞長和/或所述目標候選詞的詞跨度,所述目標候選詞的詞跨度為所述目標候選詞在所述文本中,按照所述文本順序,首次出現的位置與末次出現的位置之間的文本長度;所述目標候選詞為所述候選詞集合中的任意一個詞;
依據所述初始權重值和預設的權重迭代算法,計算所述候選詞集合中的詞的第一權重值;
依據所述第一權重值以及調整系數,確定所述候選詞集合中的詞的第二權重值,所述調整系數包括第一調整系數和/或第二調整系數,所述目標候選詞的所述第一調整系數依據所述目標候選詞指示的領域預先設置,所述目標候選詞的所述第二調整系數依據所述目標候選詞指示的對象預先設置;
依據所述第二權重值,從所述候選詞集合中選擇所述文本的標簽。
可選地,獲取文本包括:
對原始文本進行清洗,得到所述文本,所述清洗包括:去除預設類型的字符、將字符轉換為預設格式中的至少一項。
可選地,處理還包括:
在所述分詞處理之前,刪除所述文本中的預設類型的內容。
可選地,處理還包括:
在所述分詞處理之前,檢測目標字符,所述目標字符為所述文本中處于預設位置的字符;
在所述文本中所述目標字符的前或后相鄰位置,將所述目標字符復制N倍,所述N依據所述預設位置預先設置。
可選地,處理還包括:
在所述分詞處理之后,對所述分詞處理的結果進行詞清洗,所述詞清洗包括將相同含義的詞統(tǒng)一表述。
可選地,詞清洗還包括:
去除預設的停用詞和/或無效詞。
可選地,依據所述第二權重值,從所述候選詞集合中選擇所述文本的標簽,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海恒生聚源數據服務有限公司,未經上海恒生聚源數據服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011146256.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種增量標識修正方法及裝置
- 下一篇:一種脫硫塔漿池





