[發明專利]文本內容標簽標記方法以及裝置在審
| 申請號: | 201611224511.7 | 申請日: | 2016-12-27 |
| 公開(公告)號: | CN106649274A | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 陳震;佟鏑;黃晟 | 申請(專利權)人: | 東華互聯宜家數據服務有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京超凡志成知識產權代理事務所(普通合伙)11371 | 代理人: | 張海洋 |
| 地址: | 300457 天津市濱海新區華苑產業區工華道壹號允公科技*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 內容 標簽 標記 方法 以及 裝置 | ||
1.一種文本內容標簽標記方法,其特征在于,所述方法包括:
獲取與目標文本內容相匹配的已經分類過的文本內容的多個特征標簽;
計算每一個所述特征標簽與所述目標文本內容的分詞片段的相似度;
使用相似度大于預設相似度閾值的特征標簽對所述目標文本內容進行標記。
2.根據權利要求1所述的方法,其特征在于,所述獲取與目標文本內容相匹配的已經分類過的文本內容的多個特征標簽,具體包括:
獲取與目標文本內容相匹配的已經分類過的文本內容的多個特征信息;
計算每一個所述特征信息的權重;
根據所述權重以及預設權重閾值進行判斷,將達到所述預設權重閾值的特征信息確定為特征標簽。
3.根據權利要求2所述的方法,其特征在于,所述獲取與目標文本內容相匹配的已經分類過的文本內容的多個特征信息,具體包括:
通過抓取適配器抓取與目標文本內容相匹配的已經分類過的文本內容;
將所述文本內容進行分詞處理,獲得多個分詞片段;
根據預設的干擾詞匯模板,過濾所述多個分詞片段中的干擾詞匯;
將過濾了干擾詞匯的多個分詞片段作為多個特征信息。
4.根據權利要求3所述的方法,其特征在于,所述預設的干擾詞匯模板包括:黑名單詞匯以及無語義詞匯;其中,所述無語義詞匯包括:標點符號以及漢語高頻詞匯。
5.根據權利要求1所述的方法,其特征在于,在所述計算每一個所述特征標簽與所述目標文本內容的分詞片段的的相似度之前,還包括:
將所述目標文本內容進行分詞處理,獲得多個分詞片段;
根據預設的干擾詞匯模板,過濾所述多個分詞片段中的干擾詞匯。
6.根據權利要求1-5任一項所述的方法,其特征在于,在所述使用相似度大于預設相似度閾值的特征標簽對所述目標文本內容進行標記之后,還包括:
根據給所述目標文本內容標記的不同的標簽,將所述目標文本內容分為不同的類別。
7.根據權利要求1-5任一項所述的方法,其特征在于,在所述使用相似度大于預設相似度閾值的特征標簽對所述目標文本內容進行標記之后,還包括:
根據給所述目標文本內容標記的不同的標簽,自動生成所述目標文本內容的主題。
8.一種文本內容標簽標記裝置,其特征在于,所述裝置包括:
標簽獲取單元,用于獲取與目標文本內容相匹配的已經分類過的文本內容的多個特征標簽;
相似度計算單元,用于計算每一個所述特征標簽與所述目標文本內容的分詞片段的相似度;
標簽標記單元,用于使用相似度大于預設相似度閾值的特征標簽對所述目標文本內容進行標記。
9.根據權利要求8所述的裝置,其特征在于,所述標簽獲取單元包括:
信息獲取模塊,用于獲取與目標文本內容相匹配的已經分類過的文本內容的多個特征信息;
權重計算模塊,用于計算每一個所述特征信息的權重;
特征標簽判定模塊,用于根據所述權重以及預設權重閾值進行判斷,將達到所述預設權重閾值的特征信息確定為特征標簽。
10.根據權利要求9所述的裝置,其特征在于,所述信息獲取模塊包括:
內容抓取模塊,用于通過抓取適配器抓取與目標文本內容相匹配的已經分類過的文本內容;
分詞模塊,用于將所述文本內容進行分詞處理,獲得多個分詞片段;
過濾模塊,用于根據預設的干擾詞匯模板,過濾所述多個分詞片段中的干擾詞匯;將過濾了干擾詞匯的多個分詞片段作為多個特征信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華互聯宜家數據服務有限公司,未經東華互聯宜家數據服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611224511.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文本處理方法及裝置
- 下一篇:基于詞性信息和卷積神經網絡的關系抽取方法
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





