[發明專利]文本內容標簽標記方法以及裝置在審
| 申請號: | 201611224511.7 | 申請日: | 2016-12-27 |
| 公開(公告)號: | CN106649274A | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 陳震;佟鏑;黃晟 | 申請(專利權)人: | 東華互聯宜家數據服務有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京超凡志成知識產權代理事務所(普通合伙)11371 | 代理人: | 張海洋 |
| 地址: | 300457 天津市濱海新區華苑產業區工華道壹號允公科技*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 內容 標簽 標記 方法 以及 裝置 | ||
技術領域
本發明涉及電視網絡技術領域,尤其是涉及一種文本內容標簽標記方法以及裝置。
背景技術
部署于廣播電視網絡環境下的CMS(Content Management System,內容管理系統),使用J2EE技術體系進行開發,能夠實現內容的分類分發,以使用戶能夠快速的查尋或者檢索到自己想要的內容,為用戶的搜索提供便利。
然而,隨著網絡應用的發展以及產品運營需求的不斷擴大,現有的內容管理系統不能迅速跟進大量衍生內容信息,往往需要專業人員針對大量不同的新的內容進行人工分類,在分類之前,通常需要專業人員親自訪問網站,建立欄目,然后選擇合適的文本內容放入相應的欄目下,最后還要檢查網站文本內容以及質量,以確保文本內容收錄在合適的分類下,通過這種完全人工操作的方式實現分類管理的過程,需要花費大量時間、人力和物力,而且對同一內容的分類往往比較單一,無法滿足各種分類聚合需求,不利于用戶快速、精確地搜索到自己想要的內容。
發明內容
有鑒于此,本發明的目的在于提供一種文本內容標簽標記方法以及裝置,能夠利用互聯網上已經完成內容分揀的文本內容,對目標文本內容進行自動化分揀,并不斷優化分揀方式,實現標簽與內容的多對多關系,從而使用戶能夠快速、精確地搜索到自己想要的內容。
第一方面,本發明實施例提供了一種文本內容標簽標記方法,該方法包括:
獲取與目標文本內容相匹配的已經分類過的文本內容的多個特征標簽;
計算每一個特征標簽與目標文本內容的分詞片段的相似度;
使用相似度大于預設相似度閾值的特征標簽對目標文本內容進行標記。
結合第一方面,本發明實施例提供了第一方面的第一種可能的實施方式,其中,獲取與目標文本內容相匹配的已經分類過的文本內容的多個特征標簽,具體包括:
獲取與目標文本內容相匹配的已經分類過的文本內容的多個特征信息;
計算每一個特征信息的權重;
根據權重以及預設權重閾值進行判斷,將達到預設權重閾值的特征信息確定為特征標簽。
結合第一方面的第一種可能的實施方式,本發明實施例提供了第一方面的第二種可能的實施方式,其中,獲取與目標文本內容相匹配的已經分類過的文本內容的多個特征信息,具體包括:
通過抓取適配器抓取與目標文本內容相匹配的已經分類過的文本內容;
將文本內容進行分詞處理,獲得多個分詞片段;
根據預設的干擾詞匯模板,過濾多個分詞片段中的干擾詞匯;
將過濾了干擾詞匯的多個分詞片段作為多個特征信息。
結合第一方面的第二種可能的實施方式,本發明實施例提供了第一方面的第三種可能的實施方式,其中,預設的干擾詞匯模板包括:黑名單詞匯以及無語義詞匯;其中,無語義詞匯包括:標點符號以及漢語高頻詞匯。
結合第一方面,本發明實施例提供了第一方面的第四種可能的實施方式,其中,在計算每一個特征標簽與目標文本內容的分詞片段的的相似度之前,還包括:
將目標文本內容進行分詞處理,獲得多個分詞片段;
根據預設的干擾詞匯模板,過濾多個分詞片段中的干擾詞匯。
結合第一方面以及第一方面的前四種可能的實施方式,本發明實施例提供了第一方面的第五種可能的實施方式,其中,在使用相似度大于預設相似度閾值的特征標簽對目標文本內容進行標記之后,還包括:
根據給目標文本內容標記的不同的標簽,將目標文本內容分為不同的類別。
結合第一方面以及第一方面的前四種可能的實施方式,本發明實施例提供了第一方面的第六種可能的實施方式,其中,在使用相似度大于預設相似度閾值的特征標簽對目標文本內容進行標記之后,還包括:
根據給目標文本內容標記的不同的標簽,自動生成目標文本內容的主題。
第二方面,本發明實施例提供了一種文本內容標簽標記裝置,該裝置包括:
標簽獲取單元,用于獲取與目標文本內容相匹配的已經分類過的文本內容的多個特征標簽;
相似度計算單元,用于計算每一個特征標簽與目標文本內容的分詞片段的相似度;
標簽標記單元,用于使用相似度大于預設相似度閾值的特征標簽對目標文本內容進行標記。
結合第二方面,本發明實施例提供了第二方面的第一種可能的實施方式,其中,標簽獲取單元包括:
信息獲取模塊,用于獲取與目標文本內容相匹配的已經分類過的文本內容的多個特征信息;
權重計算模塊,用于計算每一個特征信息的權重;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華互聯宜家數據服務有限公司,未經東華互聯宜家數據服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611224511.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文本處理方法及裝置
- 下一篇:基于詞性信息和卷積神經網絡的關系抽取方法
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





