[發明專利]文本標簽詞的生成方法、系統及裝置有效
| 申請號: | 201711213971.4 | 申請日: | 2017-11-28 |
| 公開(公告)號: | CN107918667B | 公開(公告)日: | 2020-09-04 |
| 發明(設計)人: | 尹越 | 申請(專利權)人: | 杭州有贊科技有限公司 |
| 主分類號: | G06F40/247 | 分類號: | G06F40/247;G06F40/289;G06F16/35 |
| 代理公司: | 杭州裕陽聯合專利代理有限公司 33289 | 代理人: | 姚宇吉 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 標簽 生成 方法 系統 裝置 | ||
本發明公開了一種文本標簽詞的生成方法、系統及裝置,其中方法包括:提取文本中的標簽詞,根據提取的標簽詞,以及預設的標簽詞關系,生成相互關聯的分組標簽詞;進而按照各個分組標簽詞之間的關聯關系,對分組標簽詞進行聚合,并在預設的標簽詞詞典中查找能夠被本文完全覆蓋的聚合后的分組標簽詞,得到組合型標簽詞;最后根據組合型標簽詞以及預設的標簽詞關系,在文本中生成映射標簽詞。本發明提供的文本標簽詞的生成方法、系統以及裝置,可操作性強,能夠快速、獨立地根據實際需求,為文本生成相應的標簽詞,無需專業人員介入。
技術領域
本發明涉及文本分類技術領域,特別涉及一種文本標簽詞的生成方法、系統及裝置。
背景技術
現有的對于一段文本,生成標簽詞的主要方法是:首先對文本進行分詞,然后利用分類算法,將文本劃分為某一個類別,從而為這段文本生成對應的類別標簽詞。
這種方法對操作人員的專業度要求較高,對于非專業人員來講,很難快速、獨立的根據實際需求,為一類文本生成相應的標簽詞。
發明內容
基于此,本發明提供了一種文本標簽詞的生成方法、系統及裝置,通過向詞典中添加標簽詞以及標簽詞之間關系,就可以快速為文本標注上滿足需求的標簽詞,方法簡單,可操作性強。利用本發明提供的文本標簽詞的生成方法及系統,非技術人員可快速獨立的根據實際需求,為文本生成相應的標簽詞,無需專業人員介入。
本發明提供的文本標簽詞的生成方法,包括以下步驟:
提取文本中的標簽詞;
根據提取的所述標簽詞,以及預設的標簽詞關系,生成相互關聯的分組標簽詞;
按照各個所述分組標簽詞之間的關聯關系,對所述分組標簽詞進行聚合,并在預設的標簽詞詞典中查找能夠被本文完全覆蓋的聚合后的所述分組標簽詞,得到組合型標簽詞;
根據所述組合型標簽詞以及所述預設的標簽詞關系,在文本中生成映射標簽詞。
作為一種可實施方式,在提取文本中的標簽詞之前,還包括以下步驟:
根據文本內容,在標簽詞詞典中添加標簽詞和標簽詞關系。
作為一種可實施方式,提取文本中的標簽詞,包括以下步驟:
利用標簽詞詞典中新添加的標簽詞,對文本進行分詞,提取文本中的標簽詞。
作為一種可實施方式,根據提取的所述標簽詞,以及預設的標簽詞關系,依次生成相互關聯的分組標簽詞,包括以下步驟:
根據提取的所述標簽詞,以及所述預設的標簽詞關系,生成上層標簽詞;
根據提取的所述標簽詞、生成的上層標簽詞,以及所述預設的標簽詞關系,生成同義標簽詞;
根據提取的所述標簽詞、生成的上層標簽詞、生成的同義標簽詞,以及所述預設的標簽詞關系,生成修飾標簽詞。
作為一種可實施方式,按照分組標簽詞之間的關聯關系,對所述分組標簽詞進行聚合,并在預設的標簽詞詞典中查找能夠被本文完全覆蓋的聚合后的所述分組標簽詞,得到組合型標簽詞,包括以下步驟:
根據所述標簽詞、上層標簽詞、同義標簽詞、以及修飾標簽詞之間的關聯關系進行分組;
根據各組之間的關聯關系,將所有能夠關聯起來的分組進行關聯;
根據分組關聯結果,在預設的標簽詞詞典中查找被本文完全覆蓋的標簽詞,得到所述組合型標簽詞。
本發明提供的文本標簽詞的生成系統,包括標簽詞提取模塊、標簽詞分組模塊、標簽詞聚合模塊以及標簽詞生成模塊;
所述標簽詞提取模塊,用于提取文本中的標簽詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州有贊科技有限公司,未經杭州有贊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711213971.4/2.html,轉載請聲明來源鉆瓜專利網。





