[發明專利]基于詞標簽的詞語標注方法、裝置、服務器及存儲介質有效
| 申請號: | 201710581312.X | 申請日: | 2017-07-17 |
| 公開(公告)號: | CN107480200B | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 梁予之;曲強 | 申請(專利權)人: | 深圳先進技術研究院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F16/332 |
| 代理公司: | 深圳智趣知識產權代理事務所(普通合伙) 44486 | 代理人: | 王策 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 標簽 詞語 標注 方法 裝置 服務器 存儲 介質 | ||
1.一種基于詞標簽的詞語標注方法,其特征在于,所述方法包括下述步驟:
在輸入的文本文檔中查找待標注詞語;
通過預先訓練好的詞語分類器,在預設的已知詞庫中查詢與所述待標注詞語相關的已知詞,所述詞語分類器通過有監督方式訓練得到;
將所述相關的已知詞設置為所述待標注詞語的標簽詞,以通過所述標簽詞對所述待標注詞語進行標注;
在輸入的文本文檔中查找待標注詞語的步驟之前,所述方法還包括:
在預先構建的訓練數據集中查找樣本詞語;
在預設的詞條注釋庫中查詢所述樣本詞語的注釋,提取所述注釋的關鍵詞,將在所述已知詞庫中出現過的所述關鍵詞設置為所述樣本詞語的標簽詞;
分別計算所述樣本詞語與所述已知詞庫中每個已知詞的關系特征,根據所述關系特征和所述樣本詞語的標簽詞,訓練得到所述詞語分類器;
在預設的詞條注釋庫中查詢所述樣本詞語的注釋,提取所述注釋的關鍵詞,將在所述已知詞庫中出現過的所述關鍵詞設置為所述樣本詞語的標簽詞的步驟,包括:
在所述詞條注釋庫中查詢所述樣本詞語的注釋,對所述注釋進行分詞處理和詞性標注,在所述詞性標注后的所述注釋中提取候選標簽詞;
根據所述注釋的每部分內容對應的自定義權重、在所述注釋的每部分內容中所述候選標簽詞出現的頻率,計算所述候選標簽詞對應的百科詞頻;
根據所述已知詞庫計算所述候選標簽詞對應的逆向檔案頻率,根據所述候選標簽詞對應的所述百科詞頻、所述逆向檔案頻率,計算所述候選標簽詞的關鍵詞分數;
當所述候選標簽詞的關鍵詞分數超過預設分數閾值時,將所述候選標簽詞設置為所述樣本詞語的標簽詞;
根據所述注釋的每部分內容對應的自定義權重、在所述注釋的每部分內容中所述候選標簽詞出現的頻率,計算所述候選標簽詞對應的百科詞頻的步驟,包括:
根據所述注釋中每部分內容的自定義權重,對所述注釋的每部分內容的權重進行重新定義,對所述注釋的第j部分內容的權重進行重新定義的公式為:
其中,所述βj為所述注釋中第j部分內容的自定義權重,所述pj為所述第j部分內容,所述為所述注釋,所述αj為對所述第j部分內容的權重進行重新定義后得到的值;
根據所述注釋中每部分內容重新定義后的權重、所述注釋的每部分內容中所述候選標簽詞出現的頻率,計算所述候選標簽詞對應的百科詞頻,計算公式為:
其中,所述為所述第i個候選標簽詞wi的百科詞頻,所述wk為所述第k個候選標簽詞,所述f(wi,pj)和所述f(wk,pj)分別為在所述第j部分內容pj中所述第i個、第k個候選標簽詞出現的頻率,所述Φ為所述候選標簽詞的集合,所述A為所述注釋所有部分內容的權重集合。
2.如權利要求1所述的方法,其特征在于,分別計算所述樣本詞語與所述已知詞庫中每個已知詞的關系特征的步驟,包括:
分別將所述樣本詞語、所述已知詞庫中每個已知詞轉換為對應的詞向量;
根據所述樣本詞語的詞向量和所述已知詞的詞向量,計算所述樣本詞語與所述每個已知詞的詞距離和詞余弦相似度,計算所述樣本詞語和所述已知詞在所述訓練數據集中的詞同時出現頻率;
將所述詞距離、所述詞余弦相似度以及所述詞同時出現頻率組合為所述樣本詞語和所述已知詞的關系特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳先進技術研究院,未經深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710581312.X/1.html,轉載請聲明來源鉆瓜專利網。





