[發明專利]一種關鍵詞抽取方法和裝置有效
| 申請號: | 201711046635.5 | 申請日: | 2017-10-31 |
| 公開(公告)號: | CN107885722B | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 王亮 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F16/35 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 關鍵詞 抽取 方法 裝置 | ||
1.一種關鍵詞抽取方法,應用于自然語言處理系統,其特征在于,所述關鍵詞抽取方法包括步驟:
獲取關鍵詞集合,其中,所述關鍵詞集合包括多個經人工標注的關鍵詞;
計算所述關鍵詞集合中每個關鍵詞的接受率;
根據所述關鍵詞的標記次數和所述接受率對所述關鍵詞集合進行處理,得到待補充標注關鍵詞集合,其中,所述待補充標注關鍵詞集合包括多個待補充標注關鍵詞;
根據公式Probablity_relabel(phrase)=min(1,α*AcceptRate(phrase)+β)對所述待補充標注關鍵詞進行補充標注;
所述計算所述關鍵詞集合中每個關鍵詞的接受率,包括:
將所述關鍵詞的標記次數除以出現次數,得到所述接受率;
所述根據所述關鍵詞的標記次數和所述接受率對所述關鍵詞集合進行處理,得到待補充標注關鍵詞集合,包括:
將所述關鍵詞集合中標記次數低于預設次數閾值的關鍵詞予以濾除;
將經過上述處理后接受率低于預設接受率閾值的關鍵詞予以濾除,得到所述待補充標注關鍵詞集合。
2.如權利要求1所述的關鍵詞抽取方法,其特征在于,所述獲取關鍵詞集合,包括:
獲取人工標注數據集;
對所述人工標注數據集進行統計,得到所述關鍵詞合集。
3.一種關鍵詞抽取裝置,應用于自然語言處理系統,其特征在于,所述關鍵詞抽取裝置包括:
集合獲取模塊,用于獲取關鍵詞集合,其中,所述關鍵詞集合包括多個經人工標注的關鍵詞;
接受率計算模塊,用于計算所述關鍵詞集合中每個關鍵詞的接受率;
集合處理模塊,用于根據所述關鍵詞的標記次數和所述接受率對所述關鍵詞集合進行處理,得到待補充標注關鍵詞集合,其中,所述待補充標注關鍵詞集合包括多個待補充標注關鍵詞;
補充標注模塊,用于根據公式Probablity_relabel(phrase)=min(1,α*AcceptRate(phrase)+β)對所述待補充標注關鍵詞進行補充標注;
所述接受率計算模塊包括:
除法計算單元,用于將所述關鍵詞的標記次數除以出現次數,得到所述接受率;
所述集合處理模塊包括:
第一過濾單元,用于將所述關鍵詞集合中標記次數高于預設次數閾值的關鍵詞予以濾除;
第二過濾單元,用于將經過上述處理后接受率高于預設接受率閾值的關鍵詞予以濾除,得到所述待補充標注關鍵詞集合。
4.如權利要求3所述的關鍵詞抽取裝置,其特征在于,所述集合獲取模塊包括:
數據獲取單元,用于獲取人工標注數據集;
數據統計單元,用于對所述人工標注數據集進行統計,得到所述關鍵詞合集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711046635.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種聚四氟乙烯支撐復合管
- 下一篇:一種用于汽車轉向軸的線束防護結構





