[發明專利]一種關鍵詞提取方法、裝置、存儲介質及設備在審
| 申請號: | 202011049625.9 | 申請日: | 2020-09-29 |
| 公開(公告)號: | CN112257424A | 公開(公告)日: | 2021-01-22 |
| 發明(設計)人: | 崔桐;肖鏡輝 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F40/258 | 分類號: | G06F40/258;G06F40/289;G06F40/242;G06F40/30;G06N3/08 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 李杭 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 關鍵詞 提取 方法 裝置 存儲 介質 設備 | ||
本申請涉及人工智能技術領域,公開了一種關鍵詞提取方法、裝置、存儲介質及設備,包括:獲取目標文檔的文檔屬性,其中,文檔屬性用于表征目標文檔的主題和語義信息,且目標文檔包括多個候選關鍵詞;然后,利用文檔屬性,計算候選關鍵詞的第一得分,其中,第一得分用于表征候選關鍵詞與文檔屬性的相關度,進而可以根據各個候選關鍵詞的第一得分,從多個候選關鍵詞中確定出目標關鍵詞。可見,由于本申請在提取目標文檔的關鍵詞時,考慮了目標文檔中表征其主題和語義信息的文檔屬性,從而可以提高關鍵詞提取結果的準確性,并且由于無需人工標注關鍵詞的訓練數據,進而也降低了關鍵詞的提取成本,得到成本更低、準確性更高的提取結果。
技術領域
本申請涉及人工智能技術領域,尤其涉及一種關鍵詞提取方法、裝置、存儲介質及設備。
背景技術
隨著移動互聯網、物聯網和人工智能(artificial intelligence,AI)技術的快速發展,每時每刻都在產生大量的文檔信息,導致需要處理的文檔信息量呈現幾何級別的增長。由此,為了便于人們能夠快速、準確的獲取到有效的文檔信息,通常會提取出文檔的關鍵詞,作為文檔主要內容的提要,用以進行網頁索引和為用戶進行信息推薦等,以提高文檔推薦結果和網頁中文檔檢索結果的準確性。
目前,對于文檔中關鍵詞的提取方法通常有兩種:一種是采用無監督的方式來提取關鍵詞,例如,可以利用詞頻-逆文檔頻率(term frequency–inverse documentfrequency,TF-IDF)對預先生成的候選關鍵詞進行打分,以根據打分結果提取出文檔中的關鍵詞。但這種提取方式需要統計大規模的語料,否則逆文檔頻率(IDF)的統計結果不夠準確。且由于這種提取方式僅考慮了詞語的統計屬性,而并沒有考慮對詞語詞義的真正理解,導致提取出的關鍵詞的準確度不夠高,不能準確地表征文檔的關鍵內容。而另一種常用的關鍵詞提取方法是采用有監督的方式進行提取,其核心思想是將關鍵詞提取過程轉化為一個有監督的機器學習問題,例如,可以將關鍵詞提取轉化為多標簽文本分類問題,先利用雙向長短期記憶網絡(bidirectional long short-term memory,Bi-LSTM)對文檔進行編碼,并利用注意力(attention)機制獲取文檔對于每個候選關鍵詞的表示,然后再利用一個多層全連接神經網絡對每個候選關鍵詞的表示進行二分類,以得到每個候選關鍵詞的置信度得分,進而可以根據該置信度得分提取出文檔中的關鍵詞。但這種提取方式需要大量高質量的關鍵詞標注語料作為訓練數據進行模型訓練,否則將無法訓練出高精度的神經網絡模型,然而實際業務中往往缺乏關鍵詞標注數據,需要利用人工來標注大量的關鍵詞,主觀性強、難以量化,不僅標注效率低,而且還需要花費大量的人力資源,導致獲取關鍵詞標注語料的成本較高。
發明內容
本申請實施例提供了一種關鍵詞提取方法、裝置、存儲介質及設備,有助于克服現有關鍵詞提取方法的缺點,提高了關鍵詞提取結果的準確性,并降低了提取成本。
第一方面,本申請提供了一種關鍵詞提取方法,該方法包括:在進行關鍵詞提取時,首先獲取目標文檔的文檔屬性,其中,文檔屬性用于表征目標文檔的主題和語義信息,且目標文檔包括多個候選關鍵詞;然后,利用文檔屬性,計算候選關鍵詞的第一得分,其中,第一得分用于表征候選關鍵詞與文檔屬性的相關度,進而可以根據各個候選關鍵詞的第一得分,從多個候選關鍵詞中確定出目標關鍵詞。
與傳統技術相比,由于本申請實施例在提取目標文檔的關鍵詞時,考慮了目標文檔中表征其主題和語義信息的文檔屬性,從而可以提高關鍵詞提取結果的準確性,并且由于無需人工標注關鍵詞的訓練數據,進而也降低了關鍵詞的提取成本,得到成本更低、準確性更高的提取結果。
一種可能的實現方式中,該方法還包括:利用無監督方法,計算候選關鍵詞的第二得分;則根據第一得分,從多個候選關鍵詞中確定目標關鍵詞,包括:根據第一得分和第二得分,從多個候選關鍵詞中確定目標關鍵詞。這樣,能夠在充分考慮了利用無監督方法計算的候選關鍵詞的得分的情況下,進一步提高關鍵詞提取結果的準確性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011049625.9/2.html,轉載請聲明來源鉆瓜專利網。





