[發(fā)明專利]提取短文本關(guān)鍵詞的方法、裝置、設備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010156963.6 | 申請日: | 2020-03-09 |
| 公開(公告)號: | CN111444330A | 公開(公告)日: | 2020-07-24 |
| 發(fā)明(設計)人: | 唐亞 | 申請(專利權(quán))人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/35;G06F16/31;G06F40/289;G06F40/253;G06F40/205;G06F40/169 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 劉挽瀾 |
| 地址: | 518033 廣東省深圳市福田區(qū)益田路5033號*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 提取 文本 關(guān)鍵詞 方法 裝置 設備 存儲 介質(zhì) | ||
本申請涉及人工智能領(lǐng)域,公開了一種提取短文本關(guān)鍵詞的方法、裝置、設備及存儲介質(zhì),提高短文本關(guān)鍵詞提取的準確性。本申請方法包括:從待處理短文本中獲取候選關(guān)鍵詞;獲取候選關(guān)鍵詞中順序號為連續(xù)性的目標標注信息以及目標標注信息對應的目標候選關(guān)鍵詞,得到待處理信息;根據(jù)待處理信息創(chuàng)建N元語法信息,并將N元語法信息標注至目標候選關(guān)鍵詞,得到標注關(guān)鍵詞;合并標注關(guān)鍵詞,得到候選短語;按照預設短語詞性拼接規(guī)則對候選短語進行分析,獲得目標候選短語;當分析到目標候選短語存在子字符串關(guān)系時,將與子字符串關(guān)系對應的目標候選短語刪除,得到修正候選短語;將存在交叉字的修正候選短語進行拼接處理,得到目標關(guān)鍵詞。
技術(shù)領(lǐng)域
本申請涉及自然語言處理領(lǐng)域,尤其涉及提取短文本關(guān)鍵詞的方法、裝置、設備及存儲介質(zhì)。
背景技術(shù)
短文本關(guān)鍵詞抽取是文本挖掘的一個重要研究方向,在自動問答、話題跟蹤、信息檢索和產(chǎn)品推薦等領(lǐng)域具有重要作用。然而在海量的互聯(lián)網(wǎng)文檔中僅有少部分帶有關(guān)鍵詞標注,如何給短文本打上一個表意準確的關(guān)鍵詞標簽成為信息抽取領(lǐng)域的重要問題。
現(xiàn)有的短文本關(guān)鍵詞抽取通過對短文本進行分詞及詞性標注,采用詞頻-逆文本頻率指數(shù)(term frequency–inverse document frequency,TF-IDF)算法或基于圖的排序算法TextRank 算法或主題模型(latent dirichlet allocation,LDA)得到短文本的候選關(guān)鍵詞,對候選關(guān)鍵詞進行重新組合或者排序,得到最終的關(guān)鍵詞。
由于TF-IDF算法局限于在詞語重復出現(xiàn)的情況下使用,相對短文本的關(guān)鍵詞提取存在較為適用長文本的缺陷,TextRank算法局限于將圖節(jié)點作為候選詞,將圖的邊作為詞與詞之間的共現(xiàn)關(guān)系,相對短文本的關(guān)鍵詞提取存在較為適用長文本的缺陷,LDA主題模型在挖掘以傳統(tǒng)的新聞文檔為代表的長文本主題時能夠取得比較好的效果,但不適用于短文本。而以決策樹、神經(jīng)網(wǎng)絡為代表的有監(jiān)督的分類模型對于短文本的關(guān)鍵詞提取的處理,需要大量的標注樣本,且由于短文本的字數(shù)少、特征稀疏和詞語信息單調(diào),現(xiàn)今的基于深度學習的無監(jiān)督關(guān)鍵詞提取技術(shù)也無法很好地適用于短文本,因而,短文本關(guān)鍵詞提取存在提取的準確性低的問題。
發(fā)明內(nèi)容
本申請?zhí)峁┝艘环N提取短文本關(guān)鍵詞的方法、裝置、設備及存儲介質(zhì),用于結(jié)合語法結(jié)構(gòu)與詞性拼接過濾規(guī)則對短文本進行關(guān)鍵詞提取,提高短文本關(guān)鍵詞提取的準確性。
本申請實施例的第一方面提供一種提取短文本關(guān)鍵詞的方法,包括:
對待處理短文本進行關(guān)鍵詞預提取處理,獲得候選關(guān)鍵詞;
獲取所述候選關(guān)鍵詞的目標標注信息以及所述目標標注信息對應的目標候選關(guān)鍵詞,得到待處理信息,所述目標標注信息為順序號為連續(xù)性的標注信息;
根據(jù)所述待處理信息創(chuàng)建N元語法信息,并將所述N元語法信息標注至所述目標候選關(guān)鍵詞,得到標注關(guān)鍵詞;
根據(jù)所述目標標注信息和所述N元語法信息合并所述標注關(guān)鍵詞,得到候選短語;
按照預設短語詞性拼接規(guī)則對所述候選短語進行分析,獲得目標候選短語;
當分析到所述目標候選短語存在子字符串關(guān)系時,將與所述子字符串關(guān)系對應的目標候選短語刪除,得到修正候選短語,所述目標候選短語包括主目標候選短語和/或子目標候選短語,所述子字符串關(guān)系指示所述子目標候選短語由所述主目標候選短語中的字詞構(gòu)成;
將存在交叉字的所述修正候選短語進行拼接處理,得到目標關(guān)鍵詞,所述交叉字指示在兩個所述修正候選短語中一個修正候選短語的末端詞與另一個修正候選短語的始端詞相同。
可選的,在本申請實施例第一方面的第一種實現(xiàn)方式中,所述根據(jù)所述目標標注信息和所述N元語法信息合并所述標注關(guān)鍵詞,得到候選短語,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國平安人壽保險股份有限公司,未經(jīng)中國平安人壽保險股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010156963.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





