[發明專利]一種關鍵詞提取方法和提取系統有效
| 申請號: | 201611186254.2 | 申請日: | 2016-12-20 |
| 公開(公告)號: | CN106776562B | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 賈禎;白楊;朱頻頻 | 申請(專利權)人: | 上海智臻智能網絡科技股份有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/289;G06F40/30;G06N3/04 |
| 代理公司: | 北京布瑞知識產權代理有限公司 11505 | 代理人: | 孟潭 |
| 地址: | 201803 上海市嘉*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 關鍵詞 提取 方法 系統 | ||
一種關鍵詞提取方法和提取系統。本發明的關鍵詞提取方法和提取系統,用于解決無法準確獲得正確語義表達的關鍵詞匯的技術問題,包括:對問題文本進行向量化處理,形成包含關鍵詞的向量特征的問題語料;利用BLSTM RNN對問題語料中的關鍵詞進行抽取。
技術領域
本發明涉及自然語言處理方法和系統,特別涉及一種關鍵詞提取方法和提取系統。
背景技術
在對知識庫的人工智能構建過程中,需要對以語言為載體的問題進行確定,獲取提問問題的具體語義表達的內容含義,即需要準確抽取出用戶想要問的最為核心的問題。問題的具體內容通常與問題中具體的關鍵詞匯高度相關。
在現有技術中對語句中的關鍵詞提取通常采用pLSA,LDA,SVD,LSA,TFIDF等技術方案,但各方案在關鍵詞提取上存在缺陷。
TFIDF(詞頻逆文本頻率分析)方案主要適用于區別對文檔最有意義的詞語,是通過那些在文檔中出現頻率高、而在整個語料庫中的其他文檔中出現頻率少的詞語來實現的。但無法捕捉文檔內部與文檔間的統計特征,更不能解決同義詞/多義詞問題,因此精確度不是很高。
LSA(隱性語義分析)與SVD(奇異值分解)方案利用淺語義分析模型,基于奇異值分解技術將一個比較復雜的矩陣轉化幾個更小、更簡單矩陣的乘積,而這些小矩陣描述了矩陣的重要特征,其中的對角線元素為奇異值(特征值的平方根),用于表示這個特征的重要性程度、表示與特征值相關的特征向量組成的矩陣,用于表示有哪些特征,這類方案其實可以看做是文本關鍵詞的一種降維算法,優點是計算速度快,但準確率不是很高。
pLSA(概率潛在語義分析)及LDA(潛在狄利克雷分布文檔主題生成模型)方案是基于概率意義下的關鍵詞抽取方法,需要先驗給定主題數目,通過算法對語料抽樣,統計出文檔對應主題的多項分布和主題上的詞語的多項分布。
現有技術方案在關鍵詞匯提取過程中不能有效反映出提問問題的詞匯間的相互影響對關鍵詞匯的語義含義影響。
發明內容
有鑒于此,本發明實施例提供了一種關鍵詞提取方法和提取系統,用于解決無法準確獲得正確語義表達的關鍵詞匯的技術問題。
本發明實施例的關鍵詞提取方法,包括:
對問題文本進行向量化處理,形成包含關鍵詞的向量特征的問題語料;
利用雙向長短時效遞歸神經網絡對問題語料中的關鍵詞進行抽取。
本發明實施例的關鍵詞提取系統,包括:
問題語料量化模塊,用于對問題文本進行向量化處理,形成包含關鍵詞的向量特征的問題語料;
問題關鍵詞提取模塊,用于利用雙向長短時效遞歸神經網絡對問題語料中的關鍵詞進行抽取。
本發明實施例的關鍵詞提取方法和系統,利用BLSTM RNN(雙向長短時效遞歸神經網絡)對問題語料的上下文隱含含義進行分析以獲得問題預料中的正確語義表達的關鍵詞。將在隱語義狀態下的上下文信息的狀態表達在BLSTM RNN層中得到識別,通過池化層得到這些語義與詞性表達的最主要信息,形成關鍵詞信息。問題語料的形成基于詞向量和特定的詞性特征數據,較好的將詞匯的語義和詞性相結合,強化了上下文信息與詞性信息的隱形含義,完善了語義表達上的關鍵信息抽取,從而可以更加準確地提取關鍵詞。
附圖說明
圖1為本發明一實施例一種關鍵詞提取方法的流程示意圖。
圖2為本發明一實施例一種關鍵詞提取方法中問題文本向量化的流程示意圖。
圖3為本發明一實施例一種關鍵詞提取方法中利用雙向長短時效循環神經網絡進行關鍵詞提取的流程示意圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海智臻智能網絡科技股份有限公司,未經上海智臻智能網絡科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611186254.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:車聯網系統新聞正文提取方法
- 下一篇:一種為待譯稿件匹配譯員的方法





