[發明專利]一種基于語義的特定任務文本關鍵詞提取方法有效
| 申請號: | 201710383289.3 | 申請日: | 2017-05-26 |
| 公開(公告)號: | CN107193803B | 公開(公告)日: | 2020-07-10 |
| 發明(設計)人: | 吳俊杰;孫運動;袁石 | 申請(專利權)人: | 北京東方科諾科技發展有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/30;G06F40/216 |
| 代理公司: | 北京永創新實專利事務所 11121 | 代理人: | 趙文利 |
| 地址: | 100000 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 特定 任務 文本 關鍵詞 提取 方法 | ||
本發明公開了一種基于語義的特定任務文本關鍵詞提取方法,屬于自然語言處理領域。首先,從相關文本中提取某特定任務的主題詞,利用語義表示技術轉換成語義向量;其次,利用分詞工具對待提取關鍵詞的文本進行分詞,詞性標注和篩選;然后,將篩選后的詞語轉化成語義向量,并計算每個篩選后詞語與特定任務主題詞的相似度;最后,以詞語為節點構建詞語網絡圖,基于詞語相似度計算每個詞語的重要度,從而提取詞語網絡圖中重要詞語。本發明綜合考慮詞語在文本中的語義特征和結構特征,適用于面向特定任務的文本關鍵詞提取,實現從文本中獲取重要信息的功能,為文本挖掘、自然語言處理、知識工程等領域提供重要的技術支持。
技術領域
本發明屬于自然語言處理領域,涉及信息抽取技術,具體是一種基于語義的特定任務文本關鍵詞提取方法。
背景技術
隨著社會化媒體的飛速發展,人們每時每刻都接收和處理來自于物理世界和信息世界的大量信息。但是,這些信息數量大、結構復雜以及無意義信息多等特點,導致人們不可能對每一條接收到的信息都進行加工和處理,識別其中有價值的部分。因此,如何從文本中獲取有用的信息是實現快速、準確地處理信息的關鍵。
在現實世界中,關鍵詞是對有用信息最直觀的表示,所以如何從文本中獲取人們關注的關鍵詞成為當前迫切需要解決的問題。從文本中獲取人們關注的關鍵詞,一方面可以幫助人們快速地理解信息的內容,另一方面還可以為文本挖掘、自然語言處理、知識工程等領域提供重要的技術支持,具有非常廣泛的應用。例如,在營銷領域,從顧客對某個產品的評論中提取關鍵詞,可以揭示顧客所關注的方面,為生產更契合顧客需求的產品提供必要的支撐;在輿情監控領域,從網上言論中提取關鍵詞,可以掌握輿情發展的最新態勢,為政府部門的輿論監控與引導提供必要的支持。
發明內容
本發明針對上述問題,提出了一種基于語義的特定任務文本關鍵詞提取方法;考慮待提取關鍵詞文本與特定任務的語義關系,通過計算語義相似度來衡量候選關鍵詞與特定任務的語義相關度,再考慮待提取關鍵詞文本的結構特征,以詞語網絡圖的形式表示文本的詞語結構,最后利用網絡重要度算法,結合詞語的文本結構特征和與特定任務的語義特征,從詞語網絡圖中提取重要度高的詞語。
具體步驟如下:
步驟一、針對某特定任務,通過網絡爬蟲采集與該任務相關的文本,作為該任務的語料;
步驟二、利用文檔主題生成模型LDA,生成語料中每篇文檔的主題以及每個主題下對應的詞語;
步驟三、分別計算每個詞語的權重,按照權重將詞語從高到低排序,選取前K個詞語作為該特定任務相關語料的主題詞;
其中,Weightr表示詞語r的權重;WTdr表示通過LDA模型計算出的詞語r在文檔d中的代表主題的概率,C表示詞語r出現的文檔數量。
步驟四、將K個主題詞利用word2vector技術,將每個主題詞表示成不同的語義向量;
步驟五、針對待提取關鍵詞的文本,進行分詞和詞語篩選,將每條文本轉化成若干詞語的集合;
分詞的過程中對每一個詞語進行詞性標注;
詞語篩選包括對分詞后的詞語進行詞性篩選和詞頻篩選;
步驟六、針對得到的所有詞語集合,以詞語為節點,以兩個詞語共同出現的次數作為邊,構建詞語網絡圖;
步驟七、將待提取關鍵詞的文本分詞和篩選后的每個詞語,利用word2vector技術表示成語義向量;
步驟八、針對待提取關鍵詞的文本的每個詞語的語義向量,計算與特定任務的每個主題詞的語義向量之間的語義相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京東方科諾科技發展有限公司,未經北京東方科諾科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710383289.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種果蠅轉基因表達水平的調控方法
- 下一篇:桌面掛件預覽方法及裝置





