[發明專利]一種技術關鍵詞的識別方法、裝置、計算機設備和存儲介質有效
| 申請號: | 201910818346.5 | 申請日: | 2019-08-30 |
| 公開(公告)號: | CN110516259B | 公開(公告)日: | 2023-03-07 |
| 發明(設計)人: | 黃勁;紀炎明;康陽 | 申請(專利權)人: | 盈盛智創科技(廣州)有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/30 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 510000 廣東省廣州市黃埔區伴河路136號160*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 技術 關鍵詞 識別 方法 裝置 計算機 設備 存儲 介質 | ||
本發明實施例公開了一種技術關鍵詞的識別方法、裝置、計算機設備和存儲介質,該方法包括:接收文件,所述文件具有一個或多個頁面;從所述頁面中提取文本信息;根據產品技術對所述文本信息進行分詞處理,獲得詞組;對所述詞組進行語義分析,以確定實體詞;識別用于描述產品技術的實體詞,作為技術關鍵詞。通過語義分析自動甄別描述產品、技術的關鍵詞,在保證準確率的情況下,操作簡便,大大降低了耗時。
技術領域
本發明實施例涉及自然語言處理的技術,尤其涉及一種技術關鍵詞的識別方法、裝置、計算機設備和存儲介質。
背景技術
在采購、交易展會、技術交流會議等場合,會有許多廠家在使用文件展示其新研發的產品、技術,并將這些文件分發給其他人員。
通過在分析這些文件中的關鍵詞,可以整理當前熱點的產品、技術,以便用于產品研發、技術改進等。
目前,人工收集文件后,手動甄別描述產品、技術的關鍵詞,但是,這些文件中包含了許多無關的信息,導致手動甄別的過程較為繁瑣,耗時較長。
發明內容
本發明實施例提供一種技術關鍵詞的識別方法、裝置、計算機設備和存儲介質,以解決手動甄別描述產品、技術的關鍵詞較為繁瑣,耗時較長的問題。
第一方面,本發明實施例提供了一種技術關鍵詞的識別方法,包括:
接收文件,所述文件具有一個或多個頁面;
從所述頁面中提取文本信息;
根據產品技術對所述文本信息進行分詞處理,獲得詞組;
對所述詞組進行語義分析,以確定實體詞;
識別用于描述產品技術的實體詞,作為技術關鍵詞。
可選地,所述根據產品技術對所述文本信息進行分詞處理,獲得詞組,包括:
確定科技詞典,所述科技詞典用于存儲描述產品技術的關鍵詞;
使用所述詞典對所述文本信息進行分詞處理,獲得詞組。
可選地,所述對所述詞組進行語義分析,以確定實體詞,包括:
確定所述詞組的語言類型;
若所述語言類型為中文,則調用預設的漢語言處理包對所述詞組進行依存句法分析,以確定實體詞;
若所述語言類型為英文,則調用預設的自然語言處理工具包中的語言模型接口對所述詞組進行依存句法分析,以確定實體詞。
可選地,所述識別用于描述產品技術的實體詞,作為技術關鍵詞,包括:
對所述實體詞進行分類,獲得類別;
若所述類別為產品技術,則對所述實體詞生成目標分數,所述目標分數與描述產品技術的概率正相關;
基于所述目標分數確定用于描述產品技術的實體詞,作為技術關鍵詞。
可選地,所述對所述實體詞生成目標分數,包括:
對所述實體詞配置基礎分數;
基于所述實體詞與科技詞典的匹配度、與非科技詞典的匹配度、在所述文本信息中所處的相對位置、長度對所述基礎分數進行調整,獲得目標分數;
其中,所述科技詞典用于存儲描述產品技術的關鍵詞,所述非科技詞典用于存儲描述產品技術之外的關鍵詞。
可選地,所述基于所述實體詞與科技詞典的匹配度、與非科技詞典的匹配度、在所述文本信息中的位置、長度對所述基礎分數進行調整,獲得目標分數,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于盈盛智創科技(廣州)有限公司,未經盈盛智創科技(廣州)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910818346.5/2.html,轉載請聲明來源鉆瓜專利網。





