[發(fā)明專利]關(guān)鍵詞提取方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201510874564.2 | 申請(qǐng)日: | 2015-12-02 |
| 公開(公告)號(hào): | CN105426361A | 公開(公告)日: | 2016-03-23 |
| 發(fā)明(設(shè)計(jì))人: | 張昊;朱頻頻 | 申請(qǐng)(專利權(quán))人: | 上海智臻智能網(wǎng)絡(luò)科技股份有限公司 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 工業(yè)和信息化部電子專利中心 11010 | 代理人: | 秦瑩 |
| 地址: | 201803 上海市嘉*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 關(guān)鍵詞 提取 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,特別是涉及一種關(guān)鍵詞提取方法及裝置。
背景技術(shù)
在現(xiàn)有技術(shù)中,在對(duì)某一個(gè)領(lǐng)域內(nèi)的多篇文檔組成的語(yǔ)料提取關(guān)鍵詞時(shí),多是人工審核該領(lǐng)域內(nèi)的語(yǔ)料,并總結(jié)文本語(yǔ)義,提取關(guān)鍵詞,從而對(duì)用戶的語(yǔ)義進(jìn)行理解。因此,現(xiàn)有技術(shù)方案存在關(guān)鍵詞提取效率低、成本高、容易漏檢的問題。
發(fā)明內(nèi)容
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的關(guān)鍵詞提取方法及裝置。
本發(fā)明提供一種關(guān)鍵詞提取方法,包括:
提供一領(lǐng)域內(nèi)的語(yǔ)料數(shù)據(jù),語(yǔ)料數(shù)據(jù)包括多個(gè)文檔;
對(duì)語(yǔ)料數(shù)據(jù)進(jìn)行預(yù)處理,得到文本數(shù)據(jù);
對(duì)文本數(shù)據(jù)進(jìn)行分詞處理,得到多個(gè)語(yǔ)料詞語(yǔ);
對(duì)語(yǔ)料詞語(yǔ)進(jìn)行過濾處理,得到多個(gè)候選詞;
為每個(gè)候選詞設(shè)置初始權(quán)重值;
根據(jù)候選詞在每個(gè)文檔中的共現(xiàn)關(guān)系調(diào)整候選詞的初始權(quán)重值,得到候選詞在每個(gè)文檔中的最終權(quán)重值;
根據(jù)最終權(quán)重值確定每個(gè)文檔的關(guān)鍵詞。
本發(fā)明還提供了一種關(guān)鍵詞提取裝置,包括:
提供模塊,用于提供一領(lǐng)域內(nèi)的語(yǔ)料數(shù)據(jù),語(yǔ)料數(shù)據(jù)包括多個(gè)文檔;
預(yù)處理模塊,用于對(duì)語(yǔ)料數(shù)據(jù)進(jìn)行預(yù)處理,得到文本數(shù)據(jù);
分詞模塊,用于對(duì)文本數(shù)據(jù)進(jìn)行分詞處理,得到多個(gè)語(yǔ)料詞語(yǔ);
過濾模塊,用于對(duì)語(yǔ)料詞語(yǔ)進(jìn)行過濾處理,得到多個(gè)候選詞;
設(shè)置模塊,用于為每個(gè)候選詞設(shè)置初始權(quán)重值;
調(diào)整模塊,用于根據(jù)候選詞在每個(gè)文檔中的共現(xiàn)關(guān)系調(diào)整候選詞的初始權(quán)重值,得到候選詞在每個(gè)文檔中的最終權(quán)重值;
確定模塊,用于根據(jù)最終權(quán)重值確定每個(gè)文檔的關(guān)鍵詞。
本發(fā)明有益效果如下:
通過對(duì)某一領(lǐng)域內(nèi)所有語(yǔ)料進(jìn)行預(yù)處理、分詞和過濾后得到候選詞,根據(jù)每個(gè)候選詞的權(quán)重最終獲取語(yǔ)料的關(guān)鍵詞,解決了現(xiàn)有技術(shù)中關(guān)鍵詞提取效率低、成本高、容易漏檢的問題,借助于本發(fā)明實(shí)施例的技術(shù)方案,能夠自動(dòng)提取某一領(lǐng)域中語(yǔ)料的關(guān)鍵詞,關(guān)鍵詞提取的準(zhǔn)確率高,成本低,不會(huì)發(fā)生漏檢,從而提高了語(yǔ)義理解的執(zhí)行效率,能夠更準(zhǔn)確的根據(jù)關(guān)鍵詞執(zhí)行后續(xù)操作。
上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。
附圖說(shuō)明
通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
圖1是本發(fā)明實(shí)施例的關(guān)鍵詞提取方法的流程圖;
圖2是本發(fā)明實(shí)施例的關(guān)鍵詞提取方法的詳細(xì)處理的流程圖;
圖3是本發(fā)明實(shí)施例的關(guān)鍵詞提取裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
為了解決現(xiàn)有技術(shù)中關(guān)鍵詞提取效率低、成本高、容易漏檢的問題,本發(fā)明提供了一種關(guān)鍵詞提取方法及裝置,以下結(jié)合附圖以及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不限定本發(fā)明。
方法實(shí)施例
根據(jù)本發(fā)明的實(shí)施例,提供了一種關(guān)鍵詞提取方法,圖1是本發(fā)明實(shí)施例的關(guān)鍵詞提取方法的流程圖。
如圖1所示,根據(jù)本發(fā)明實(shí)施例的關(guān)鍵詞提取方法包括如下處理:
步驟101,提供一領(lǐng)域內(nèi)的語(yǔ)料數(shù)據(jù),語(yǔ)料數(shù)據(jù)包括多個(gè)文檔;也就是說(shuō),語(yǔ)料數(shù)據(jù)是由某一個(gè)領(lǐng)域內(nèi)互相獨(dú)立的多個(gè)文檔所組成的。
步驟102,對(duì)語(yǔ)料數(shù)據(jù)進(jìn)行預(yù)處理,得到文本數(shù)據(jù);在步驟102中,預(yù)處理包括:將語(yǔ)料數(shù)據(jù)的格式統(tǒng)一為文本格式,過濾臟詞、敏感詞和停用詞中的一種或多種,并將過濾后的文本數(shù)據(jù)按照標(biāo)點(diǎn)劃分為多行。例如,上述標(biāo)點(diǎn)可以是問號(hào)、嘆號(hào)、分號(hào)或句號(hào),也就是說(shuō),可以將過濾后的文本數(shù)據(jù)按照問號(hào)、嘆號(hào)、分號(hào)或句號(hào)劃分為多行。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海智臻智能網(wǎng)絡(luò)科技股份有限公司,未經(jīng)上海智臻智能網(wǎng)絡(luò)科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510874564.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測(cè)方法和裝置
- 關(guān)鍵詞排名的檢測(cè)方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲(chǔ)介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動(dòng)化否定關(guān)鍵詞方法及裝置
- 一種長(zhǎng)尾關(guān)鍵詞識(shí)別方法、關(guān)鍵詞搜索方法及計(jì)算機(jī)設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





