[發明專利]一種提取文本關鍵詞的方法和裝置有效
| 申請號: | 201410645724.1 | 申請日: | 2014-11-12 |
| 公開(公告)號: | CN105653547B | 公開(公告)日: | 2020-08-07 |
| 發明(設計)人: | 孟令彬;陳奕雷 | 申請(專利權)人: | 北大方正集團有限公司;北京方正阿帕比技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06F40/289;G06F40/30 |
| 代理公司: | 北京三聚陽光知識產權代理有限公司 11250 | 代理人: | 李敏 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提取 文本 關鍵詞 方法 裝置 | ||
本發明提供一種提取文本關鍵詞的方法,結合文本內容和用戶的反饋信息分別提取關鍵詞,然后將得到的關鍵詞合并作為文本的關鍵詞,這樣,可以更好的融合用戶的反饋信息,由于用戶的反饋更具有針對性,因此可以提取到和該文本更相關的關鍵詞,解決了現有技術中僅針對文本內容提取關鍵詞,得到的關鍵詞準確性差、相關度不高或者覆蓋面不全的問題,本方案提供了一種結合用戶的反饋信息,可以得到更加全面、準確的提取文本關鍵詞的方法。
技術領域
本發明涉及一種電子數據處理加工方法,具體地說是一種提取文本關鍵詞的方法和裝置。
背景技術
隨著電子信息化技術的不斷發展,電子資源日益普及。電子資源的數據量也變得越來越大,為了從海量數據中尋找到需要的信息,對數據的分類和查找顯得尤為重要。為了更好的數據進行分類,便于數據的查找和統計,一般會對文本提取標簽或者索引詞,將這些可以標識文本內容的詞語稱為關鍵詞,這些關鍵詞可以用于文本分類、統計以及查找。
由于對數字電子資源進行分類和查找相關資源,離不開關鍵詞,關鍵詞的準確與否決定了對資源分類是否正確和相關資源是否有用。只是對文本內容進行機器分析得出的關鍵詞過于大眾化,并不能反映資源在特定用戶群的作用,根據這樣的關鍵詞獲得的相關資源,其可利用率也不是很高。
目前,為了方便用戶記錄閱讀電子資源時的想法,電子資源一般允許用戶添加筆記、評語、用戶身份以及用戶所屬領域等內容。用戶給博客、新聞文章等內容發布評語已經是常見的功能,閱讀電子書做筆記在Apabi Reader等電子書閱讀器中也早已實現。這說明現有技術中已經能夠獲取用戶筆記以及評語等用戶的反饋信息。
綜合以上分析可以看出,根據文本內容提取關鍵詞的機器學習已經廣泛使用,但是這樣得到的關鍵詞過于寬泛,代表性較差,而現有技術中已經可以方便的獲取用戶的評語、評論、筆記等反饋信息,如何將用戶的反饋信息應用于提取關鍵詞的過程中,亟待實現。
發明內容
為此,本發明所要解決的技術問題在于現有技術中提取文本關鍵詞的方法通過機器簡單獲得,關鍵詞的代表性不強,從而提出一種結合用戶反饋、更好的體現文本內容的提取關鍵詞的方法和裝置。
本發明提供一種提取文本關鍵詞的方法,包括如下步驟:
根據文本內容確定第一關鍵詞;
提取該文本內容的用戶反饋信息;
根據所述反饋信息確定第二關鍵詞;
根據所述第一關鍵詞和所述第二關鍵詞確定該文本的關鍵詞。
優選地,根據所述反饋信息確定第二關鍵詞的步驟,包括:
提取所述反饋信息的文字,得到反饋文本;
根據所述反饋文本的內容提取第二關鍵詞。
優選地,根據所述反饋文本的內容提取第二關鍵詞的過程,包括:
獲取反饋文本對應的用戶屬性信息;
根據所述用戶屬性信息,對所述反饋文本分類;
針對相同類型的所述反饋文本提取關鍵詞。
優選地,所述用戶屬性信息包括用戶領域、用戶身份、用戶來源,所述根據所述用戶屬性信息對所述反饋文本分類的過程中,判斷所述用戶領域、用戶身份、用戶來源中的一個或多個是否相同,將相同用戶的反饋文本劃分為同一類。
優選地,根據所述反饋信息確定第二關鍵詞的步驟,還包括:
獲取請求用戶的用戶屬性信息;
獲取與請求用戶具有相同屬性的用戶反饋的信息,作為反饋文本;
根據該反饋文本確定第二關鍵詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京方正阿帕比技術有限公司,未經北大方正集團有限公司;北京方正阿帕比技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410645724.1/2.html,轉載請聲明來源鉆瓜專利網。





