[發明專利]互聯網社區評論中個性化注意力詞的提取方法和裝置在審
| 申請號: | 202211344734.2 | 申請日: | 2022-10-31 |
| 公開(公告)號: | CN115630149A | 公開(公告)日: | 2023-01-20 |
| 發明(設計)人: | 文成明 | 申請(專利權)人: | 北京小川科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/36;G06F16/953;G06F40/284;G06Q50/00 |
| 代理公司: | 北京中和立達知識產權代理有限公司 11756 | 代理人: | 孟姣 |
| 地址: | 100191 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 互聯網 社區 評論 個性化 注意力 提取 方法 裝置 | ||
本發明是關于一種互聯網社區評論中個性化注意力詞的提取方法和裝置,方法包括:根據互聯網社區中的實體名詞匯表和各領域的核心詞表確定社區注意力詞表;根據社區注意力詞表和bert訓練模型進行深度學習,以得到注意力詞提取模型;整合每個用戶發表過的所有歷史評論;通過注意力詞提取模型對每個用戶的每條歷史評論進行注意力詞提取,以得到每個用戶對應的個性化注意力詞表。通過該技術方案,可以幫助用戶準確理解評論的核心語義,避免用戶錯過有價值的信息。
技術領域
本發明涉及互聯網數據處理技術領域,尤其涉及一種互聯網社區評論中個性化注意力詞的提取方法和裝置。
背景技術
對一句話里自動提取注意力詞,本質上非常類似閱讀書籍時,對一句話中的核心語義關鍵詞標成重點片段。這種“劃重點”的過程,就是句子中注意力詞的提取過程。
提取文本中的注意力詞,通常的技術方法有:1)固定詞表法,只要文本中包含固定詞表中的詞,則把該詞定為注意力詞提取出來;此方法準確率很差,并不能提取出句子中的真正代表核心語義的片段。2)傳統的NER識別的算法,一般需要人工標注大量數據通過機器學習來訓練NER識別模型;而人工標注注意力詞提取模型的訓練數據的成本極高,非常費時間、費人力。
現有技術主要存在以下幾方面的缺陷:
1.同一條評論區的評論,無論展示給哪個用戶,展示方式都是一樣,對于評論文本,業界還沒有嘗試個性化展示的先例。
2.評論區的評論,每一句話中的每個字都是統一字體樣式展示,導致瀏覽者容易視覺疲勞,從而跳躍式的目光掃光,并不能完全準確的理解每一句話的核心語義信息,導致錯過有價值的信息。
發明內容
為克服相關技術中存在的問題,本發明提供一種互聯網社區評論中個性化注意力詞的提取方法和裝置,從而自動提取評論中的用戶個性化注意力詞,并突出顯示個性化注意力詞,從而可以幫助用戶準確理解評論的核心語義,避免用戶錯過有價值的信息。
根據本發明實施例的第一方面,提供一種互聯網社區評論中個性化注意力詞的提取方法,所述方法包括:
根據互聯網社區中的實體名詞匯表和各領域的核心詞表確定社區注意力詞表;
根據社區注意力詞表和bert訓練模型進行深度學習,以得到注意力詞提取模型;
整合每個用戶發表過的所有歷史評論;
通過注意力詞提取模型對每個用戶的每條歷史評論進行注意力詞提取,以得到每個用戶對應的個性化注意力詞表。
在一個實施例中,優選地,所述方法還包括:
獲取目標用戶的當前待顯示評論;
使用所述注意力詞提取模型和所述目標用戶對應的個性化注意力詞表確定所述當前待顯示評論中的目標注意力詞;
顯示所述當前待顯示評論,并突出顯示所述目標注意力詞。
在一個實施例中,優選地,根據互聯網社區中的實體名和各領域的核心詞表確定社區注意力詞表,包括:
收集互聯網社區中的實體名詞匯和各領域的核心詞表,得到注意力初始詞表;
基于互聯網社區語料統計所述注意力初始詞表里每個注意力詞的DF值,并計算IDF值;
當注意力詞的DF值大于或等于第一閾值,且所述注意力詞的IDF值大于或等于第二閾值時,將所述注意力詞加入社區注意力詞表中。
在一個實施例中,優選地,還包括:
當注意力詞的DF值小于所述第一閾值,或者所述注意力詞的IDF值小于第二閾值時,丟棄所述注意力詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小川科技有限公司,未經北京小川科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211344734.2/2.html,轉載請聲明來源鉆瓜專利網。





