[發明專利]新群體描述詞識別方法與裝置、電子設備及存儲介質在審
| 申請號: | 202010434970.8 | 申請日: | 2020-05-21 |
| 公開(公告)號: | CN112131874A | 公開(公告)日: | 2020-12-25 |
| 發明(設計)人: | 彭濤;杜晶;高麗青 | 申請(專利權)人: | 北京明億科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/242;G06Q50/18 |
| 代理公司: | 北京植德律師事務所 11780 | 代理人: | 唐華東 |
| 地址: | 100021 北京市朝陽區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 群體 描述 識別 方法 裝置 電子設備 存儲 介質 | ||
本公開提供了新群體描述詞識別方法與裝置、電子設備及存儲介質。該方法的一具體實施方式包括:獲取近期特殊事件歷史文本集合;對近期特殊事件歷史文本集合中的各近期特殊事件歷史文本進行切詞處理得到對應的分詞序列,以及用切詞處理后得到的各分詞序列生成目標分詞序列集合;用目標分詞序列集合中的目標分詞序列中的兩相鄰分詞組成的二元拼接詞生成二元拼接詞庫;對于二元拼接詞庫中的每個二元拼接詞,執行識別操作以確定該二元拼接詞是否為新群體描述詞。該實施方式實現了自動提取近期特殊事件歷史文本集合中的新群體描述詞。
技術領域
本公開涉及計算機技術領域,具體涉及新群體描述詞識別方法與裝置、電子設備及存儲介質。
背景技術
近期生成的描述特殊事件的文本中可能會涉及新型群體的描述。這里,群體是指因為相同或相近的目的而自發性聚集在一起的人群。群體中沒有嚴格的組織管理體系。例如,高考學生群體、某小區的業主群體等。
目前基本是靠人工提取近期生成的文本中的新群體描述詞,所需的人力和時間成本較高,新型的特殊事件不能被及時發現并處理,對社會造成隱患。另外,由于文本大多采用自然語言描述、表達方式嚴重口語化且無規則,人工提取難度較高,依賴于人工經驗,即人工提取新群體描述詞過程中學習成本較高。
發明內容
本公開提出了新群體描述詞識別方法與裝置、電子設備及存儲介質。
第一方面,本公開提供了一種新群體描述詞識別方法,該方法包括:獲取近期特殊事件歷史文本集合,其中,上述近期特殊事件歷史文本集合是最近預設群體發現時長內生成的、用于描述特殊事件的歷史文本集合;對上述近期特殊事件歷史文本集合中的各近期特殊事件歷史文本進行切詞處理得到對應的分詞序列,以及用切詞處理后得到的各分詞序列生成目標分詞序列集合;用上述目標分詞序列集合中的目標分詞序列中的兩相鄰分詞組成的二元拼接詞生成二元拼接詞庫;對于上述二元拼接詞庫中的每個二元拼接詞,執行以下識別操作:基于上述目標分詞序列集合計算該二元拼接詞的詞頻、自由度和凝固度,以及響應于確定該二元拼接詞滿足預設新詞發現條件組中的每個條件,將該二元拼接詞確定為新群體描述詞,其中,上述預設新詞發現條件組包括以下至少一個條件:該二元拼接詞的詞頻大于預設詞頻閾值,該二元拼接詞的凝固度大于預設凝固度閾值,該二元拼接詞的自由度大于預設自由度閾值。
在一些可選的實施方式中,上述對上述近期特殊事件歷史文本集合中的各近期特殊事件歷史文本進行切詞處理得到對應的分詞序列,包括:基于預設切詞詞典對上述近期特殊事件歷史文本集合中的各近期特殊事件歷史文本進行切詞處理得到對應的分詞序列;以及上述方法還包括:將上述二元拼接詞庫中確定為新群體描述詞的各二元拼接詞添加到上述預設切詞詞典中。
在一些可選的實施方式中,上述預設群體發現時長是通過如下時長確定步驟預先確定的:對于預設候選時長集合中的每個候選時長,執行以下識別準確率確定操作:獲取最近該候選時長內生成的、用于描述特殊事件的歷史文本集合,以及對應的標注新群體描述詞集合;對所獲取的歷史文本集合中的各歷史文本進行切詞處理得到對應的分詞序列,以及用切詞處理后得到的各分詞序列生成與該候選時長對應的分詞序列集合;用與該候選時長對應的分詞序列集合中的分詞序列中的兩相鄰分詞組成的二元拼接詞生成與該候選時長對應的二元拼接詞庫;對于與該候選時長對應的二元拼接詞庫中的每個二元拼接詞,基于與該候選時長對應的分詞序列集合計算該二元拼接詞的詞頻、自由度和凝固度,以及響應于確定該二元拼接詞滿足上述預設新詞發現條件組中的每個條件且該二元拼接詞屬于上述標注新群體描述詞集合,或者響應于確定該二元拼接詞不滿足上述預設新詞發現條件組中的至少一個條件且該二元拼接詞不屬于上述標注新群體描述詞集合,將該二元拼接詞確定為識別正確詞;將與該候選時長對應的二元拼接詞庫中的識別正確詞的數目除以與該候選時長對應的二元拼接詞庫中的二元拼接詞的數目的比值確定為與該候選時長對應的識別準確率;將上述預設候選時長集合中對應的識別準確率最高的候選時長確定為上述預設群體發現時長。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明億科技有限公司,未經北京明億科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010434970.8/2.html,轉載請聲明來源鉆瓜專利網。





