[發明專利]一種用戶知識概念網絡的構建方法及裝置、用戶知識的評價方法有效
| 申請號: | 201911198546.1 | 申請日: | 2019-11-29 |
| 公開(公告)號: | CN112883187B | 公開(公告)日: | 2022-08-05 |
| 發明(設計)人: | 劉垚;鄒更;任鈺欣;黃梓杰 | 申請(專利權)人: | 武漢漁見晚科技有限責任公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/284 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 羅飛 |
| 地址: | 430070 湖北省*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用戶 知識 概念 網絡 構建 方法 裝置 評價 | ||
本發明公開了一種用戶知識概念網絡的構建方法及裝置、用戶知識的評價方法,其中的用戶知識概念網絡的構建方法,首先對包含m篇獨立文本的文本集合中包含的每篇文本進行預處理,然后分別以語料的每一個詞匯為概念主題詞,遍歷所有句子和詞匯,將與概念主題詞在同一個句子中共同出現的詞匯,納入概念主題詞對應的詞匯集合,接著對每個詞匯集合進行詞匯元素篩選,構建概念庫;接下來采用層次聚類方法對概念庫中包含的概念進行領域劃分;然后根據用戶文本數據中包含的詞匯與概念庫的匹配情況,得到用戶文本數據中包含的概念;最后根據用戶文本數據中包含的概念和劃分的概念領域,構建用戶知識概念網絡。本發明的方法可以提高評價的準確性和客觀性。
技術領域
本發明涉及自然語言處理技術領域,具體涉及一種用戶知識概念網絡的構建方法及裝置、用戶知識的評價方法。
背景技術
對人的知識創新能力評價具有巨大的應用潛力和價值。但是目前對于用戶知識的評價依然脫離不開以問卷、考卷為代表的問答系統的衡量,由于問答系統在內容和選題上在靈活性和客觀性兩和方面難以進行平衡,如果問答系統的問題內容統一,則保證了客觀性但缺乏靈活性;而如果問答系統的內容具多樣,那么保證了靈活性但是對于結果的評判則難以客觀一致。同時,問答系統往往是從外部考察人的知識儲備和一定的解決問題的能力,但是卻沒辦法從人自身的角度客觀衡量其知識創能力。
由此可知,現有技術中的方法存在評價結果不夠準確的技術問題。
發明內容
有鑒于此,本發明提供了一種用戶知識概念網絡的構建方法及裝置、用戶知識的評價方法,用以解決或者至少部分解決現有技術中的方法存在的評價結果不夠準確的技術問題。
本發明第一方面提供了一種用戶知識概念網絡的構建方法,包括:
對包含m篇獨立文本的文本集合中包含的每篇文本進行預處理,獲得m篇獨立文本構成的語料的所有句子和詞匯,其中,m為正整數;
分別以語料的每一個詞匯為概念主題詞,遍歷所有句子和詞匯,將與概念主題詞在同一個句子中共同出現的詞匯,納入概念主題詞對應的詞匯集合,其中,詞匯集合包括概念主題詞和詞匯元素;
對每個詞匯集合進行詞匯元素篩選,構建概念庫;
采用層次聚類方法對概念庫中包含的概念進行領域劃分;
獲取用戶文本數據,根據用戶文本數據中包含的詞匯與概念庫的匹配情況,得到用戶文本數據中包含的概念;
根據用戶文本數據中包含的概念和劃分的概念領域,構建用戶知識概念網絡。
在一種實施方式中,對每個詞匯集合進行詞匯元素篩選,構建概念庫,包括:
統計詞匯集合中的每個詞匯元素xj與概念主題詞xi共同出現的文本數量z,其中,z≤m;
判斷文本數量z是否大于或等于第一閾值,如果是,則將詞匯元素作為詞匯集合的有效詞匯,保留在詞匯集合中,否則,將詞匯元素從詞匯集合中去除;
將保留有效詞匯的所有詞匯集合作為概念庫。
在一種實施方式中,根據用戶文本數據中包含的詞匯與概念庫的匹配情況,得到用戶文本數據中包含的概念,包括:
對獲取的用戶文本數據以篇章為單位進行預處理,得到每篇文本的所有詞匯;
將每篇文本包含的詞匯與概念庫進行匹配,如果文本中出現了概念庫中一個概念的預設比例以上的有效詞匯,則判定該篇文本包含這個概念,得到每篇文本包含的概念;
將每篇文本包含的概念的總和作為用戶文本數據中包含的概念。
在一種實施方式中,根據用戶文本數據中包含的概念和劃分的概念領域,構建用戶知識概念網絡,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢漁見晚科技有限責任公司,未經武漢漁見晚科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911198546.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種大流量變壓差自動恒流閥
- 下一篇:一種程序代碼的混淆方法及裝置





