[發明專利]一種知識主題和資源文件的關聯方法有效
| 申請號: | 201810265568.4 | 申請日: | 2018-03-28 |
| 公開(公告)號: | CN108427767B | 公開(公告)日: | 2020-09-29 |
| 發明(設計)人: | 黃海暉;任光杰;張銳;韓后;林振潮;許駿 | 申請(專利權)人: | 廣州市創新互聯網教育研究院 |
| 主分類號: | G06F16/13 | 分類號: | G06F16/13;G06F16/14 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 余煥娜;鄭浦娟 |
| 地址: | 510000 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 知識 主題 資源 文件 關聯 方法 | ||
1.一種知識主題和資源文件的關聯方法,其特征在于,步驟如下:
步驟S1、檢索存儲設備中指定格式的資源文件,獲取檢索到的各資源文件的全路徑名稱,同時為檢索到的各資源文件賦予唯一編號;
步驟S2、針對于步驟S1檢索到的每一資源文件,去除該資源文件全路徑名稱中的路徑信息以及后綴名,以獲取到該資源文件的文件名稱,然后提取出該資源文件的文件名稱中的關鍵詞;所有資源文件的文件名稱的關鍵詞并集后得到關鍵詞集合;
步驟S3、針對于關鍵詞集合中的每個關鍵詞,將該關鍵詞分別與各資源文件的文件名稱執行字符匹配算法,然后將其中命中的各資源文件的編號索引到該關鍵詞上,從而建立關鍵詞文件索引;
步驟S4、當獲取知識主題名稱時,以知識主題名稱為根節點建立樹形結構,具體過程如下:
步驟S4-1、首先以知識主題名稱為根節點,計算知識主題名稱與關鍵詞集合中各關鍵詞的相似度,將與知識主題名稱相似度超過第一閾值的各關鍵詞作為根節點的子節點,由根節點的各子節點形成了樹形結構的第二層;進入步驟S4-2;
步驟S4-2、針對于新建立的樹形結構當前層中的每一節點,以該節點為父節點,計算該節點與關鍵詞集合中除已經在樹形結構節點的關鍵詞以外的其他各關鍵詞的相似度,將與該節點相似度大于等于第一閾值的各關鍵詞作為該節點的子節點,從而形成樹形結構的下一層;
步驟S4-3、在樹形結構下一層建立完成后,將該層作為新建立的樹形結構當前層,然后重復執行步驟S4-2,直到新建立的樹形結構當前層中的每一節點均滿足以下條件:該節點與關鍵詞集合中除已經在樹形結構節點的關鍵詞之外的其他各關鍵詞的相似度均小于第一閾值,則該節點為葉子節點,將新建立的樹形結構當前層作為樹形結構最后一層;
步驟S5、針對于步驟S4中獲取到的樹形結構中的每個節點,根據步驟S3中得到的關鍵詞文件索引,獲取該節點關鍵詞所對應的資源文件集合,然后分別計算該節點關鍵詞與資源文件集合中每一資源文件的文件名稱中各關鍵詞之間的相似度,并且將計算得到的該節點關鍵詞與資源文件集合中每一資源文件的文件名稱中各關鍵詞之間的相似度進行相加,作為該節點關鍵詞與資源文件集合中資源文件的相似度,按照與該節點關鍵詞的相似度從高到低的排序將對應資源文件關聯到該節點上。
2.根據權利要求1所述的知識主題和資源文件的關聯方法,其特征在于,所述步驟S1中,指定格式的資源文件包括圖片、文檔、視頻和音頻格式的文件;
所述步驟S1中,通過對存儲設備進行遍歷搜索的方式對存儲設備中資源文件進行檢索,包括搜索資源文件相關目錄個數、目錄下文件的個數以及目錄和資源文件的修改時間;
所述步驟S1中,對存儲設備中資源文件進行檢索的方式包括全檢索和增量檢索。
3.根據權利要求1所述的知識主題和資源文件的關聯方法,其特征在于,
所述步驟S2中,針對于資源文件的文件名稱,采用結巴分詞的方式提取出其中的關鍵詞。
4.根據權利要求1所述的知識主題和資源文件的關聯方法,其特征在于,所述步驟S3中,建立一個關鍵詞文件矩陣,其中關鍵詞文件矩陣中每一行的各元素分別對應為關鍵詞集合中每個關鍵詞所索引的各資源文件的編號。
5.根據權利要求1所述的知識主題和資源文件的關聯方法,其特征在于,所述步驟S4中,在步驟S4-3后還包括對樹形結構進行如下的重構步驟,具體為:
步驟S4-4、設定第二閾值,從樹形結構上層到下層的順序,針對于步驟S4-3中得到的樹形結構的每個節點,獲取樹形結構中得到該節點的樹枝,然后獲取到樹枝上在該節點上層的所有節點,同時獲取到上述所有節點中各節點作為父節點時與樹枝上的其子節點之間的相似度;將上述獲取到的所有相似度進行相乘,最后將相乘后得到的值與第二閾值進行比較,若小于第二閾值,則重構樹形結構,該節點及該節點下方由該節點延伸得到的其他所有節點均不布置在重構的樹形結構中;
所述步驟S5中所使用的樹形結構為步驟S4-3得到的樹形結構或步驟S4-4重構到的樹形結構。
6.根據權利要求5所述的知識主題和資源文件的關聯方法,其特征在于,所述第一閾值為0.6,所述第二閾值為0.1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州市創新互聯網教育研究院,未經廣州市創新互聯網教育研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810265568.4/1.html,轉載請聲明來源鉆瓜專利網。





