[發明專利]基于TF-IDF和領域詞典的主題內容聚合分析方法有效
| 申請號: | 201910359911.6 | 申請日: | 2019-04-30 |
| 公開(公告)號: | CN110110047B | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 趙瑞雪;寇遠濤;張潔;鮮國建;仲躋亮 | 申請(專利權)人: | 中國農業科學院農業信息研究所 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/335;G06F16/35 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 tf idf 領域 詞典 主題 內容 聚合 分析 方法 | ||
本發明公開了一種基于TF?IDF和領域詞典的主題內容聚合分析方法,屬于情報信息處理領域。基于TF?IDF獲取主題需求詞的擴展詞集;將其作為檢索文本遵循基于領域詞典的檢索策略完成對資源池中多種類型資源的檢索,經過審核進行資源刪補,對每種目標資源類型,根據資源的時效性、權威性及相關度進行有序排列和發布。與傳統方法相比,本方法通過擴展詞集保證了主題內資源的檢全率,通過基于領域詞典的檢索策略和具有針對性的各類型資源排序模型,保證了主題內資源的檢準率;通過審核原則保障了主題內資源的質量。易擴展易維護,同時大大降低了主題資源內容聚合的時間和人工成本。
技術領域
本發明提出一種基于TF-IDF和領域詞典的主題內容聚合分析方法,屬于情報信息處理領域。
背景技術
互聯網時代,學術資源的出版和發行逐漸轉向數字化和虛擬化,知識流通速度不斷提升,知識成果產出周期縮短,1950年之后的論文發表量達到此前論文發表總量的400倍之多。知識爆炸時代,資源過載導致科研知識發現需求被淹沒,面向特定專業領域主題的學術資源精準發現問題日漸突出。
為幫助科研團隊及時掌握其所屬研究領域的發展態勢及最新研究進展,為領域內課題申報、研究生定題及成果研究的全過程提供資源及知識服務支撐,滿足科研主體對特定主題的信息資源需求,傳統的解決方式主要采用基于智庫的信息資源定時推送服務。這種方式的服務實現流程包括資源來源遴選、檢索詞確定及人工檢索、智庫專家審核、檢索詞迭代調整及補檢索,報告編輯及服務推送等幾大流程。該種方式可以在一定程度上解決大數據時代知識需求湮沒的問題,但是在人工和時間成本上消耗較大,隨著資源體量及類型復雜度的不斷提升,該種方式的主題資源檢全率及資源質量難以保障。總體來說,該方法不具有可持續性,同時不易擴展,每拓展一個新的主題領域所產生的綜合成本較高。
發明內容:
鑒于現有算法的不足以及聚合信息的不確定性和復雜性,本發明的目的在于解決自動高效聚合特定主題的信息資源的問題,提出了一種基于TF-IDF和領域詞典的主題內容聚合分析方法。
基于該方法基于特征提取算法及領域詞典實現面向科研主體特定需求的主題資源內容自動聚合與分析。在獲取到主題需求詞后,首先基于TF-IDF獲取到主題需求詞的擴展主題詞集合;之后以擴展主題詞集合作為檢索文本遵循基于領域詞典的智能檢索策略完成對資源池中多種類型資源的檢索,經過審核進行資源少量刪補及排序調整,檢索結果遵循兼顧相關度、時效性及質量度的資源排序模型;最后完成用戶需求專題的定制化配置,并利用前端頁面為科研主體呈現主題化的資源聚合和可視化分析服務。
本發明所提出的基于TF-IDF和領域詞典的主題內容聚合分析方法,包含如下步驟:
步驟S1:獲取用于主題聚合的指定領域和1個初始需求詞,并根據初始需求詞指定領域詞典;
領域詞典建立在所指定領域的科學敘詞表基礎上,科學敘詞表包含所指定領域的敘詞、非敘詞以及詞間語義關系;
步驟S2:對初始需求詞擴展,得到正式擴展詞集,包括如下步驟:
S2-1:語料資源召回
使用步驟S1確定的初始需求詞,在原始語料資源庫中通過檢索,召回K個最相關的資源,作為命中結果集;
此處,原始語料資源庫指從資源池中抽取出來的期刊資源,這些資源的關鍵字段齊全且沒有異常字符,所述關鍵字段包括:標題、關鍵詞、摘要、作者、來源期刊、作者機構;K取值為正整數,該參數決定了進入步驟S2-2語料遴選階段的資源數量;所述資源池是指通過自建、購買等多種渠道匯聚而成的電子資源集合;
S2-2:語料遴選
抽取命中結果集中各資源的關鍵字段,包括:標題、關鍵詞、摘要、作者、來源期刊、作者機構,作為關鍵字段對象集合;
S2-3:語料分詞
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國農業科學院農業信息研究所,未經中國農業科學院農業信息研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910359911.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種檢索相似文本的方法、裝置以及存儲介質
- 下一篇:問詢指引方法及裝置





