[發明專利]基于TF-IDF和領域詞典的主題內容聚合分析方法有效
| 申請號: | 201910359911.6 | 申請日: | 2019-04-30 |
| 公開(公告)號: | CN110110047B | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 趙瑞雪;寇遠濤;張潔;鮮國建;仲躋亮 | 申請(專利權)人: | 中國農業科學院農業信息研究所 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/335;G06F16/35 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 tf idf 領域 詞典 主題 內容 聚合 分析 方法 | ||
1.一種基于TF-idf和領域詞典的主題內容聚合分析方法,其特征在于,包含如下步驟:
步驟S1:獲取用于主題聚合的指定領域和1個初始需求詞,并根據初始需求詞指定領域詞典;
領域詞典建立在所指定領域的科學敘詞表基礎上,科學敘詞表包含所指定領域的敘詞、非敘詞以及詞間語義關系;
步驟S2:對初始需求詞擴展,得到正式擴展詞集,包括如下步驟:
S2-1:語料資源召回
使用步驟S1確定的初始需求詞,在原始語料資源庫中通過檢索,召回K個最相關的資源,作為命中結果集;
此處,原始語料資源庫指從資源池中抽取出來的期刊資源,這些資源的關鍵字段齊全且沒有異常字符,所述關鍵字段包括:標題、關鍵詞、摘要、作者、來源期刊和作者機構;K取值為正整數,該參數決定了進入步驟S2-2語料遴選階段的資源數量;所述資源池是指通過自建或購買匯聚而成的電子資源集合;
S2-2:語料遴選
抽取命中結果集中各資源的關鍵字段,包括:標題、關鍵詞、摘要、作者、來源期刊和作者機構,作為關鍵字段對象集合;
S2-3:語料分詞
將上一步抽取出來的關鍵字段對象集合進行碎片化,根據預先設置的分詞粒度參數和分詞策略,形成文本碎片詞集;
S2-4:詞集過濾
使用停用詞表和生活常用詞表對文本碎片詞集進行過濾:
將文本碎片詞集中,隸屬于停用詞表和生活常用詞表的詞項提取出,然后將這些詞項逐個與核心期刊關鍵詞表對比;若其隸屬于核心期刊關鍵詞表,則將其保留在文本碎片詞集中,若其不屬于核心期刊關鍵詞表,則從文本碎片詞集中去除該詞項;所述核心期刊關鍵詞表,由從原始語料資源庫中的核心期刊收錄文章的關鍵字段構成;
將文本碎片詞集保留下來的所有詞項的集合稱為候選擴展詞集合A′;
S2-5:特征詞提取
利用TF-IDF算法,對候選擴展詞集合A′中的每個詞項,計算其與初始需求詞的相關度,作為該詞項對整個候選擴展詞集合A′的重要性程度,設第n個詞項對A′的重要性程度為wn;然后將重要性程度wn從大到小降序排列,提取出wn值最大的前M個詞項作為特征詞,這些特征詞構成正式擴展詞集A;
其中,M為預先設置參數,表示正式擴展詞集A中的詞項個數,且取值為正整數;
所述重要性程度計算公式為:
TFn指第n個詞項在集合A′中出現的詞頻,fn為第n個詞項在集合A′中出現的次數,fd為集合A′中的詞項總個數;log為取對數運算;
IDFn則是第n個詞項在集合A′中的逆向詞頻指數,其中K為步驟S2-1預設的參數,Kn為K條資源中包含有第n個詞項的資源數量;
步驟S3:通過檢索建立備選資源集,包括如下步驟;
S3-1:檢索詞擴展
將步驟S2-5得到的正式擴展詞集A中各詞項基于領域詞典進行擴展,即依據該領域詞典對應的科學敘詞表中英對照及“用代屬分參”語義關系對各詞項進行上下位、統一詞及中英對照詞的擴展,并去掉其中的重復詞項,生成正式檢索詞集B;
S3-2:檢索詞拼接
將正式檢索詞集B中的各詞項拼接成為檢索詞串,作為檢索輸入文本,檢索詞串的拼接規則為詞項之間以“或”運算符連接;
S3-3:資源結果召回
首先確定檢索涉及的目標資源類型,然后對每種目標資源類型指定相應的關鍵字段,將關鍵字段設置為該種目標資源類型的默認檢索字段,使用步驟S3-2中獲取到的檢索詞串,在資源池中進行檢索時,只在每個資源的默認檢索字段進行檢索,若該資源的默認檢索字段中包括正式檢索詞集B中的1個或多個詞項,則將該資源納入備選資源集;
所述目標資源類型,包括新聞資訊、中文期刊、外文期刊、OA期刊、領域專家和科研成果;
步驟S4:審核及快速補充,排序后獲得最終正式主題結果集
對上述步驟中得到的備選資源集進行審核及補充,形成最終正式主題結果集;包括如下步驟:
S4-1:對備選資源集中各資源按照如下標準進行審核:
(1)根據S3-3中該資源所屬的目標資源類型相應的關鍵字段,查看該資源的關鍵字段均不為空;
(2)該資源的全部內容無異常字符;
符合以上標準的資源則通過審核,納入候選主題結果集;當有異常字符的情況下若通過修改可消除的,則修改后也將其納入候選主題結果集;
S4-2補錄新增資源
對每種目標資源類型建立相應的錄入模板,所述錄入模板指每個類型的資源必填的字段和非必填的字段;
對資源池外其他的與初始需求詞高度相關的資源,若擬將其作為新增資源,則首先根據該資源所屬的目標資源類型選擇相應的錄入模板,并按照錄入模板錄入相應的內容,至少應在對應的錄入模板中錄入所要求必填的字段;
S4-3新增資源導入
將完成錄入的新增資源的關鍵字段與候選主題結果集中的資源的關鍵字段進行比對,以排除重復的資源;若非重復資源則將其納入到候選主題結果集;
S4-4:結果排序
對每種目標資源類型,根據資源的時效性、權威性及相關度,對步驟S4-3獲得的候選主題結果集中的資源進行有序排列,獲得最終正式主題結果集;
步驟S5:將最終正式主題結果集進行發布,發布時根據不同目標資源類型,按照步驟S4-4獲得的排序進行展示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國農業科學院農業信息研究所,未經中國農業科學院農業信息研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910359911.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種檢索相似文本的方法、裝置以及存儲介質
- 下一篇:問詢指引方法及裝置





