[發明專利]一種科研學者畫像的快速表征方法有效
| 申請號: | 202010040201.X | 申請日: | 2020-01-15 |
| 公開(公告)號: | CN111241283B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 蔡世民;王銳杰;李健強 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06N5/025 | 分類號: | G06N5/025;G06F40/284;G06F40/216;G06F16/35;G06F18/25 |
| 代理公司: | 電子科技大學專利中心 51203 | 代理人: | 陳一鑫 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 科研 學者 畫像 快速 表征 方法 | ||
1.一種科研學者畫像的快速表征方法,包括下列步驟:
步驟1:對學者數據庫和論文數據庫進行數據融合匹配,其中學者庫中“姓名”與論文庫中“作者名”進行關聯,對于重名問題進行姓名-郵箱-機構三重綁定驗證;
步驟2:從融合篩選后的數據中提取出論文摘要的語料文本,形成科研學者-學術論文-摘要文本之間的直接關系,并且精簡為科研學者-摘要文本的直接對應關系;
步驟3:保留學術論文中的“關鍵字”字段,如缺失則置空;步驟2和步驟3為整個構建方法提供直接數據,接下來對該數據進行預處理;
步驟4:利用詞頻-逆向文件頻率來對每份數據中的摘要文本進行有效詞或有效短語的預處理,找到能體現差異性的關鍵詞,得到文本語料的向量化特征;
步驟5:對步驟4中所有預處理得到的向量化特征進行粗聚類,將摘要文本語料根據詞性差異進行有效劃分;
步驟6:對步驟5中的聚類結果,通過逆向查詢論文關鍵詞,并對同類別中的學術論文“關鍵詞”字段進行統計和詞頻排序,根據排名第一的關鍵詞對聚類結果進行標注,從而標注出所有的學術論文的相應標簽;
步驟7:根據標注結果,對科研學者所著的所有學術論文進行標簽統計,對標簽名和標簽權重值進行統計排序,取權重值前五的標簽名和標簽權重構成排序向量集合完了對科研學者畫像維度的快速表征。
2.如權利要求1所述的一種科研學者畫像的快速表征方法,其特征在于所述步驟4的具體方法為:
步驟4.1:步驟3得到的論文摘要文本表征為W=(w1,w2,…,wi,…,wn),其TF向量計算方法為:
其中表示在摘要文本中詞wi出現的次數,Tw表示統計的總詞數;
步驟4.2:計算其逆向文件頻率IDF,得到文本的IDF向量;IDF向量的計算方法為:
其中,Td表示語料庫中的總文檔數,表示語料庫中包含詞wi的文檔數;
步驟4.3:文本的TF-IDF矩陣計算為詞頻TF和逆向文件頻率IDF的乘積,即:
TF-IDF(W)=TF(W)*IDF(W)
這樣就得到了論文摘要文本語料的向量化特征。
3.如權利要求1所述的一種科研學者畫像的快速表征方法,其特征在于所述步驟7的具體方法為:
步驟7.1:對科研學者所發表的論文進行統計,某個科研學者所發表的論文集合可以表示為Ri=(P1,P2,Pj,...,Pn),對其發表的n篇論文中,基于粗聚類方法得到的論文標簽,統計其發表的所有論文中各個標簽對應的論文數,得到帶權重的學者的維度向量;學者的帶權維度向量Hi計算為:
Hi=sum(cate(Pj))
步驟7.2:對帶權科研學者維度向量計算前k個作為該學者的最終畫像維度也就是,科研學者畫像維度計算方法為:
最終構建得到的科研學者的畫像維度;
所述函數cate(Pj)為:
對不同的摘要簇分別提取出每篇摘要中的關鍵詞得到每個摘要簇的關鍵詞表征:
對摘要簇中的關鍵字進行詞頻統計,將摘要簇的關鍵字表征轉化為向量化的詞頻表征并排序,摘要簇的類別標注為:
Cate(Pj)=max(sort(sum(Pj)))。
4.如權利要求2所述的一種科研學者畫像的快速表征方法,其特征在于所述步驟5中粗聚類的方法為:
摘要簇的中心μj按照如下的方法計算:
其中N(aj)表示屬于簇aj中的樣本個數,xi表示第i篇摘要的TF-IDF向量;
將每篇摘要文本重新劃分到一個類,使用的是摘要文本向量到各個類中心的距離最短的原則,這個距離計算為:
μj的第i個分量,n表示μj分量的總數,第一次實施聚類將隨機指定摘要文本屬于某個摘要簇,經過兩次迭代后,得到互不相交的摘要簇。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010040201.X/1.html,轉載請聲明來源鉆瓜專利網。





