[發明專利]一種基于混合分類技術的大眾貢獻審閱自動標注方法有效
| 申請號: | 201710484791.3 | 申請日: | 2017-06-23 |
| 公開(公告)號: | CN107291902B | 公開(公告)日: | 2020-05-08 |
| 發明(設計)人: | 余躍;李志星;尹剛;王濤;王懷民;范強;李立 | 申請(專利權)人: | 中國人民解放軍國防科學技術大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F11/36;G06F8/71;G06F8/30 |
| 代理公司: | 北京中濟緯天專利代理有限公司 11429 | 代理人: | 陸薇薇 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 混合 分類 技術 大眾 貢獻 審閱 自動 標注 方法 | ||
1.一種基于混合分類技術的大眾貢獻審閱自動標注方法,其特征在于,包括如下步驟:
S1.采用分布式數據采集系統對GitHub平臺數據進行采集,采集過程包括獲得感興趣的項目的數據列表,然后再根據列表信息去抓取詳細數據信息;其中,所采集的數據包括大眾合并請求和其他開發者對所述大眾合并請求的審閱評論;
S2.選取GitHub經典的項目進行人工分析,結合領域相關研究級定義兩級的審閱評論分類體系;其包括:
S2.1.選取GitHub流行項目進行調研,在人工調研時,對每一個審閱評論,對其標注一段簡短的表示其含義的文本信息,完成所有的審閱評論的標注;
S2.2.在所有的審閱評論都被標注完畢后,根據它們的描述信息把其分到不同的大類小組里去;
S2.3.對其中每一類的評論繼續往下拆分,分裂過程中,每一個審閱評論會屬于一個或多個類別小組中,形成第一級類別體系;
S2.4.對所述第一級類別體系執行進一步的分析,確認它的正確性和完整性,最后形成第二級分類體系;
S3.隨機采樣一部分大眾合并請求和其對應的所有審閱評論,利用在線標記平臺通過多人協同的方式進行人工標注,形成數據集;
S4.利用人工標記的數據集訓練基于混合分類技術的標注模型,然后利用訓練所得標注模型對未標記評審評論進行自動化標注。
2.根據權利要求1所述的一種基于混合分類技術的大眾貢獻審閱自動標注方法,其特征在于,所述分布式數據采集系統采用分布式爬取模式,將數據列表信息抽取得到的數據項統一放到一個待爬取隊列中,該待爬取隊列基于Redis實現;
爬取集群中的爬取服務器各自從該待爬取隊列中取出詳細數據的URL,然后通過GitHub的官方數據訪問接口下載詳細的數據信息,從Github爬取的原始數據中抽取目標字段形成結構化數據;并創建token池,每次抓取過程都隨機選取一個token進行認證。
3.根據權利要求1所述的一種基于混合分類技術的大眾貢獻審閱自動標注方法,其特征在于,所述步驟S3包括:
S3.1.構建一個在線多人標記平臺,把所述在線多人標記平臺部署到公網上面,方便標注者執行標記任務;
S3.2.根據定義的分類模式,利用所述在線標記多人平臺標記隨機選取的審閱評論。
4.根據權利要求1所述的一種基于混合分類技術的大眾貢獻審閱自動標注方法,其特征在于,所述在線標記平臺的每一個頁面能夠展示一個大眾合并請求及其審閱評論,一個大眾合并請求的所有評論以創建時間為序從上往下依次排列,對一個審閱評論進行標記的時候能夠同時選取多個類別標簽。
5.根據權利要求1所述的一種基于混合分類技術的大眾貢獻審閱自動標注方法,其特征在于,所述步驟S4包括:
S4.1.利用基于規則的技術和文本分類器對評論進行初步分類,得到一個概率向量,向量大小就是要分的類別個數,每一個項對應著文本屬于這個類別的概率值;
S4.2.由所述概率向量和審閱評論的其他特征值組成新的特征向量,所述其他特征值包括評論類型、文本長度和是否包含代碼,該新的特征向量會被第二階段的預測模型處理并得到一個新的概率向量,遍歷這個新的概率向量,如果發現有一個項的值大于0.5,就給這個評論打上相應類別的標簽,如果所有項的值都小于0.5,就選取值最大的那個項對應的類別標簽;最后,每一個評論都會對應至少一個類別標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科學技術大學,未經中國人民解放軍國防科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710484791.3/1.html,轉載請聲明來源鉆瓜專利網。





