[發(fā)明專利]一種使用LDA的文本分類篩選方法在審
| 申請?zhí)枺?/td> | 202011123125.5 | 申請日: | 2020-10-20 |
| 公開(公告)號: | CN112667806A | 公開(公告)日: | 2021-04-16 |
| 發(fā)明(設計)人: | 趙博;呂建文;周興暉;陳力;薛柔月;金鑫;蔣尚秀 | 申請(專利權)人: | 上海金橋信息股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/335;G06F16/31;G06F40/211;G06F40/216;G06F40/242;G06F40/30;G06K9/62;G06N20/00 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 張乾楨 |
| 地址: | 200234 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 使用 lda 文本 分類 篩選 方法 | ||
本發(fā)明提出了一種使用了LDA的文本分類篩選方法,包括:獲取一個數(shù)據(jù)集,內(nèi)容包括多個短句;使用自然語言處理方法,對數(shù)據(jù)進行預處理,以及進行清洗和整理;確定一個主題,人工選擇若干符合主題的文本句子;用所述選擇的文本句子,使用詞袋模型建立對應文本向量矩陣;用所述向量矩陣去訓練第一LDA模型;用所述第一LDA模型篩選文本中剩余的句子,計算該文本集合與第一LDA主題計算所得到的多個話題詞之間的相關性,并以此作為評價一個句子是否滿足選定主題模型的閾值;加入通過話題相關性篩選的文本,再訓練第二LDA模型;用所述第二LDA模型,對文本中剩余的句子再用余弦相似去判斷和篩選;將所述總共三次篩選的句子作為符合篩選目標的文本數(shù)據(jù)。
技術領域
本發(fā)明涉及自然語言處理領域,可以有效篩選符合選定主題的句子,為各類機器學習算法準備數(shù)據(jù)集,或者進行文本分類。
背景技術
目前機器學習在各個領域中都有了越來越廣泛的應用。然而對于需要處理自然語言的模型而言,往往需要預設一個專門的主題來訓練模型。訓練模型需要有人工標記的數(shù)據(jù)集才能確保模型的質量。但是在許多情況下,在沒有現(xiàn)成的有標記數(shù)據(jù)的情況下,如何為模型提供盡可能高質量的數(shù)據(jù)就成了一個備受關注的問題。
訓練模型離不開數(shù)據(jù),但是許多時候沒有足夠的數(shù)據(jù)(數(shù)據(jù)質量太低或者標注的金錢成本太大),因而工業(yè)界提出了所謂的無監(jiān)督學習,但實際還是很少使用,更多時候還是增加更多的訓練樣本。
發(fā)明內(nèi)容
本發(fā)明的技術解決問題:提出了一種使用LDA(隱狄利克雷分配模型)的文本分類篩選方法,面對文本數(shù)據(jù)的時候,利用少量人工去選擇或者標記的數(shù)據(jù),然后去提取其特征去訓練一個分類模型,利用這個分類模型去篩選和分類數(shù)據(jù),能以較低成本和較快速度對不同主題的文本數(shù)據(jù)進行分類。這種方法通過人工挑選少量符合主題要求的數(shù)據(jù),然后利用LDA模型提取其特征從而去快速篩選數(shù)據(jù)。
本發(fā)明的技術解決方案為一種使用LDA的文本分類篩選方法,包括如下步驟:
(1)獲取一個數(shù)據(jù)集,內(nèi)容包括多個短句;
(2)使用自然語言處理方法,對數(shù)據(jù)進行預處理,以及進行清洗和整理;
(3)確定一個主題,人工選擇若干符合主題的文本句子;
(4)用所述選擇的文本句子,使用詞袋模型建立對應文本向量矩陣;
(5)用所述向量矩陣去訓練第一LDA模型;
(6)用所述LDA模型篩選文本中剩余的句子,計算該文本集合與第一LDA主題計算所得到的多個話題詞之間的相關性,并以此作為評價一個句子是否滿足選定主題模型的閾值;
(7)加入通過話題相關性篩選的文本,再訓練第二LDA模型;
(8)用所述第二LDA模型,對文本中剩余的句子再用余弦相似去判斷和篩選;
(9)將人工篩選、主題相似篩選,余弦相似篩選總共三次篩選的句子作為符合篩選目標的文本數(shù)據(jù)。
進一步的,所述步驟2中,對于數(shù)據(jù)進行預處理包括:
選擇大于10個單詞的句子;去除標點符號,去除錯誤編碼,去除非英語和數(shù)字的其他字符;修復語法問題,修復單詞拼寫錯誤,修復口語化詞匯;修復空格和縮進問題;修復異常字符;所述的清洗和整理包括使用詞袋模型進行粗清洗,選擇主題權重高的文本句子。
進一步的,所述步驟3中,人工選擇若干符合主題的文本句子包括:對于重復的句子應僅保留一項,對于描述同一件事物的句子,當句子的過半的單詞是相同時,即認為是重復性的;
縮寫和簡略的內(nèi)容應當被擴展,對于在使用口語進行表達時會給出某些縮寫的表示,需要人工發(fā)現(xiàn),并替換。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海金橋信息股份有限公司,未經(jīng)上海金橋信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011123125.5/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種適用于菌類采摘孢子防混雜雜菌的工藝
- 下一篇:一種吸油煙機





