[發(fā)明專利]一種文本風格的自動化評判方法有效
| 申請?zhí)枺?/td> | 202210475512.8 | 申請日: | 2022-04-29 |
| 公開(公告)號: | CN114861629B | 公開(公告)日: | 2023-04-04 |
| 發(fā)明(設(shè)計)人: | 陳崢;陳建樹 | 申請(專利權(quán))人: | 電子科技大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/216;G06F16/31;G06F16/35;G06N3/084 |
| 代理公司: | 西安智萃知識產(chǎn)權(quán)代理有限公司 61221 | 代理人: | 許雙田 |
| 地址: | 610000 四川省成*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 風格 自動化 評判 方法 | ||
1.一種文本風格的自動化評判方法,其特征在于,該方法包括以下步驟:
步驟1)、使用句法分析工具HanLP對已有文本點評數(shù)據(jù)進行句法解析,得到python中l(wèi)ist結(jié)構(gòu)的數(shù)據(jù)結(jié)果;
步驟2)、單條數(shù)據(jù)風格標簽提取:
a)自定義Node節(jié)點,使用自底向上的方法遞歸構(gòu)造多叉樹,將解析得到的數(shù)據(jù)結(jié)果還原為短語結(jié)構(gòu)樹的樹狀結(jié)構(gòu),使用一個哈希表A記錄每個Node節(jié)點的短語性質(zhì)與單詞內(nèi)容;
b)以“節(jié)點類型為VP且包含單詞個數(shù)為3-5個”作為篩選規(guī)則進行標簽提取,根據(jù)該篩選規(guī)則對哈希表A的數(shù)據(jù)節(jié)點進行過濾,得到符合條件的結(jié)果,并將該符合條件的結(jié)果存儲在另一個哈希表B中,其中VP是指動詞短語;
步驟3)、全量風格標簽集合構(gòu)造:將數(shù)據(jù)庫中的每條數(shù)據(jù)都進行步驟2)的操作,得到最終的哈希表B,根據(jù)短語的頻次進行倒序排序,取前K個短語作為模型訓練數(shù)據(jù)的風格標簽,所述模型為ALBERT預訓練模型;
步驟4)、模型訓練數(shù)據(jù)構(gòu)造:使用負采樣的方式構(gòu)造二分類數(shù)據(jù)集,保持正負樣本比例均衡,將其中一個數(shù)據(jù)正樣本用標簽1標識,然后隨機選擇一個沒有出現(xiàn)在點評中的風格標簽,使用相同拼接方式構(gòu)造一個負樣本,將其用標簽0標識;
步驟5)、深度學習模型訓練調(diào)優(yōu):采用深度學習模型訓練框架對ALBERT預訓練模型進行微調(diào),并在驗證集上進行性能驗證。
2.根據(jù)權(quán)利要求1所述的文本風格的自動化評判方法,其特征在于,步驟3)中,風格標簽使用最長公共子串算法進行判重,不能使用文本相似度很高的兩個標簽。
3.根據(jù)權(quán)利要求2所述的文本風格的自動化評判方法,其特征在于,步驟5)具體包括以下小步驟:
a、將構(gòu)造的數(shù)據(jù)集中的序列打亂并小批量依次輸入ALBERT預訓練模型;
b、ALBERT預訓練模型將輸入進行預處理操作,將其轉(zhuǎn)化為one-hot向量并進行嵌入操作,然后再嵌入位置信息和片段信息,其中標簽文本的片段id為0,作文文本的片段id為1;
c、將預處理操作后的結(jié)果輸入神經(jīng)網(wǎng)絡(luò),分別與三個權(quán)重矩陣運算得到Q、K、V三個矩陣,Q、K、V分別經(jīng)過自注意力模塊得到每個字符與其他字符之間的注意力分數(shù)矩陣,運算方式如下:
其中,Zi為編碼后的向量,T為矩陣轉(zhuǎn)置,M為掩碼矩陣,dk為單頭注意力隱層向量維度,i為1至n的正整數(shù);
d、利用多頭注意力將Z1~Zn拼接到一起,隨后傳入一個線性層得到與多頭注意力輸入矩陣X同維度的最終輸出Z;
e、在得到輸入矩陣X同維度的最終輸出Z后,利用多頭注意力模塊的最終輸出Z與X進行殘差連接,之后進行層歸一化操作,將每一層神經(jīng)元的輸入都轉(zhuǎn)成均值方差都轉(zhuǎn)化為標準正態(tài)分布LayerNorm(X+Z);
f、ALBERT預訓練模型中的前饋模塊使用兩層全連接層對結(jié)果進行處理,使得輸出與輸入的維度一致,之后再進行一次殘差連接和層歸一化操作,輸出作為下一次循環(huán)的輸入,循環(huán)N次后;
g、將ALBERT預訓練模型中的CLS向量送入線性層、激活,并采用二分類交叉熵損失函數(shù)進行損失運算,并反向傳播進行模型參數(shù)優(yōu)化,其中,所述損失即loss的運算公式為:
loss=y(tǒng)n·log(xn)+(1-yn)·log(1-xn),
其中,yn是真實標簽,值域為{0,1},xn是模型輸出的樣本為正的概率,值域為(0,1);
h、重復步驟a-g,直到模型訓練完成。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于電子科技大學,未經(jīng)電子科技大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210475512.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 自動化設(shè)備和自動化系統(tǒng)
- 一種基于流程驅(qū)動的測試自動化方法以及測試自動化系統(tǒng)
- 用于工業(yè)自動化設(shè)備認識的系統(tǒng)和方法
- 實現(xiàn)過程自動化服務(wù)的標準化設(shè)計方法學的自動化系統(tǒng)
- 一種日產(chǎn)50萬安時勻漿自動化系統(tǒng)
- 一種自動化肥料生產(chǎn)系統(tǒng)
- 一種電氣自動化設(shè)備自動檢測系統(tǒng)及檢測方法
- 用于自動化應(yīng)用的抽象層
- 一種基于虛擬化架構(gòu)的自動化系統(tǒng)功能驗證方法
- 自動化測試框架自動測試的實現(xiàn)技術(shù)





