[發明專利]一種基于BERT的旅游評論意見挖掘方法在審
| 申請號: | 202011544268.3 | 申請日: | 2020-12-24 |
| 公開(公告)號: | CN112597306A | 公開(公告)日: | 2021-04-02 |
| 發明(設計)人: | 江維;蔡玉舒;詹瑾瑜;周星志;溫翔宇;宋子微;孫若旭;范翥峰;廖炘可 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/126;G06F40/242;G06F40/284;G06Q50/14 |
| 代理公司: | 成都虹盛匯泉專利代理有限公司 51268 | 代理人: | 王偉 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bert 旅游 評論 意見 挖掘 方法 | ||
1.一種基于BERT的旅游評論意見挖掘方法,其特征在于,包括以下步驟:
S1、處理輸入的評論文本,將文本轉換為符合條件的token序列;
S2、應用BERT對輸入序列進行層級計算處理,得到編碼后的上下文表示;
S3、將得到的上下文表示輸入指針網絡計算,得到意見詞開始位置和結束位置候選集;
S4、根據分類結果和相對距離對候選集進行配對,得到最終的意見詞位置;
S5、將意見詞和對應的分類結果組合在一起得到完整的類別,意見詞觀點表達。
2.根據權利要求1所述的一種基于BERT的旅游評論意見挖掘方法,其特征在于,所述步驟S1包括以下子步驟:
S11、加載選擇的BERT預訓練模型中提供的vocab,將評論文本轉換成數字token的形式,無法匹配的字用UNK代替,完成初步的tokenizer;
S12、配合BERT訓練的需要,在句子token的前后加上開始和結束標記[CLS]和[SEP];
S13、將句子token按照設定的長度進行截斷和padding,padding的token為0。
3.根據權利要求2所述的一種基于BERT的旅游評論意見挖掘方法,其特征在于,所述步驟S2包括以下子步驟:
S21、將步驟S13得到的句子token作為輸入,通過BERT中的Transformer計算句子的上下文表示。計算公式為:
Hl=Trans(Hl-1);
S22、將最后一層Transformer的輸出作為評論輸入的最終上下文表示H。
4.根據權利要求3所述的一種基于BERT的旅游評論意見挖掘方法,其特征在于,所述步驟S3包括以下子步驟:
S31、構造一個n分類的分類器預測意見詞開始位置,其中n表示預先定義的描述類別。分類計算公式為:
Pstart=softmax(Ws·H)∈Rl×n
其中Ws為計算開始位置的參數矩陣,l表示token的長度;
S32、同樣構造一個n分類的分類器預測意見詞結束的位置,此時的輸入為將句子token和步驟S31中得到的開始位置表示連接起來,表示為H′=(H:Ws·H),分類計算公式為:
Pend=tanh(We·H′)∈Rl×n
H′=(H:Ws·H)
其中We為計算結束位置的參數矩陣。為了降低擬合的難度,分類器之上加入了layernormalization,得到最后的Pend;
S33、Pstart和Pend共同構成了意見詞范圍候選集。
5.根據權利要求4所述的一種基于BERT的旅游評論意見挖掘方法,其特征在于,所述步驟S4包括以下子步驟:
S41、根據步驟S3得到的意見詞范圍候選集,首先遍歷開始位置iy,其中i表示當前token在句子中的位置,y表示意見詞的分類結果。在結束位置候選集中,尋找是否存在分類結果相同,位置在i之后的token,若存在則配對成功,若不存在則配對失敗;
S42、將配對成功的候選意集以分類結果,開始位置,結束位置的形式輸出。
6.根據權利要求5所述的一種基于BERT的旅游評論意見挖掘方法,其特征在于,所述步驟S5包括以下子步驟:
S51、根據步驟S4得到的已配對的開始和結束位置,在原句中找到對應開始和結束位置的片段,作為意見詞/短語;
S52、根據步驟S4得出的分類結果,查詢對應詞典得到類別名稱,完善類別,意見詞二元組,形成完整的觀點表達。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011544268.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種生成云平臺鏡像的方法、裝置、設備及介質
- 下一篇:一種高精度拉拔結構





