[發明專利]一種酒店特色點評抽取的方法有效
| 申請號: | 201710301052.6 | 申請日: | 2017-05-02 |
| 公開(公告)號: | CN107122471B | 公開(公告)日: | 2020-07-10 |
| 發明(設計)人: | 張猛;張獻濤;林小俊 | 申請(專利權)人: | 北京眾薈信息技術股份有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/951;G06F16/9532;G06F40/284;G06Q50/12 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100088 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 酒店 特色 點評 抽取 方法 | ||
1.一種酒店特色點評抽取的方法,其步驟為:
1)獲取目標酒店的評論數據;并對所述評論數據進行分詞處理;
2)對分詞處理后的評論數據進行情感傾向性檢測,選取若干有情感的評論數據;
3)對于每一所選評論數據,提取該評論數據中的特征詞并記錄每一特征詞在該評論數據中出現的頻率;
4)根據評論數據的長度、評論數據的特征詞及其頻率,計算該評論數據的特色分值;
5)根據評論數據的特色分值選取若干評論數據作為該目標酒店的特色點評;
其中,計算所述特色分值的方法為:
31)選擇若干條特色點評數據,并生成各特色點評數據對應的四元組;
32)對各特色點評數據對應的四元組的每個維度分別加和求平均值,得到一四元組并根據該四元組生成一特色向量
33)根據每一所述評論數據的四元組生成該評論數據的點評向量然后計算各評論數據的點評向量與特色向量的相似度作為對應評論數據的所述特色分值;或者,計算所述特色分值的方法為:
根據評論數據的長度對所述四元組進行過濾,得備選集合S;對于集合S中的每個四元組生成一點評向量然后對各評論數據的點評向量的各維度進行加權求和,得到對應評論數據的所述特色分值;其中,所述四元組中的元素包括:停用詞的頻率、特色詞的頻率、維度詞的頻率和評論數據的長度。
2.如權利要求1所述的方法,其特征在于,所述特征詞包括停用詞、特色詞、維度詞;根據評論數據的長度、評論數據的特征詞及其頻率,生成該評論數據的四元組;然后根據評論數據的四元組計算該評論數據的特色分值。
3.如權利要求1所述的方法,其特征在于,利用公式計算點評向量與特色向量的相似度;其中,點評向量x1,x2,x3,x4分別為點評向量對應四元組中四個元素的值;y1,y2,y3,y4分別為特色向量對應四元組中四個元素的值。
4.如權利要求1所述的方法,其特征在于,使用了特征詞庫提取評論數據中的特征詞;其中,所述特征詞庫包括停用詞庫、特色詞庫和維度詞庫。
5.如權利要求1至4任一所述的方法,其特征在于,對所述評論數據進行分詞處理的方法為:首先對所述評論數據進行斷句;然后采用基于詞典的最大匹配分詞方法進行分詞,針對分詞有歧義的部分采用序列標注的分詞方法得到正確的分詞結果;其中,所述序列標注的分詞方法將詞的切分問題轉換為字的分類問題,根據每個字在詞中的不同位置,賦予不同的位置類別標記,基于該類別標記序列確定句子的切分方式。
6.如權利要求1至4任一所述的方法,其特征在于,選取若干有情感的評論數據的方法為:首先選取若干出現維度詞或情感詞的評論數據作為候選評論數據,然后采用LSTM模型對候選評論數據的極性進行判別,得到候選評論數據的情感傾向性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京眾薈信息技術股份有限公司,未經北京眾薈信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710301052.6/1.html,轉載請聲明來源鉆瓜專利網。





