[發(fā)明專利]基于滑動窗口技術(shù)的細粒度主題提取方法在審
| 申請?zhí)枺?/td> | 201810485599.0 | 申請日: | 2018-05-18 |
| 公開(公告)號: | CN108763390A | 公開(公告)日: | 2018-11-06 |
| 發(fā)明(設計)人: | 徐文慶;孟鵬;陳曉峰;肖果;黃泰文;金正明 | 申請(專利權(quán))人: | 浙江新能量科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/06 |
| 代理公司: | 杭州杭誠專利事務所有限公司 33109 | 代理人: | 王江成;韓斐 |
| 地址: | 310011 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 滑動窗口 局部主題 主題提取 細粒度 概率 全局 聯(lián)合概率分布 條件概率分布 選擇概率 采樣 構(gòu)建 集合 歸屬 評論 | ||
本發(fā)明涉及基于滑動窗口技術(shù)的細粒度主題提取方法,解決了現(xiàn)有技術(shù)的不足,技術(shù)方案為:步驟S1,把評論作為滑動窗口的集合;步驟S2,計算采樣詞的主題歸屬于全局主題或是局部主題以及所屬窗口的條件概率分布;步驟S3,構(gòu)建關(guān)于滑動窗口、全部主題或局部主題的聯(lián)合概率分布函數(shù);步驟S4,分別計算詞wd,n選擇的概率,滑動窗口v選擇的概率,全局主題z的選擇概率,以及局部主題z選擇的概率;步驟S5,根據(jù)步驟S4的計算結(jié)果將大于設定值的全局主題和局部主題提取并顯示。
技術(shù)領(lǐng)域
本發(fā)明涉及電子商務平臺的評論數(shù)據(jù)主題抽取,具體涉及一種電子商務平臺的基于滑動窗口技術(shù)的細粒度主題提取方法。
背景技術(shù)
隨著移動互聯(lián)網(wǎng)和電子商務技術(shù)的發(fā)展,各種類型的購物網(wǎng)站層次不窮,極大的方便了消費者的生活。但是由于線上購物不同于線下實體店購物,消費者無法感知產(chǎn)品質(zhì)量、切身體驗商品。與此同時,電子商務網(wǎng)站上出現(xiàn)了海量的產(chǎn)品在線評論,隨著網(wǎng)購群體數(shù)量的迅猛增長,產(chǎn)品評論數(shù)據(jù)呈現(xiàn)爆發(fā)式增長,這些評論數(shù)據(jù)存在著巨大的商業(yè)價值。一方面,消費者在進行購物決策時,可以把這些評論內(nèi)容作為參考,更加深入的了解所關(guān)注的產(chǎn)品,以做出更好的購物決策,另一方面,商家或者行業(yè)組織等可以通過挖掘消費者反饋的評論內(nèi)容。類似的專利百度騰訊等都已有所申請,在此不做具體展開。
然而,目前現(xiàn)有針對主題抽取的方法有基于人工定義的方法、基于頻率的方法以及基于有監(jiān)督學習方法。但是,隨著海量數(shù)據(jù)的增長,這些方法在進行主題抽取都存在著一定的局限性。例如,基于人工定義的方法時間和人力成本較大,且針對不同領(lǐng)域定義時,需要不同領(lǐng)域內(nèi)的專家參與特征詞定義,適應力較差;基于頻率的方法存在著無法將相關(guān)特征詞進行聚類等問題。因此,基于滑動窗口技術(shù)的細粒度主題抽取方法研究是十分有必要的。
發(fā)明內(nèi)容
本發(fā)明的目的在于解決上述現(xiàn)有技術(shù)缺少一種除了滿足消費者從整體上感知產(chǎn)品或服務的好壞,還能讓消費者具體感知到自己所想了解到某個方面的具體評價信息,做出理性的消費決策,對商家來說,通過消費者評論內(nèi)容了解產(chǎn)品或服務存在的缺點以及消費者的偏好,從而改進產(chǎn)品設計,優(yōu)化服務,做出更好的營銷方案的問題,提供了一種電子商務平臺的基于滑動窗口技術(shù)的細粒度主題抽取方法。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:基于滑動窗口技術(shù)的細粒度主題提取方法,包括以下步驟:
步驟S1,把評論作為滑動窗口的集合;
步驟S2,計算采樣詞的主題歸屬于全局主題或是局部主題以及所屬窗口的條件概率分布;
步驟S3,構(gòu)建關(guān)于滑動窗口、全部主題或局部主題的聯(lián)合概率分布函數(shù);
步驟S4,分別計算詞wd.n選擇的概率,滑動窗口v選擇的概率,全局主題z的選擇概率,以及局部主題z選擇的概率;
步驟S5,根據(jù)步驟S4的計算結(jié)果將大于設定值的全局主題和局部主題提取并顯示。
本發(fā)明主要是采用滑動窗口技術(shù)對電商產(chǎn)品評論數(shù)據(jù)的細粒度主題進行提取,本發(fā)明是將詞共現(xiàn)信息從文級變?yōu)榫渥蛹墸瑢讉€句子組成一個滑動窗口,評論文檔中的主題詞從滑動窗口中提取,其中主題主要分為全局主題和局部主題。全局主題指的是由主題模型識別出的某一具體類型的被評價實體,如手機的品牌;局部主題指的是某一具體類型的被評價實體的某一方面,表示主題粒度更細,如手機的屏幕。由于目前的方法都沒有將主題分為細粒度的全局主題和局部主題,導致在提取局部主題時存在著一定的局限性。因此,本文為了進行細粒度的主題,采用了基于滑動窗口技術(shù),把評論作為滑動窗口的集合。假設每一個評論都包含S個句子,則可以選取其中T個相鄰的句子組成一個滑動窗口。假設設文檔d中每一個滑動窗口v上分別有兩種分布:第一是在局部主題上的分布;第二是在主題選擇(選擇全局主題或局部主題)分布,則詞可從包含它的句子s的任一滑動窗口抽樣,窗口根據(jù)主題分類分布選擇。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江新能量科技股份有限公司,未經(jīng)浙江新能量科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810485599.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





