[發明專利]一種基于稅務咨詢問題的熱句排序方法有效
| 申請號: | 202011370796.1 | 申請日: | 2020-11-30 |
| 公開(公告)號: | CN112463953B | 公開(公告)日: | 2022-06-17 |
| 發明(設計)人: | 王晶;蘇文強 | 申請(專利權)人: | 杭州孚嘉科技有限公司 |
| 主分類號: | G06F16/338 | 分類號: | G06F16/338;G06F16/33;G06F40/211;G06F40/30 |
| 代理公司: | 浙江杭州金通專利事務所有限公司 33100 | 代理人: | 黃素萍;徐關壽 |
| 地址: | 310000 浙江省杭州市余杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 稅務 咨詢 問題 排序 方法 | ||
本發明涉及一種基于稅務咨詢問題的熱句排序方法。本發明考慮了關鍵詞頻次對熱度的影響,對原始文本進行正則匹配、去停用詞等方法預處理,然后通過統計的詞語的頻次數據建立詞袋模型,并映射詞語得到句子向量。計算出句子向量的模值表示句子的熱度,并通過一個修正參數修正對長短不齊的句子的熱度。通過計算句子兩兩之間的jaccard相似度和詞向量模型的句子向量余弦相似度對數據集去重。并給重復句子給予額外的熱度值獎勵。結合詞語和語義兩個層面的重復程度,最終得到按照熱度排序的文本,更加準確、高效。
技術領域
本發明涉及人工智能的自然語言處理技術領域,更具體的說,它涉及一種基于稅務咨詢問題的熱句排序方法。
背景技術
稅收是國家治理的基礎,在社會經濟生活中發揮著巨大的作用。營改增、電子發票、金稅三期,以及房產稅、各稅等稅制改革的不斷深化,預示著稅務行業正迎來有史以來最輝煌的“互聯網+”時代。
與之伴隨的是,互聯網上稅務問題咨詢的數量日益增長,這給有限稅務客服解決大量的稅務咨詢問題帶來了困難。因此,提取稅務問題的熱點問題,并直接給有相關稅務問題咨詢需求的人提供標準答案可以有效提高稅務問題咨詢應答的效率。
目前基于關鍵詞的熱點提取方法,最后提取出來的都是熱門關鍵詞,這對于表現問題的完整內容是有不足的,可能存在信息缺失的情況。比如,對于稅務問題,僅僅提取出關鍵詞是不夠的,更重要的是意思明確地組合成句。例如同樣是發票問題,如何開具發票和認證發票完全是兩個答案。這就涉及到將打亂的句子按照關聯詞的權重進行重新組合,生成句子向量并對句子進行熱度排序,并將熱度靠前且語義不重復的句子提取出來的問題。
發明內容
本發明克服了現有技術的不足,提供了一種設計簡單、提高效率的一種基于稅務咨詢問題的熱句排序方法。
為了解決上述技術問題,本發明的技術方案如下:
一種基于稅務咨詢問題的熱句排序方法,具體包括如下步驟:
1)獲取初級文本數據集步驟:將由個體或企業提出的中文稅務相關問題作為原始數據,對原始數據進行包括分詞、去停用詞、同義詞替換、正則表達式提取關鍵信息等預處理方法將句子切分成詞語列表,獲得初級文本數據集;
2)句子向量步驟:統計步驟1)統計初級文本數據集中的詞頻,構建詞袋模型,將詞語轉化為詞袋模型的詞向量;統計每個詞語在初級文本數據集中的頻數;對每個文本中的該詞向量和頻數加權得到包含每個關鍵詞信息的向量,作為用于計算熱度的句子向量;通過已經預訓練的word2vec模型,把詞語轉化成詞向量模型的詞向量稱為嵌入詞向量,對嵌入詞向量加權TF-IDF值得到用于去重的詞向量模型的句子向量;
3)初步熱點排序步驟:計算出每個詞袋模型句子向量的模作為句子熱度的指標;統計初級文本中序列的平均長度,并將每個序列的長度和平均長度的差值的對數作為一個熱度修正參數,通過該參數修正每個句子熱度;通過對每個句子的熱度逆序排序得到初步熱點排序的數據集;
4)進一步修正熱點排序步驟:先通過計算句子兩兩之間的Jaccard相似度和詞向量模型的詞向量的余弦相似度的綜合結果,對相似句子進行去重;對重復的句子按照重復數的一定比例增大其熱度值;對句子熱度值逆序排序,得到最終熱點問題的排序結果。
進一步的,序列為文本的有效長度,含關鍵詞信息的長度。
本發明相比現有技術優點在于:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州孚嘉科技有限公司,未經杭州孚嘉科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011370796.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種牽引運輸車及物料運輸系統
- 下一篇:用于暗裝式踢腳線安裝的膠條





