[發明專利]一種基于納稅人年報的納稅人稅務交易行為識別方法有效
| 申請號: | 201410389579.5 | 申請日: | 2014-08-08 |
| 公開(公告)號: | CN104156351B | 公開(公告)日: | 2017-04-26 |
| 發明(設計)人: | 劉均;張莎;鄭慶華;張未展;米建紅 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30;G06Q40/00 |
| 代理公司: | 西安通大專利代理有限責任公司61200 | 代理人: | 陸萬壽 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 納稅人 年報 稅務 交易 行為 識別 方法 | ||
1.一種基于納稅人年報的納稅人稅務交易行為識別方法,其特征在于,包括以下步驟:
1)稅務領域觸發詞表的構建:
1.1)抽取納稅人年報訓練文檔的數據中所有句子作為觸發詞構建的輸入數據;
1.2)利用謂語-論元模型解析輸入數據中所有句子以抽取所有句子中的主謂關系二元組SBV(Vsbv,sub)和動賓關系二元組VOB(Vvob,obj),當主謂關系二元組SBV(Vsbv,sub)中的動詞Vsbv和動賓關系二元組VOB(Vvob,obj)中的動詞Vvob相同時,抽取主謂關系二元組SBV(Vsbv,sub)中的動詞Vsbv作為候選觸發詞并生成候選觸發詞集合;其中,sub為主語,obj為賓語;
1.3)使用最大熵模型ME將候選觸發詞集合中的候選觸發詞的詞性分為8類,分別是系動詞VX、助動詞VZ、形式動詞VF、趨向動詞VQ、補動動詞VB、一般動詞VG、名動詞VN以及副動詞VD,然后濾除系動詞VX、助動詞VZ、形式動詞VF、趨向動詞VQ、補動動詞VB以及副動詞VD,形成由一般動詞VG和名動詞VN作為候選觸發詞的過濾后候選觸發詞集合;
1.4)根據過濾后候選觸發詞集合中候選觸發詞在稅務領域術語庫和納稅人年報訓練文檔中的分布情況計算過濾后候選觸發詞集合中所有的候選觸發詞與稅務領域的相關度,其計算公式為:
rel(v)=Freqs(v)/Freqa(v)
其中,rel(v)是候選觸發詞v與稅務領域相關度值,Freqs(v)是候選觸發詞v出現在稅務領域術語庫中的頻率,Freqa(v)是候選觸發詞v出現在納稅人年報訓練文檔中的頻率;
1.5)根據rel(v)的大小對過濾后候選觸發詞集合中所有候選觸發詞進行排序,選取前100個rel(v)所對應的候選觸發詞以形成稅務領域觸發詞表;
2)觸發詞檢測:
2.1)對納稅人年報訓練文檔中觸發詞所在的句子進行人工標注,以標注出所在句子中的觸發詞以及出現的位置;然后對觸發詞所在的句子進行分詞以及詞性標注,判斷分詞結果與人工標注的觸發詞的詞性是否一致,將不一致的觸發詞的詞性人工標注情況進行記錄以生成分詞勘誤表;
2.2)對待檢測的納稅人年報中所有交易行為描述句進行分詞;將所有交易行為描述句的分詞結果與稅務領域觸發詞表中的候選觸發詞進行匹配;匹配成功時,抽取稅務領域觸發詞表中的候選觸發詞作為已知觸發詞,并同時得到其對應的候選交易行為描述句;匹配不成功時,對稅務領域觸發詞表中的候選觸發詞不做任何處理;
2.3)對待檢測的納稅人年報中所有交易行為描述句的分詞結果使用分詞勘誤表進行更新,并使用稅務領域觸發詞表中的候選觸發詞與更新后的每個交易行為描述句的分詞結果分別進行匹配,匹配成功時,抽取稅務領域觸發詞表中的候選觸發詞作為已知觸發詞,并同時得到其對應的候選交易行為描述句;匹配不成功時,對稅務領域觸發詞表中的候選觸發詞不做任何處理;
2.4)計算稅務領域觸發詞表中未被抽取的候選觸發詞v1與已知觸發詞v2的相似度trSim(v1,v2),相似度計算公式為:
trSim(v1,v2)=constructSim(v1,v2)×wordSim(v1,v2)
其中,constructSim(v1,v2)表示未被抽取的候選觸發詞v1與已知觸發詞的構詞結構相似度,wordSim(v1,v2)表示未被抽取的候選觸發詞v1與已知觸發詞基于《知網》的語義相似度;
當時,抽取稅務領域觸發詞表中未被抽取的候選觸發詞v1作為未知觸發詞,并同時得到其對應的候選交易行為描述句,其中,triggerTable為稅務領域觸發詞表,triggerTable.size為稅務領域觸發詞表的大小,α為調節因子;
2.5)依據向量空間模型VSM,使用詞法特征和上下文特征,將已知觸發詞和未知觸發詞對應的候選交易行為描述句轉換為對應的候選交易行為向量;將該候選交易行為向量映射到特征空間并使用svm開源工具liblinear識別交易行為的觸發詞trigger以及對應的交易行為描述句;
3)交易行為句信息識別:
3.1)根據向量空間模型VSM,使用詞法特征和上下文特征,將候選交易行為描述句轉換為對應的候選交易行為向量;將該候選交易行為向量映射到特征空間并使用svm開源工具liblinear識別候選交易行為的類別type;
3.2)根據交易行為的觸發詞trigger對應的交易行為描述句的依存關系,使用句子的詞性、依存樹標簽、依存樹中主謂特征將候選交易行為描述句轉化為多行的特征字符串,使用條件隨機場CRF++標注候選交易行為描述句的各字標簽,從而完成交易行為描述句的交易行為元素{subject,object,time,place}的識別;
4)將識別的交易行為的觸發詞trigger、交易行為的類別type以及交易行為元素{subject,object,time,place}作為納稅人收購、重組、交易、經營四種典型交易行為的結構化六元組信息用以判斷納稅人稅務交易行為。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410389579.5/1.html,轉載請聲明來源鉆瓜專利網。





