[發(fā)明專利]一種交易場所分類方法和裝置在審
| 申請?zhí)枺?/td> | 202010184062.8 | 申請日: | 2020-03-16 |
| 公開(公告)號(hào): | CN111401450A | 公開(公告)日: | 2020-07-10 |
| 發(fā)明(設(shè)計(jì))人: | 邢凱;吳震;賀敏;唐積強(qiáng);徐小磊;王士源;郭富民;劉少杰;董皓;王凡凡;王倩倩;崔鑫宇;劉昕明;杜漫;余智華 | 申請(專利權(quán))人: | 中科天璣數(shù)據(jù)科技股份有限公司;國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心 |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62;G06F40/284;G06Q40/04 |
| 代理公司: | 北京沁優(yōu)知識(shí)產(chǎn)權(quán)代理有限公司 11684 | 代理人: | 王麗君 |
| 地址: | 100000 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 交易 場所 分類 方法 裝置 | ||
1.一種交易場所分類方法,其特征在于,包括步驟:
數(shù)據(jù)采集,接收第一數(shù)據(jù),根據(jù)第一數(shù)據(jù)獲取第二數(shù)據(jù),所述第二數(shù)據(jù)為文本數(shù)據(jù),對所述第二數(shù)據(jù)進(jìn)行標(biāo)記處理,生成第三數(shù)據(jù);
數(shù)據(jù)處理,對所述第三數(shù)據(jù)進(jìn)行第二預(yù)處理,得出第四數(shù)據(jù),將所述第四數(shù)據(jù)進(jìn)行轉(zhuǎn)換,得出第五數(shù)據(jù),根據(jù)所述第五數(shù)據(jù),生成第一模型;
分類模型構(gòu)建,將所述第五數(shù)據(jù)劃分為第一部分和第二部分,將所述第一部分導(dǎo)入第一庫生成第一邊界,將所述第二部分導(dǎo)入驗(yàn)證,得出第二模型;
場所分類,接收場所信息,將所述場所信息進(jìn)行所述第二預(yù)處理得出第一信息,將所述第一信息導(dǎo)入所述第二模型,得出場所類別。
2.根據(jù)權(quán)利要求1所述的交易場所分類方法,其特征在于,所述第一數(shù)據(jù)為網(wǎng)頁地址數(shù)據(jù),所述數(shù)據(jù)采集的步驟還包括:
根據(jù)所述第一數(shù)據(jù),在互聯(lián)網(wǎng)中找到網(wǎng)頁數(shù)據(jù),提取所述網(wǎng)頁數(shù)據(jù),得出第二數(shù)據(jù);
接收類別關(guān)鍵詞數(shù)據(jù),根據(jù)所述類別關(guān)鍵詞數(shù)據(jù)對所述第二數(shù)據(jù)進(jìn)行標(biāo)記,得出第三數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的交易場所分類方法,其特征在于,所述數(shù)據(jù)處理的步驟還包括:
接收所述第三數(shù)據(jù);
對所述第三數(shù)據(jù)進(jìn)行第二預(yù)處理,提取所述第三數(shù)據(jù)中的特征詞,得出第四數(shù)據(jù);
將所述第四數(shù)據(jù)轉(zhuǎn)換為向量數(shù)據(jù),得出所述第五數(shù)據(jù);
將所述第五數(shù)據(jù)的所述向量數(shù)據(jù)在同一空間中體現(xiàn),得出所述第一模型。
4.根據(jù)權(quán)利要求1-3任一種所述的交易場所分類方法,其特征在于,所述第二預(yù)處理的步驟包括:
接收所述第三數(shù)據(jù);
對所述第三數(shù)據(jù)進(jìn)行分詞處理,得出第一關(guān)鍵詞;
提取所述第一關(guān)鍵詞中的無意義詞;
將所述無意義詞從所述第一關(guān)鍵詞中刪除,得出第二關(guān)鍵詞;
對所述第二關(guān)鍵詞進(jìn)行權(quán)重處理,得出所述特征詞。
5.根據(jù)權(quán)利要求4任一種所述的交易場所分類方法,其特征在于:所述權(quán)重處理的步驟包括:
接收權(quán)重系數(shù)閾值參數(shù);
根據(jù)所述第二關(guān)鍵詞的詞頻指數(shù)和文本頻率指數(shù)得出關(guān)鍵詞權(quán)重系數(shù);
判斷所述關(guān)鍵詞權(quán)重系數(shù)是否大于所述權(quán)重系數(shù)閾值參數(shù);
若否,判定所述第二關(guān)鍵詞不為第一特征詞;
若是,判定所述第二關(guān)鍵詞為所述第一特征詞;
接收特征詞數(shù)量參數(shù),設(shè)所述特征詞數(shù)量參數(shù)為β;
判斷所述第一特征詞數(shù)量是否大于β;
若否,所有所述第一特征詞都為特征詞;
若是,將所述第一特征詞根據(jù)所述關(guān)鍵詞權(quán)重系數(shù)進(jìn)行排名,截取前β項(xiàng);
判斷所述第一特征詞是否屬于所述前β項(xiàng);
若否,所述第一特征詞不為特征詞;
若是,所述第一特征詞為特征詞。
6.根據(jù)權(quán)利要求5所述的交易場所分類方法,所述分類模型構(gòu)建的步驟包括:
將所述第五數(shù)據(jù)劃分為第一部分和第二部分,所述第一部分為訓(xùn)練數(shù)據(jù)集,所述第二部分為測試數(shù)據(jù)集;
將所述訓(xùn)練數(shù)據(jù)集導(dǎo)入所述第一庫,根據(jù)第一函數(shù),調(diào)整所述第一函數(shù)的第一系數(shù)得出所述第一邊界;
接收正確率閾值參數(shù);
將所述第二部分導(dǎo)入標(biāo)記有所述第一邊界的第一模型,得出測試正確率;
判斷所述測試正確率是否大于所述正確率閾值參數(shù);
若是,標(biāo)記有所述第一邊界的第一模型即為所述第二模型;
若否,調(diào)整所述第一系數(shù),重新計(jì)劃所述第一邊界。
7.根據(jù)權(quán)利要求6所述的交易場所分類方法,其特征在于,所述第一邊界根據(jù)公式:
y=WtX+b
Wt為權(quán)重向量,t為向量維度,b為平移量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中科天璣數(shù)據(jù)科技股份有限公司;國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心,未經(jīng)中科天璣數(shù)據(jù)科技股份有限公司;國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010184062.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





