[發(fā)明專利]語種識別方法在審
| 申請?zhí)枺?/td> | 202010891340.3 | 申請日: | 2020-08-30 |
| 公開(公告)號: | CN112016308A | 公開(公告)日: | 2020-12-01 |
| 發(fā)明(設(shè)計)人: | 崔煒 | 申請(專利權(quán))人: | 上海松鼠課堂人工智能科技有限公司 |
| 主分類號: | G06F40/263 | 分類號: | G06F40/263;G06F40/216 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200237 上海市徐*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語種 識別 方法 | ||
1.一種語種識別方法,其特征在于,所述語種識別方法包括:
接收輸入的需進行語種識別的待識別語種信息;
根據(jù)接收的所述待識別語種信息,統(tǒng)計并獲取所述待識別語種信息中包含的詞語在對應(yīng)語種中的出現(xiàn)頻率和排行信息;
根據(jù)所述出現(xiàn)頻率和排行信息,計算所述待識別語種信息為對應(yīng)語種的語種概率;
根據(jù)計算得到的所述語種概率,確定所述待識別語種信息對應(yīng)的語種。
2.如權(quán)利要求1所述的語種識別方法,其特征在于,所述根據(jù)接收的所述待識別語種信息,統(tǒng)計并獲取所述待識別語種信息中包含的詞語在對應(yīng)語種中的出現(xiàn)頻率和排行信息,包括:
根據(jù)接收到的所述待識別語種信息,統(tǒng)計所述待識別語種信息中各詞語的出現(xiàn)頻率;
根據(jù)所述詞語對應(yīng)的所述出現(xiàn)頻率,按照所述出現(xiàn)頻率對所述詞語進行排序,得到每一個詞語對應(yīng)的所述出現(xiàn)頻率在所述待識別語種信息中出現(xiàn)次數(shù)的排列順序所對應(yīng)的排行信息;
其中,將所述出現(xiàn)頻率和排行信息分別記為f(m)和r(m),m表示所述待識別語種信息中的詞語的序號,m取值為1、2、3,…,M,M為所述詞語的序號對應(yīng)的最大值,m為1時表示第一個詞語,m為2時表示第二個詞語,m取值M時表示第M個詞語。
3.如權(quán)利要求2所述的語種識別方法,其特征在于,所述根據(jù)所述出現(xiàn)頻率和排行信息,計算所述待識別語種信息為對應(yīng)語種的語種概率,包括:
根據(jù)已知語種的語種數(shù)據(jù),統(tǒng)計并記錄所述待識別語種信息中各詞語在對應(yīng)的已知語種中出現(xiàn)的已知頻率和已知排序;
根據(jù)所述出現(xiàn)頻率和排行信息,并結(jié)合所述已知頻率和已知排序,計算得到所述待識別語種信息為對應(yīng)語種的語種概率。
4.如權(quán)利要求3所述的語種識別方法,其特征在于,所述根據(jù)已知語種的語種數(shù)據(jù),統(tǒng)計并記錄待識別語種信息中各詞語在對應(yīng)的已知語種中出現(xiàn)的已知頻率和已知排序,包括:
收集已知語種的語種數(shù)據(jù),得到每個語種分別對應(yīng)的已知語種數(shù)據(jù)庫;其中,yi表示語種,i取1,2,…,Y;y1表示第一個語種,y2表示第二個語種,以此類推;Y表示所述已知語種數(shù)據(jù)庫中語種編號對應(yīng)的最大值;
基于所述已知語種數(shù)據(jù)庫,統(tǒng)計并記錄所述待識別語種信息中包含的第m個詞語cm在對應(yīng)的第i個已知語種yi中出現(xiàn)的已知頻率f(yi,cm)和已知排序r(yi,cm);其中,m取1,2,…,M;f(yi,cm)表示第m個詞語cm在語種i中對應(yīng)出現(xiàn)的已知頻率,r(yi,cm)表示所述第m個詞語cm在語種i中出現(xiàn)頻率的排列順序?qū)?yīng)的已知排序。
5.如權(quán)利要求4所述的語種識別方法,其特征在于,所述根據(jù)所述出現(xiàn)頻率和排行信息,并結(jié)合所述已知頻率和已知排序,計算所述待識別語種信息為對應(yīng)語種的語種概率,包括:
獲取所述第m個詞語cm在不同語種i中的出現(xiàn)頻率f(yi,cm)及排行信息r(yi,cm);
根據(jù)所述出現(xiàn)頻率f(m)和排行信息r(m),以及所述出現(xiàn)頻率f(yi,cm)及排行信息r(yi,cm),計算所述待識別語種信息與語種i的頻率特征距離以及排行特征距離;
根據(jù)計算得到的所述頻率特征距離以及排行特征距離,計算得到所述待識別語種信息為語種i的語種概率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海松鼠課堂人工智能科技有限公司,未經(jīng)上海松鼠課堂人工智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010891340.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





