[發明專利]基于搜索的無詞邊界標記語言的分詞方法以及裝置無效
| 申請號: | 200710086030.9 | 申請日: | 2007-03-07 |
| 公開(公告)號: | CN101261623A | 公開(公告)日: | 2008-09-10 |
| 發明(設計)人: | 王欣靖;秦勇;劉文 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京市金杜律師事務所 | 代理人: | 馮譜 |
| 地址: | 美國紐*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 搜索 邊界 標記 語言 分詞 方法 以及 裝置 | ||
1.?一種基于搜索的用于無詞邊界標記語言文本的分詞方法,包括:
a.將包括至少一個片段的該文本的一個片段提供給至少一個搜索引擎;
b.通過該至少一個搜索引擎對該一個片段進行搜索,并返回搜索結果;
c.根據返回的搜索結果的至少一部分選取該一個片段的分詞方式。
2.?根據權利要求1的方法,所述返回的搜索結果的至少一部分是排名靠前的部分。
3.?根據權利要求1的方法,在步驟c中,從所述返回的搜索結果的至少一部分中提取該一個片段的所有出現的候選分詞單元,對提取的候選分詞單元進行評分,根據該評分,對提取的候選分詞單元的子集排名,所述每個子集中的候選分詞單元按順序形成該一個片段,選取排名最高子集作為該一個片段的分詞方式。
4.?根據權利要求3的方法,從提取的候選分詞單元中濾除無效的候選分詞單元,該無效的候選分詞單元是單字符和未出現在該一個片段中的分詞單元之一。
5.?根據權利要求3的方法,對被評分的候選分詞單元的評分方式是基于頻率的方式,在所述搜索結果的一部分中,統計被評分的候選分詞單元出現次數與所有候選分詞單元出現的總次數的比值,作為被評分的候選分詞單元的分值。
6.?根據權利要求3的方法,對被評分的候選分詞單元的評分方式是基于支持向量機SVM的方式,利用SVM分類器或SVM回歸模型對每個候選分詞單元評分,為訓練SVM分類器或SVM回歸模型,將作為數據點的候選分詞單元表示為一個特征向量。
7.?根據權利要求6的方法,對每個候選分詞單元提取的特征包括以下特征之一或其組合:候選分詞單元中字的數量;平均出現率,即候選分詞單元出現的次數,除以搜索引擎返回的結果中的文檔數量;文擋頻率,即對于候選分詞單元,多少個搜索結果包含它。
8.?根據權利要求5或6的方法,將其中候選分詞單元的平均分值最高的候選分詞單元子集作為該一個片段的選取的分詞方式。
9.?根據權利要求3的方法,在返回的搜索結果中提取的候選分詞單元是提取返回的摘錄中的高亮短語。
10.?根據權利要求3的方法,當該搜索引擎為自有搜索引擎時,利用索引表提供的信息,查看術語在文檔中的位置的相鄰性來得到分詞單元。
11.?一種基于搜索的用于無詞邊界標記語言文本的分詞裝置,包括:
至少一個搜索引擎,接收包括至少一個片段的該文本的一個片段,該至少一個搜索引擎對該一個片段在搜索網絡中進行搜索,并返回搜索結果;
分詞結果生成裝置,根據該至少一個搜索引擎返回的搜索結果的至少一部分選取該一個片段的分詞方式。
12.?根據權利要求11的裝置,所述至少一個搜索引擎返回的搜索結果的至少一部分是排名靠前的部分。
13.?根據權利要求11的裝置,該分詞結果生成裝置從所述返回的搜索結果的至少一部分中提取該一個片段的所有出現的候選分詞單元,對提取的候選分詞單元進行評分,根據該評分,對提取的候選分詞單元的子集排名,所述每個子集中的候選分詞單元按順序形成該一個片段,選取排名最高子集作為該一個片段的分詞方式。
14.?根據權利要求13的裝置,該分詞結果生成裝置從提取的候選分詞單元中濾除無效的候選分詞單元,該無效的候選分詞單元是單字符和未出現在該一個片段中的分詞單元之一。
15.?根據權利要求13的裝置,該分詞結果生成裝置對被評分的候選分詞單元的評分方式是基于頻率的方式,在所述搜索結果的一部分中,統計被評分的候選分詞單元出現次數與所有候選分詞單元出現的總次數的比值,作為被評分的候選分詞單元的分值。
16.?根據權利要求13的裝置,該分詞結果生成裝置對被評分的候選分詞單元的評分方式是基于支持向量機SVM的方式,該分詞結果生成裝置利用SVM分類器或SVM回歸模型對每個候選分詞單元評分,為訓練SVM分類器或SVM回歸模型,將作為數據點的候選分詞單元表示為一個特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710086030.9/1.html,轉載請聲明來源鉆瓜專利網。





