[發(fā)明專利]用于提取新復合詞的系統和方法無效
| 申請?zhí)枺?/td> | 200710088125.4 | 申請日: | 2007-03-15 |
| 公開(公告)號: | CN101093504A | 公開(公告)日: | 2007-12-26 |
| 發(fā)明(設計)人: | 村上明子;渡邊日出雄 | 申請(專利權)人: | 國際商業(yè)機器公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 | 代理人: | 李德山 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 提取 復合詞 系統 方法 | ||
1.一種用于從多個文本提取復合詞的系統,所述系統包括:
獲得部件,其作為分析多個第一文本的結果而獲得復合詞候選;
計算部件,其從多個第二文本的每個中,搜索所述復合詞候選中包含的每個單詞,并且計算每個單詞在第二文本中的出現頻率;
選擇部件,其基于在時序數據中各單詞的出現頻率變化是否彼此同步,選擇是否將所述復合詞候選提取為復合詞,所述時序數據分別表示按照第二文本的公開時間的順序排列的每個單詞的出現頻率。
2.根據權利要求1的系統,其中,
選擇部件基于在各表示每個單詞出現頻率的時序數據中,在多個復合詞候選的每個復合詞候選中包含的各單詞的出現頻率變化是否彼此同步,來計算每個復合詞候選的評分,其中,所述評分表示用于確定是否將該復合詞候選提取為復合詞的水平,以及
選擇部件根據各復合詞候選的評分,將復合詞候選選擇為復合詞。
3.根據權利要求1的系統,其中,在復合詞候選包含預先指定的單詞的情況下,在該預先指定的單詞的出現頻率的變化與該復合詞候選中包含的不同單詞的出現頻率的變化相同步的條件下,選擇部件將該復合詞候選選擇作為復合詞。
4.根據權利要求1的系統,其中,在復合詞候選包含出現頻率在預定上限之下和預定下限之上的范圍內變化的中間頻率單詞的情況下,在該中間頻率單詞的出現頻率的變化與該復合詞候選中包含的不同單詞的出現頻率的變化相同步的條件下,選擇部件將該復合詞候選選擇作為復合詞。
5.根據權利要求4的系統,其中,在該中間頻率單詞與包含在該復合詞候選中的不同單詞具有該中間頻率單詞被該不同單詞修飾的關系的情況下,在該中間頻率單詞的出現頻率的變化與該復合詞候選中包含的該不同單詞的出現頻率的變化相同步的條件下,選擇部件將該復合詞候選選擇作為復合詞。
6.根據權利要求1的系統,其中,
在包含在復合詞候選中的多個單詞均未預先指定,并且中間頻率單詞具有在預定上限之下和預定下限之上的范圍內變化的出現頻率的條件下,
計算部件在該多個第二文本的每個第二文本中搜索該復合詞候選,并且還計算該復合詞候選在每個第二文本中的出現頻率,以及
基于在各表示按照第二文本的公開時間的順序排列的復合詞候選出現頻率的時序數據中復合詞候選出現頻率變化是否與在表示按照第二文本的公開時間的順序排列的單詞出現頻率的時序數據中各單詞的每個的出現頻率的變化彼此同步,選擇部件選擇是否將該復合詞候選提取為復合詞。
7.根據權利要求1的系統,其中,
選擇部件將關于每個單詞的時序數據劃分成均對應于一定時間段的多個數據段,
通過使用各單詞的所劃分的數據段,選擇部件計算出在該一定時間段中各單詞的出現頻率的變化,并且
選擇部件基于在該一定時間段中相應單詞的各出現頻率的變化是否彼此同步,選擇是否將該復合詞候選提取為復合詞。
8.根據權利要求1的系統,還包括文本檢索設備,所述文本檢索設備包括:
存儲部件,其預先從供檢索的多個目標第三文本中檢索出包含預先設置的多個標題詞的第三文本,并且在其中與每個標題詞相關聯地存儲所述第三文本;
輸入部件,其接收用于檢索第三文本的關鍵詞的輸入;和
檢索部件,其在輸入關鍵詞為任何所述標題詞的條件下,不是執(zhí)行從供檢索的目標第三文本中檢索包含該關鍵詞的第三文本的處理,而是從存儲部件中讀出與每個標題詞相關聯的第三文本,
在所述系統中,選擇部件設置所選復合詞作為任何所述標題詞,并且使文本檢索設備預先檢索包含該復合詞的第三文本,并將該第三文本存儲在存儲部件中。
9.根據權利要求1的系統,還包括:
輸出部件,其將由選擇部件選擇作為多個標題詞中的任何標題詞的復合詞輸出到文本檢索設備,所述文本檢索設備包括:
存儲部件,其預先從供檢索的多個目標第三文本中檢索出包含預先設置的標題詞的第三文本,并且在其中與每個所述標題詞相關聯地存儲所述第三文本;
輸入部件,其接收用于檢索第三文本的關鍵詞的輸入;和
檢索部件,其在輸入關鍵詞為任何所述標題詞的條件下,不是執(zhí)行從供檢索的目標第三文本檢索包含該關鍵詞的第三文本的處理,而是從存儲部件讀出與每個所述標題詞相關聯的第三文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業(yè)機器公司,未經國際商業(yè)機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710088125.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:可加工的填充固化性鹵化異烯烴彈性體
- 下一篇:磁性多層膜的制造方法





