[發明專利]智能虛擬斷句實現協同聽打錄入的方法無效

申請號：	200610138392.3	申請日：	2006-11-10
公開（公告）號：	CN101178790A	公開（公告）日：	2008-05-14
發明（設計）人：	胡鵬	申請（專利權）人：	胡鵬
主分類號：	G06Q10/00	分類號：	G06Q10/00;G06F17/21;H04L29/08;G10L15/26
代理公司：	暫無信息	代理人：	暫無信息
地址：	100090北京市海淀區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	智能虛擬斷句實現協同錄入方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明公開了一種在網絡環境下進行多人協同完成從語音到文字轉換的聽打錄入的方法。

背景技術

目前已有的計算機記錄語音的聽打方式主要有三種：一種是傳統的一個人一邊聽一邊打，獨立完成全部聽打任務；一種是將音頻文件錄制下來，然后通過程序或者手工分成以分鐘設置小時計算的大片段，然后交給不同的錄入人員進行聽打，最后通過人工把各大片段文稿拼合到一起完成錄入工作，原理上和第一種是一樣的；第三種是通過將采集音頻實時地分成連續地以秒為單位的小文件，然后將這些小文件傳給不同的人進行錄入，然后通過服務器整合出來完整的文稿。

前兩種方式并不能完成實時的協同工作，而最后一種方式能夠達到，但在大規模應用中，其基于服務器進行文件中轉的方式，會導致服務器傳輸壓力大，帶寬需求高，運營成本高；而且由于因為每個錄入端只有自己錄入的小文件的語音信息，在需要上下文的時候，無法及時調用前后的語音文件進行輔助處理。

發明內容

本發明的目的是提供一種智能虛擬斷句實現協同聽打錄入的方法。

本發明技術方案包括：

步驟1)通過計算機采集語音信號；

步驟2)將語音文件同步傳輸給服務器及各錄入端；

步驟3)通過服務器指派網絡上參與這一錄入任務的任意一臺或多臺計算機進行斷句點運算；

步驟4)接收到斷句計算任務的計算機根據語音間歇的特征計算出斷句點，并將斷句點時碼信息發送給服務器；

步驟5)服務器根據錄入端的請求，組織分配給錄入端錄入任務，并將分配任務的斷句時碼信息作為控制命令發送給相應的錄入端；

步驟6)錄入端根據分配任務的時碼起點和終點錄入指定部分語音對應的文字，并回傳給服務器；

步驟7)服務器將各錄入端的文本根據任務分配計劃的時碼順序拼合出完整的文字內容，完成將語音轉化成文字的聽打錄入工作。

根據上面敘述的流程，所述智能虛擬斷句實現協同聽打錄入的方法，其特征在于所屬步驟2)、步驟3)、步驟4)，即傳輸機制、分布式運算機制和斷句點計算方法。

本方法中步驟2)采用點對點(P2P)的傳輸機制，即負責語音采集的計算機作為信息源，向服務器和錄入端計算機傳輸所采集的語音文件；而參與該聽打錄入任務的服務器和錄入端計算機既是文件的接收端，同時也是已經接受部分文件的服務端，向其它沒有得到該部分文件的計算機傳輸該部分文件。這樣就可以將采集的音頻文件實時傳輸給服務器和參與該項工作的每個錄入端計算機。

本方法的步驟3)中服務器將根據各錄入端啟動登錄時運行的一個小測試程序發給服務器的系統綜合性能參數，來指定其中一臺或多臺計算機來完成斷句點的計算任務，參與計算斷句點的計算機不僅包括各錄入端計算機，也包括服務器本身。

本方法中步驟4)計算斷句點的方法的典型步驟如下：

步驟10)取語音文件的前10秒讀入緩沖區；

步驟20)根據這10秒音頻文件的波形數據，找到波形峰值中最高的前10個；

步驟30)如果這10個峰值中有5個以上等于0，判斷為靜音片段，以這段音頻文件的終點為斷句點；

步驟40)記錄下這個斷句點；

步驟50)從語音文件斷句點之后再取10秒讀入緩沖區；

步驟60)如果未處理的語音文件還大于10秒，重復執行步驟20)；如果已經不足10秒，跳轉到步驟70)。

步驟70)直接以終點為斷句點，流程結束

步驟80)如果該10個峰值中有5個以上不等于0，以這10個峰值的算數平均值的10％做為降噪基值，對這10秒音頻文件進行強制降噪處理；

步驟90)判斷降噪后是否出現值等于0的區域，即靜音片段；

步驟100)如果沒有靜音片段，返回步驟60)再次進行強制降噪處理。