<ul id="aaoko"></ul>
<strike id="aaoko"><s id="aaoko"></s></strike>
<strike id="aaoko"></strike>

語音技術

2012年01月13日    點擊數: 19811    字體:           一鍵關注匯訊


    1.1 語音壓縮與傳輸
語音壓縮技術指的是對原始數字音頻信號流(PCM編碼) 運用適當的數字信號處理技術,在不損失有用信息量,或所引入損失可忽略的條件下,壓縮信號編碼速率,也稱為壓縮編碼。以生成適合傳輸的數字信號流,提高傳輸效率。對語音編碼技術中語音質量的評價主要分為兩類,客觀評定方法和主觀評定方法。其中客觀評定方法用客觀測量的手段來評價語音編碼的質量,其特點是計算簡單,但不能完全反映人對語音質量的感覺。主觀評定方法符合人類聽話時對語音質量的感覺,因而得到廣泛應用。最主要的主觀評定方法是主觀評定等(Subjective Opinion Scale) ,或稱平均評定得分(MOS Mean Opinion Score) 。MOS 得分采用五級評分標準,下表給出主觀評定等級的質量等級、分數和相應的收聽注意力等級。


 
  1G. 711 脈沖編碼調制( PCM)
PCM(Pulse Code Modulation) 編碼的方法是對模擬語音信號進行采樣,然后對每個樣值進行量化和編碼。ITU2T 的64kbit/ s 語音編碼標準G. 711 采用PCM編碼方式,采樣速率為8kHz ,每個樣值用8bit非線性的μ律或A 律進行編碼,總速率為64kbit/ s ,
主要用于公共電話網中。
2ADPCM( G. 721  G. 723  G. 726)
ADPCM(Adaptive Differential Pulse Code Modula2tion) 編碼的方法是對輸入樣值行自適應預測,然后對預測誤差進行量化編碼。ADPCM 算法量化值是該點的幅值與前一個采樣點幅值之差。這樣,每個采樣點的量化位就不需要16 bit ,由此可減少信號的容量。可選的幅度差的量化比特位為8bit 、4bit 和2bit ,一般采用4bit 量化位。1984 年CCITT(現ITU2T) 公布了G. 721 的32kbit/ s 語音編碼標準,之后在G. 723 建議中將編碼的速率擴充到40kbit/ s 和24kbit/ s ,又在G. 726 建議中擴充編碼速率到16kbit/s ,形成了從16kbit/ s 至40kbit/ s 的一套完整的AD2PCM算法標準。
3SBC 技術( G. 722  SB2ADPCM)
SBC(子帶編碼) 的方法是首先對輸入信號分割成幾個不同的頻帶分量(每個分量為一個子帶) ,然后分別進行編碼。這種方式可以對不同子帶合理分配比特數,分別控制各子帶的量化電平數以及重建信號的量化誤差,使誤差譜的形狀適應人耳聽覺特征,獲得更好的聽覺質量,其次各子帶中的量化噪聲相互獨立避免了電平較低的子帶信號被其它子帶的量化噪聲淹沒,可大大提高語音質量。1986 年ITU2T 通過了7KHZ 寬帶語音壓縮編碼標準G. 722 采用帶加ADPCM算法,其濾波器組將輸入信號分成高低兩個子帶信號,然后分別使用ADPCM進行編碼。G. 722 能將224kbPs 的調幅廣播質量的音頻信號壓縮為64kbPs ,主要用于視聽多媒體和會議電視等。
 4CELP 技術( G. 728 LD CELP  G. 729/ G.729A  CS2ACELP)
CELP(Code Excited Linear Prediction ,碼本激勵線性預測編碼) 是近年來最成功的語音編碼算法之一,該算法將矢量量化碼本中每個存儲的碼字作為不同的激勵信號源。在編碼時對碼本中的碼逐個搜索,找到與輸入語音誤差最小的合成語音的激勵碼矢量。將該矢量的標號傳送給收端,在接收端用存儲的同樣的碼本根據收到的標號恢復出相應的碼矢量作為激勵,來恢復語音。CELP 在4. 8216kbPs 范圍內可獲得質量相當高的合成語音,并且抗噪聲和多次轉接性能也很好。目前CELP 已經被許多語音編碼標準所采用,美國聯邦標準FS1016 就是采用CELP的編碼方法,主要用于高質量的窄帶語音保密通信。LD2CELP(低延遲碼激勵線性預測編碼) 是高度優化的16kbitPsCELP 算法,它與CELP 一樣利用合成分析法進行碼本搜索,不同之處在于LD2CELP 利用后向自適應預測技術對短時譜包絡和增益進行預測,同時只發送激勵矢量的標號,可降低算法延時。國際電信聯盟將該方式選作16kbitPs 速率下的標準方式,即G. 728 語音壓縮標準。CS2ACELP(共軛結構碼激勵線性預測) 在標準PCM或線性PCM 的話音采樣基礎上,每10ms 生成一個10 字節長的話音幀。重建語音質量在無誤碼和隨機誤碼BER < 10 - 3 兩種情況下,其話音質量不低于同樣情況下的32k ADPCM,單次編解碼時延小于32ms ,帶內能傳DTMF 信號。這個算法提供了優秀音質,且延時很小。1995 年11 月ITU 批準了8kbPsd 的G. 729 話音壓縮算法標準。該標準在1996 年又得到了進一步的優化改進。現在G. 729 是最重要的話音壓縮標準,也是IP 電話系統中的必選語音編碼算法之一。
5G. 723PG. 723. 1MP2MLQ
G. 723. 1 是雙速率語音編碼算法,它是ITU2T建議的應用于低速率多媒體服務中語音或其它音頻信號的壓縮算法,其目標應用系統包括H. 323、H.324 等多媒體通信系統。G. 723. 1 壓縮率約為6.4KbPs ,是低速VOIP 的默認壓縮標準。G. 723. 1 編碼器首先對語音信號進行傳統電話__
    1.2.2 音質保證技術
衡量語音質量的四個重要因素是延時、丟包、抖動、和沿切割。
回聲消除
     (1)周圍環境的處理
    分析聲學回聲的產生的機理,可以知道:聲學回聲最簡單的控制方法是改善揚聲器的周圍環境,盡量減少揚聲器播放聲音的反射。例如,可以在周圍的墻壁上附加一層吸音材料,或增加一層襯墊以增加散射,理想的周圍環境是其回響時間或RT-60(聲音衰減60dB所需要的時間)在300ms~600ms之間。因為這樣的環境一方面可以控制反射,又可以不會使講話者感到不適。改善環境可以有效地抑制間接聲學回聲,但對直接聲學回聲卻無能為力。
    (2)回聲抑制器回聲抑制器是使用較早的一種回聲控制方法。回聲抑制器是一種非線性的回聲消除。它通過簡單的比較器將接收到準備由揚聲器播放的聲音與當前話筒拾取的聲音的電平進行比較。如果前者高于某個閾值,那么就允許傳至揚聲器,而且話筒被關閉,以阻止它拾取揚聲器播放的聲音而引起遠端回聲。如果話筒拾取的聲音電平高于某全閾值,揚聲器被禁止,以達到消除回聲的目的。由于回聲抑制是一種非線性的回聲控制方法,會引起揚聲器播放的不連續。影響回聲消除的效果,隨著高性能的回聲消除器的出現,回聲抑制器已很少人使用了。
    (3)聲學回聲消除器聲學回聲消除的另一方法是使用聲學回聲消除器(AEC:AcousticEcho Chancellor),AEC是對揚聲器信號與由它產生的多路徑回聲的相關性為基礎,建立遠端信號的語音模型,利用它對回聲進行估計,并不斷地修改濾波器的系數,使得估計值更加逼近真實的回聲。然后,將回聲估計值從話筒的輸入信號中減去,從而達到消除回聲的目的,AEC還將話筒的輸入與揚聲器過去的值相比較,從而消除延長延遲的多次反射的聲學回聲。根椐存儲器存放的過去的揚聲器的輸出值的多少,AEC可以消除各種延遲的回聲。

丟包補償
語音實時傳輸中的丟包恢復技術按照連接關系可以劃分為兩個大類:基于發送端的修復和基于接收端的修復。 
    一、基于發送端的修復技術
    基于發送端的丟包恢復由發送端發起,并需要發送端和接收端協同進行。

   1、增加冗余度
    最簡單的方法,是讓每個數據包除了自身數據之外還包含前k個包的數據備份。為了盡量降低冗余度,當前分組所包含的前k個分組的冗余數據可以用一個碼率更低的編碼器產生。增加數據的冗余度可以提高系統的容錯能力,但是同時增加了帶寬。這種方式與語音編碼方式無關,只是在分組時針對這些語音數據作了冗余數據備份。

    2、分類處理
    為了在收端更好地采用波形替換技術,發端可以根據語音信號的特性分類處理,具體做法是對于濁音信號先估算其基音周期L,然后把兩段長度為L的波形封裝到一個分組內。對于非濁音信號(包括清音、噪聲和靜音)則全部封裝到一個分組內。即用小數據包傳送濁音信號,用大數據包傳送其它信號。這種方式與語音編碼方式有關,主要對語音的內容分類,區分有用信息和無用信息,然后對這些信息分別編碼,分組采用自適應策略;一旦分組丟失,接收端可根據收到的分組來推測丟失的分組所含信號的類型并采取相應的策略。

    3、前向糾錯
    信道編碼用前向糾錯(FEC)碼來恢復在傳輸中發生差錯的比特,現在人們把FEC應用到語音分組傳輸中來恢復丟失的數據分組,有多種FEC碼可用于此目的。最簡單的是奇偶校驗碼,其基本原理是為每k個信息分組加入一個奇偶校驗分組,奇偶校驗分組的數據由k個信息分組的相應比特的校驗比特組成。這種方式與具體的語音編碼方式無關,主要在分組時增加對分組的校驗位信息。

    4、交織
    當語音信號發生大段的突發缺失,各種差錯掩蓋方法的效果就會大大降低,許多方法甚至無法工作,而突發的連續丟包是在Intemet上遇到的典型現象。為了最大限度地發揮這些差錯掩蓋技術,可以采用交織技術打亂數據的發送順序,把大段的突發連續語音丟失轉化為隨機的小段丟失。這種方式與具體的語音編碼方式無關,也與分組的編碼方式無關,主要是對編碼后的數據重新組織,但采用交織方法會給系統帶來很大的時延。

    5、優先級設置
    優先級設置方法是指發端依據某個準則為不同的語音分組設置不同的優先級,如依據語音的能量、與前一個分組的相似度、語音信號的平穩特性或者當前分組能否用前一個分組較好地預測等。當網絡發生阻塞時,網絡保留高優先級的分組,丟棄低優先級的分組。這種方式與語音的編碼方式有關,因為需要了解語音信息的優先級,這種技術需要網絡支持并按優先級傳輸分組,否則無法實現。

    二、基于接收端的修復技術
    基于收端的修復技術不需要發端的參與,本質上是對接收到的數據通過一系列的方法來估計丟失的數據,并根據人的生理特點進行優化,基本上是一種被動的修補,通常比較容易實現且不增加帶寬需求。

    1、插入方式
    插人是指用固定的波形來填補缺口,這種固定的波形與缺口處的實際波形是不相關的。這類技術包括接合、靜音和噪聲替代等方法。接合技術是最簡單的方法,它會擾亂系統的定時關系,對聽覺效果的改善也不大。靜音替代的適用范圍非常有限,當數據包的丟失頻率很低(小于2%)且缺口寬度小于4 ms時,這種方法比較有效;當缺口寬度達40 ms時,其效果會讓人無法接受。與靜音替代相比,噪聲替代可給人帶來更好的主觀聽覺感受,同時能改善語音信號的可分辨性。當采用背景噪聲而不是靜音的時候,人腦能下意識地用正確的聲音來修補語音信號中丟失的部分。插人方式與語音編碼無關,也與分組的編碼無關,只是對解碼后丟失的語音進行處理。

    2、插值
    與插人技術相比,插值技術對缺口處的實際波形做了估計,并試圖用與其相似的波形來修補波形缺口,這使得處理得到的聲音能給人帶來相對更好的主觀感受。目前屬于插值方法的有波形替代和時域修正兩種技術。

    1)波形替代
    其原理是在缺口前面(或后面)的波形中尋找出和缺口處波形相似的一段信號并對其加工用來填補缺口。執行一般由兩個步驟構成,第一步是儲存最新重建的信號波形,第二步是對所存儲的波形進行分析,從中提取一段波形并加以改造用來替代缺口處原有的波形。這類技術常用重復、模式匹配、基音波形復制三種實現方式。基音波形復制是通過峰值檢測來計算基音周期T并判斷語音信號是清音還是濁音。對于清音,它簡單地采用重復技術來填補波形缺口;對于濁音,它用缺口位置之前長度為T的一段波形通過重復來填補波形缺口。其效果最好,但是實現較復雜。模式匹配從存儲的缺口左側的重建波形中按某種匹配原則進行搜索,找到一段最佳匹配波
形,對它進行必要的修飾之后用來填補重建波形的缺口。它也可以同時從缺口兩側的重建波形中各找出一段最佳匹配波形,對它們進行加權合并,用來填補缺口。雙側搜索比單側搜索的聽覺效果好,但是它的代價是引入了很長的時延。其效果次于基音復制方式,但實現較簡單。重復方式用缺口前面最近的波彤來替代缺口處的實際波形。效果最差,但實現簡單。波形替代技術可使得填補缺口的波形與其前后的波形間的過渡比較平滑,但在缺口邊界,波形的相位存在突變。這種方式對解碼后的語音信息的修補,與具體的語音編碼和分組編碼無關。

    2)時域修正
    這種技術采用缺口兩側的波形向缺口方向延展的方式來填補缺口。該方法計算量很大,但是由于它能夠避免邊界的相位不連續現象,聽覺效果優于波形替代法。該種方法也同樣也是一種對解碼后的語音信號進行處理的技術,與具體的語音編碼和分組編碼無關。

    無論是基于發送端還是基于接收端的修復技術,針對丟包恢復的要求,上述這些技術在設計時,一般的出發點有:
    ①針對語音本身。考慮的方面主要是分析和區分語音本身的不同內容,如:濁音,噪音,背景音等,對這些內容分別編碼傳輸。
    ②針對分組。通過對分組增加冗余信息和校驗信息來獲取容錯能力,但會引起帶寬的增加;
    ③針對比特位。這里主要指交織技術,它是對編碼結果的再處理;
    ④針對語音復原后的信號。基于收端的技術都采用這種原理來設計;

    各種技術只在語音、分組、傳輸和語音復原階段采取了措施,而通常在發端采取的措施比在收端采取的措施有效,或者說發端采取的措施將直接影響收端對數據復原的效果,因此為了最大化丟包后數據的復原效果,應重點在發端采取措施,使收端在不增加帶寬的情況下,當丟包情況發生時,盡量減少對數據的影響。一般來說,采用基于發端修復的效果比基于收端的技術好,但是技術復雜,一般會增加網絡的帶寬和傳輸延遲,收端的技術簡單,取得的效果更適于人的聽覺生理特點。若能夠綜合考慮發端和收端過程中的不同階段的特點,既能取得好的修復效果,又能用簡單的方式實現,將是今后丟包恢復技術研究的一個重要方向。
抖動抑制
Internet的實質是分組交換網絡,IP分組是存儲、轉發的最小單元。因此,同一信源的分組可能經過不同的路由傳輸到接收端,分組到達接收端的時延也不同。這種分組傳輸時延的不同被稱為時延抖動。時延抖動的存在引起收端解碼后的語音信號出現間斷,造成語音失真,所以必須進行時延抖動的吸收補償。與分組網傳輸數據相比,電路交換則是由于預先分配了信道資源,通信子網以流的方式對待數據,即各幀數據從A端到達B端的時間相等,這樣也就不存在抖動的問題。在設計語音抖動處理方案時,可以做如下考慮:采用智能緩沖平滑的方法,即讓接收端對抖動程度做出預測,并把接收到的信元存放在緩沖器中,采用適當長度的抗抖動緩存,吸收延時后再輸出。

上一篇:P2P技術應用現狀 Gnutella的的網絡優勢

下一篇:WebRTC采用的是成熟的RTP/RTCP技術

Copyright ? 2007-2021 匯訊Wiseuc. 粵ICP備10013541號    
展開
99re6这里有精品热视频| 杨幂精品国产福利在线| 一本色道久久88亚洲精品综合 | 中文精品人人永久免费| 精品国产日韩亚洲一区| 95在线观看精品视频| 亚洲国产精品一区二区久久hs| 日韩福利电影在线观看| 欧美日韩精品SUV| 99久久99热精品免费观看国产| 国产在视频线在精品| 日韩精品福利片午夜免费观着 | 国产成人亚洲精品91专区高清 | 国产精品日韩欧美一区二区三区| 亚洲日韩精品国产3区| 99国产精品99久久久久久| 亚洲国产精品综合久久网络| 99亚洲乱人伦aⅴ精品| 久久AV无码精品人妻糸列| 久久免费视频精品| 亚洲麻豆精品国偷自产在线91 | 99热这里只/这里有精品| 久久99精品久久久久久不卡| 日韩免费观看视频| 国产精品久久久久久网站| 97人妻无码一区二区精品免费| 久久精品嫩草影院| 国产在线精品一区二区三区不卡| 精品人妻中文无码AV在线| 在线观看亚洲AV日韩A∨| 亚洲精品av无码喷奶水糖心| 99热这里只有精品6免费| 亚洲精品高清久久| 久久丫精品久久丫| 久久精品韩国三级| 久久精品99视频| 久久久亚洲精品无码| 久久国产精品久久国产片| 亚洲国产精品福利片在线观看| 亚洲精品无码国产| 久久99国内精品自在现线|