You are on page 1of 6

c 

c 
  
|  
Mөc đính cӫa bӝ lӑc Wiener filter là lӑc loҥi bӓ nhiӉu tӗn tҥi trong tín hiӋu. Bӝ lӑc
Wiener filter đưӧc sӱ dөng rӝng rãi trong nâng cao chҩt lưӧng tiӃng nói. Nguӗn gӕc cơ bҧn
cӫa thuұt toán Wiener Filter là tҥo ra tín hiӋu tiӃng nói sҥch bҵng cách nén nhiӉu. Ưӟc
lưӧng đưӧc thӵc hiӋn bҵng cách hҥ thҩp sai sӕ bình phương trung bình giӳa tín hiӋu mong
muӕn và tín hiӋu ưӟc lưӧng.
| c!"#$%&'()*+, 

 
    

 ch frames Hàm xӱ lý giҧm BiӃn đәi ngưӧc 


và biӃn đәi FFT nhiӉu IFFT

V u bӏ nhiӉu Tín hiӋu mong muӕn


ban đҫu
Ưӟc lưӧng
nhiӉu

| -./01223 
ƒ |  
 
àiҧ thiӃt tín hiӋu thu đưӧc có dҥng:
y[k] = s[k] + n[k]
y[k]: tín hiӋu vào bӏ nhiӉu
s[k]: tín hiӋu mong muӕn thu đưӧc
n[k]: tín hiӋu nhiӉu xen vào
Phân tích tín hiӋu y[k] thu đưӧc thành các frames, mӛi frames có đӝ dài có thӇ tӯ
10ms÷20ms, vӟi mӛi frame i ta thӵc hiӋn biӃn đәi Fourier 2 vӃ:
Yi(f) = Si(f) + Ni(f)
Hay  f    
 f      f    
Vӟi  f ,  f là biên đӝ phә cӫa tín hiӋu bӏ nhiӉu và phә nhiӉu cӫa frame i
    là pha cӫa tín hiӋu đã bӏ nhiӉu
Do tín hiӋu speech là tín hiӋu on/off thay đәi theo thӡi gian nên mӝt vài frames có lүn
tín hiӋu speech và nhiӉu, mӝt vài frames chӍ có hoàn toàn nhiӉu.
Tín hiӋu nhiӉu ta không thӇ xác đӏnh đưӧc biên đӝ phә cӫa chúng nhưng ta có thӇ tính
toán đưӧc biên đӝ phә nhiӉu trung bình trong khi không có tín hiӋu tiӃng nói và coi
như pha cӫa nhiӉu là cùng pha vӟi tín hiӋu vào bӏ nhiӉu
 f
   f 
Vì đһc trưng nhiӉu thay đәi chұm, ta ưӟc lưӧng f bҵng cách lҩy trung bình trên M
mүu frames nhiӉu.


 f
  f



Ta ưӟc lưӧng đưӧc biên đӝ cӫa phә tín hiӋu sҥch  f tӯ Y(f) bҵng mӝt hàm đӝ lӧi
à(f) đưӧc xác đӏnh như sau:
 f
! f f
! f
" f#  f
à(f) có thӇ đưӧc áp dөng theo công thӭc Wiener Filter sau:
  f$  f %&'# f
! f

 f$  f %''# f


àiҧ sӱ tín hiӋu s[k] và nhiӉu n[k] không tương quan vӟi nhau
%&'# f %''# f ( %))# f *+ f* (  , f
,
 , f
! f



 (
%''# f %''# f *+ f*
,
 f ,


Vұy:
0 2
,  , f
*  f*
 f , - ( . / 1
 f ,

Đһt Priori SNR và Posteriori SNR như sau


2
{  (ö ) }
  2
{ „ (ö ) }
2
{  (ö ) }
 
2
{ „ (ö ) }
Mӝt khó khăn trong các thuұt toán nâng cao chҩt lưӧng tiӃng nói là ta không có tín
hiӋu trưӟc tín hiӋu sҥch S[n] nên ta không thӇ biӃt phә cӫa nó. Do đó ta không thӇ
 
tính đưӧc   mà trong các hӋ thӕng nâng cao chҩt lưӧng giӑng nói thì   là
tham sӕ rҩt cҫn thiӃt đӇ ưӟc lưӧng tín hiӋu sҥch.Trong các hӋ thӕng nâng cao chҩt
 
lưӧng giӑng nói có thӇ ưӟc lưӧng đưӧc   và  
bҵng cách cho các thông
sӕ thích hӧp vào các phương trình sau.

Trong phương trình nӃu cho hӋ sӕ 2 ta có thӇ ưӟc lưӧng đưӧc 


 
 bҵng  
.
Trong thӵc tӃ hӋ sӕ 2 =0.98 rҩt tӕt cho các tín hiӋu có SNR<5dB
Nên ta có hàm !f xác đӏnh theo tӍ sӕ SNR:


(ö )
1] 




ó |  

c  


 Phân tích tín hiӋu thành các
Frames


V Vmӛi frames


Tìm công suҩt nhiӉu trung bình


ban đҫu

I=0: Nhұp frames đҫu




àӑi CT kiӇm tra VAD


  Cұp nhұt lҥi mӭc nhiӉu trung bình

V !"iori

V àm đӝ lӧi à

Tính tín hiӋu sҥch ưӟc lưӧng


=à Y

V##$

!
#%
&'(& 

V #V&(& 

)& 

 
á | à


š| Û   
   
+ Do tín hiӋu cҫn xӱ lý cӫa chúng ta là tín hiӋu liên tөc, nên khi chúng ta biӃn đәi FFT
trӵc tiӃp tín hiӋu tӯ miӅn thӡi gian mà không thông qua mӝt quá trình tiӅn xӱ lý nào
trưӟc đó thì tín hiӋu sau khi đưӧc biӃn đәi FFT sӁ biӃn đәi nhanh, lúc đó chúng ta
không thӇ thӵc hiӋn đưӧc các thuұt toán xӱ lý triӋt nhiӉu trong tín hiӋu vì khi đó tín
hiӋu đưӧc xem là đӝng.
+ Chính vì vұy, tín hiӋu cӫa chúng ta cҫn phҧi đưӧc phân tích thành nhӳng frame liên
tөc trong miӅn thӡi gian trưӟc khi chuyӇn sang miӅn tҫn sӕ bҵng biӃn đәi FFT. Khi tín
hiӋu đưӧc phân tích thành các frame liên tөc, thì trong tӯng frame, tín hiӋu cӫa chúng
ta sӁ biӃn đәi chұm và nó đưӧc xem là tĩnh. NӃu tín hiӋu đưӧc phân tích theo tӯng
frame thì khi đó các thuұt toán xӱ lý triӋt nhiӉu trong tín hiӋu mӟi có thӇ thӵc hiӋn
đưӧc mӝt cách hiӋu quҧ
+ ĐӇ thӵc hiӋn viӋc phân tích tín hiӋu thành các frame, cҫn sӱ dөng các loҥi cӱa sә
thích hӧp. Ӣ đây, chúng ta sӱ dөng cӱa sә Hamming, vӟi N = 256 mүu trong tӯng
frame :

 
š| Û    

 


+ Quá trình xӱ lý đӇ phân biӋt khi nào có tiӃng nói hoҥt đӝng, khi nào không có tiӃng
nói (im lһng) đưӧc gӑi là sӵ thăm dò hoҥt đӝng cӫa tiӃng nói ± Voice activity detection
(VAD). Thuұt toán VAD có tín hiӋu ra ӣ dҥng nhӏ phân quyӃt đӏnh trên mӝt nӅn tҧng
framešbyšframe, khi đó frame có thӇ xҩp xӍ 20š 0 ms. Mӝt đoҥn tiӃng nói có chӭa
tiӃng nói hoҥt đӝng thì VAD = 1, còn nӃu tiӃng nói không hoҥt đӝng hay đó chính
là nhiӉu thì VAD = 0.
+ Có mӝt vài thuұt toán VAD đưӧc đưa ra dӵa trên nhiӅu đһc tính cӫa tín hiӋu. Các
thuұt toán VAD đưӧc đưa ra sӟm nhҩt thì dӵa vào các đһc tính như mӭc năng lưӧng,
zerošcrossing, đһc tính cepstral, phép đo khoҧng cách phә Itakura LPC, phép đo chu
kǤ.
+ Phҫn lӟn các thuұt toán VAD đӅu phҧi đӕi mһt vӟi vҩn đӅ là điӅu kiӋn SNR thҩp,
đһc biӋt khi nhiӉu bӏ thay đәi. Mӝt thuұt toán VAD có đӝ chính xác trong môi trưӡng
thay đәi không thӇ đӫ trong các ӭng dөng cӫa Speech enhancement, nhưng viӋc ưӟc
lưӧng nhiӉu mӝt cách chính xác là rҩt cҫn thiӃt tҥi mӑi thӡi điӇm khi tiӃng nói hoҥt
đӝng
š| Û     

+ Sau khi phân tích tín hiӋu thành các frame liên tөc trong miӅn thӡi gian bҵng cӱa sә
Hamming, nӃu các frame này liên tөc vӟi nhau và không theo mӝt điӅu kiӋn nào cҧ thì
khi thӵc hiӋn biӃn đәi FFT thì vô tình chúng ta đã làm suy giҧm tín hiӋu do Hamming
là cӱa sә phi tuyӃn.
+ Nên khi thӵc hiӋn phân tích tín hiӋu thành các frame thì yêu cҫu đһt ra là các frame
phҧi sҳp xӃp chӗng lên nhau, gӑi là ³overlap´. ViӋc xӃp chӗng các frame vӟi nhau sӁ
đưӧc thӵc hiӋn theo mӝt tӹ lӋ chӗng lҩp thích hӧp, thông thưӡng là 0% hoһc 50%.
+ Sau khi các frame tín hiӋu đưӧc xӱ lý triӋt nhiӉu trong miӅn tҫn sӕ, các frame này
đưӧc liên kӃt lҥi nhau bҵng phương pháp thích hӧp vӟi phương pháp phân tích tín hiӋu
thành các frame ӣ đҫu vào gӑi là ³adding´.
+ Tұp hӧp các mүu tín hiӋu trong cùng mӝt frame sau khi đưӧc phân tích ӣ đҫu vào
gӑi là mӝt ³segment´. Vӟi cách thӵc hiӋn phân tích và liên kӃt các frame bҵng phương
pháp overlap và adding thì tín hiӋu cӫa chúng ta thu đưӧc sau khi xӱ lý triӋt nhiӉu sӁ
không bӏ méo dҥng và sӁ không xuҩt hiӋn hiӋn tưӧng ³giҧ nhiӉu´.


You might also like