Professional Documents
Culture Documents
c
|
Mөc đính cӫa bӝ lӑc Wiener filter là lӑc loҥi bӓ nhiӉu tӗn tҥi trong tín hiӋu. Bӝ lӑc
Wiener filter đưӧc sӱ dөng rӝng rãi trong nâng cao chҩt lưӧng tiӃng nói. Nguӗn gӕc cơ bҧn
cӫa thuұt toán Wiener Filter là tҥo ra tín hiӋu tiӃng nói sҥch bҵng cách nén nhiӉu. Ưӟc
lưӧng đưӧc thӵc hiӋn bҵng cách hҥ thҩp sai sӕ bình phương trung bình giӳa tín hiӋu mong
muӕn và tín hiӋu ưӟc lưӧng.
| c!"#$%&'()*+,
| -./01223
|
àiҧ thiӃt tín hiӋu thu đưӧc có dҥng:
y[k] = s[k] + n[k]
y[k]: tín hiӋu vào bӏ nhiӉu
s[k]: tín hiӋu mong muӕn thu đưӧc
n[k]: tín hiӋu nhiӉu xen vào
Phân tích tín hiӋu y[k] thu đưӧc thành các frames, mӛi frames có đӝ dài có thӇ tӯ
10ms÷20ms, vӟi mӛi frame i ta thӵc hiӋn biӃn đәi Fourier 2 vӃ:
Yi(f) = Si(f) + Ni(f)
Hay f
f
f
Vӟi f , f là biên đӝ phә cӫa tín hiӋu bӏ nhiӉu và phә nhiӉu cӫa frame i
là pha cӫa tín hiӋu đã bӏ nhiӉu
Do tín hiӋu speech là tín hiӋu on/off thay đәi theo thӡi gian nên mӝt vài frames có lүn
tín hiӋu speech và nhiӉu, mӝt vài frames chӍ có hoàn toàn nhiӉu.
Tín hiӋu nhiӉu ta không thӇ xác đӏnh đưӧc biên đӝ phә cӫa chúng nhưng ta có thӇ tính
toán đưӧc biên đӝ phә nhiӉu trung bình trong khi không có tín hiӋu tiӃng nói và coi
như pha cӫa nhiӉu là cùng pha vӟi tín hiӋu vào bӏ nhiӉu
f
f
Vì đһc trưng nhiӉu thay đәi chұm, ta ưӟc lưӧng f bҵng cách lҩy trung bình trên M
mүu frames nhiӉu.
f
f
Ta ưӟc lưӧng đưӧc biên đӝ cӫa phә tín hiӋu sҥch f tӯ Y(f) bҵng mӝt hàm đӝ lӧi
à(f) đưӧc xác đӏnh như sau:
f
! f f
! f
" f# f
à(f) có thӇ đưӧc áp dөng theo công thӭc Wiener Filter sau:
f$ f %&'# f
! f
Vұy:
0 2
, , f
* f*
f , - ( . / 1
f ,
ó |
c
Phân tích tín hiӋu thành các
Frames
V Vmӛi frames
Cұp nhұt lҥi mӭc nhiӉu trung bình
V !"iori
V àm đӝ lӧi à
V##$
!
#%
&'(&
V #V&(&
)&
á | à
| Û
+ Do tín hiӋu cҫn xӱ lý cӫa chúng ta là tín hiӋu liên tөc, nên khi chúng ta biӃn đәi FFT
trӵc tiӃp tín hiӋu tӯ miӅn thӡi gian mà không thông qua mӝt quá trình tiӅn xӱ lý nào
trưӟc đó thì tín hiӋu sau khi đưӧc biӃn đәi FFT sӁ biӃn đәi nhanh, lúc đó chúng ta
không thӇ thӵc hiӋn đưӧc các thuұt toán xӱ lý triӋt nhiӉu trong tín hiӋu vì khi đó tín
hiӋu đưӧc xem là đӝng.
+ Chính vì vұy, tín hiӋu cӫa chúng ta cҫn phҧi đưӧc phân tích thành nhӳng frame liên
tөc trong miӅn thӡi gian trưӟc khi chuyӇn sang miӅn tҫn sӕ bҵng biӃn đәi FFT. Khi tín
hiӋu đưӧc phân tích thành các frame liên tөc, thì trong tӯng frame, tín hiӋu cӫa chúng
ta sӁ biӃn đәi chұm và nó đưӧc xem là tĩnh. NӃu tín hiӋu đưӧc phân tích theo tӯng
frame thì khi đó các thuұt toán xӱ lý triӋt nhiӉu trong tín hiӋu mӟi có thӇ thӵc hiӋn
đưӧc mӝt cách hiӋu quҧ
+ ĐӇ thӵc hiӋn viӋc phân tích tín hiӋu thành các frame, cҫn sӱ dөng các loҥi cӱa sә
thích hӧp. Ӣ đây, chúng ta sӱ dөng cӱa sә Hamming, vӟi N = 256 mүu trong tӯng
frame :
| Û
+ Quá trình xӱ lý đӇ phân biӋt khi nào có tiӃng nói hoҥt đӝng, khi nào không có tiӃng
nói (im lһng) đưӧc gӑi là sӵ thăm dò hoҥt đӝng cӫa tiӃng nói ± Voice activity detection
(VAD). Thuұt toán VAD có tín hiӋu ra ӣ dҥng nhӏ phân quyӃt đӏnh trên mӝt nӅn tҧng
framebyframe, khi đó frame có thӇ xҩp xӍ 20 0 ms. Mӝt đoҥn tiӃng nói có chӭa
tiӃng nói hoҥt đӝng thì VAD = 1, còn nӃu tiӃng nói không hoҥt đӝng hay đó chính
là nhiӉu thì VAD = 0.
+ Có mӝt vài thuұt toán VAD đưӧc đưa ra dӵa trên nhiӅu đһc tính cӫa tín hiӋu. Các
thuұt toán VAD đưӧc đưa ra sӟm nhҩt thì dӵa vào các đһc tính như mӭc năng lưӧng,
zerocrossing, đһc tính cepstral, phép đo khoҧng cách phә Itakura LPC, phép đo chu
kǤ.
+ Phҫn lӟn các thuұt toán VAD đӅu phҧi đӕi mһt vӟi vҩn đӅ là điӅu kiӋn SNR thҩp,
đһc biӋt khi nhiӉu bӏ thay đәi. Mӝt thuұt toán VAD có đӝ chính xác trong môi trưӡng
thay đәi không thӇ đӫ trong các ӭng dөng cӫa Speech enhancement, nhưng viӋc ưӟc
lưӧng nhiӉu mӝt cách chính xác là rҩt cҫn thiӃt tҥi mӑi thӡi điӇm khi tiӃng nói hoҥt
đӝng
| Û
+ Sau khi phân tích tín hiӋu thành các frame liên tөc trong miӅn thӡi gian bҵng cӱa sә
Hamming, nӃu các frame này liên tөc vӟi nhau và không theo mӝt điӅu kiӋn nào cҧ thì
khi thӵc hiӋn biӃn đәi FFT thì vô tình chúng ta đã làm suy giҧm tín hiӋu do Hamming
là cӱa sә phi tuyӃn.
+ Nên khi thӵc hiӋn phân tích tín hiӋu thành các frame thì yêu cҫu đһt ra là các frame
phҧi sҳp xӃp chӗng lên nhau, gӑi là ³overlap´. ViӋc xӃp chӗng các frame vӟi nhau sӁ
đưӧc thӵc hiӋn theo mӝt tӹ lӋ chӗng lҩp thích hӧp, thông thưӡng là 0% hoһc 50%.
+ Sau khi các frame tín hiӋu đưӧc xӱ lý triӋt nhiӉu trong miӅn tҫn sӕ, các frame này
đưӧc liên kӃt lҥi nhau bҵng phương pháp thích hӧp vӟi phương pháp phân tích tín hiӋu
thành các frame ӣ đҫu vào gӑi là ³adding´.
+ Tұp hӧp các mүu tín hiӋu trong cùng mӝt frame sau khi đưӧc phân tích ӣ đҫu vào
gӑi là mӝt ³segment´. Vӟi cách thӵc hiӋn phân tích và liên kӃt các frame bҵng phương
pháp overlap và adding thì tín hiӋu cӫa chúng ta thu đưӧc sau khi xӱ lý triӋt nhiӉu sӁ
không bӏ méo dҥng và sӁ không xuҩt hiӋn hiӋn tưӧng ³giҧ nhiӉu´.