Naslov Povećanje učinkovitosti prediktivnog kodiranja govornog signala
Naslov (engleski) Complexity Reduction of Predictive Coding of Speech
Autor Davorka Petrinović
Mentor Hrvoje Babić (mentor)
Član povjerenstva Branko Jeren (član povjerenstva)
Član povjerenstva Hrvoje Babić (član povjerenstva)
Član povjerenstva Nikola Rožić (član povjerenstva)
Član povjerenstva Mladen Kos (član povjerenstva)
Član povjerenstva Dimitrije Ugrin-Šparac (član povjerenstva)
Ustanova koja je dodijelila akademski / stručni stupanj Sveučilište u Zagrebu Fakultet elektrotehnike i računarstva (Zavod za elektroničke sustave i obradbu informacija) Zagreb
Datum i država obrane 2001-12-19, Hrvatska
Znanstveno / umjetničko područje, polje i grana TEHNIČKE ZNANOSTI Elektrotehnika
Univerzalna decimalna klasifikacija (UDC ) 621.3 - Elektrotehnika
Sažetak U radu je predloženo nekoliko postupaka za povećanje učinkovitosti metode kodiranja spektralne ovojnice govornog signala temeljene na vektorskoj linearnoj predikciji s adaptacijom prediktora preklapanjem (SIVP). Spektralna ovojnica kojom se na temelju kraćih odsječaka govornog signala modelira akustička prijenosna funkcija vokalnog trakta, u radu je predstavljena skupom frekvencija spektralnih linija (LSF). Najčešće se radi postizanja što veće kvalitete kodiranja u sklopu SIVP metode koriste samo dvije preklapane matrice predikcije. Za razliku od toga, u ovom radu su istražene mogućnosti primjene većeg broja matrica. Time se smanjuje složenost kodiranja na račun pojednostavljenja postupka vektorske kvantizacije koja slijedi iza predikcije. Primjenom više različitih tehnika predloženih u radu omogućeno je i dodatno smanjenje složenosti same predikcije uz ostvarenje zadovoljavajuće kvalitete kodiranja. U jednom predloženom pristupu, smanjenje složenosti predikcije ostvareno je smanjenjem broja elemenata različitih od nule u matricama predikcije. Predložen je kriterij za određivanje optimalnog rasporeda nula i elemenata različitih od nule (tzv. struktura) u takvim prorijeđenim matricama. Nadalje, dan je postupak za izračunavanje optimalnih vrijednosti elemenata matrica tako da je dobitak kod predikcije najveći mogući za danu strukturu određene popunjenosti. Analiziran je utjecaj broja i popunjenosti matrica predikcije na kvalitetu i složenost kodiranja. Predložen je postupak kojim se primjenom linearne transformacije utječe na povećanja kvalitete kodiranja uz prorijeđene matrice fiksne, dijagonalne strukture. U drugom pristupu predloženom u radu, istražene su mogućnosti povećanja učinkovitosti predikcije primjenom binarnog pretraživanja po preklapanim matricama umjesto uobičajenog postupka potpunog pretraživanja. Predložen je odgovarajući postupak projektiranja prediktora. Osim smanjenja složenosti, razmatrani su i načini povećanja kvalitete kod SIVP sheme kodiranja s većim brojem matrica predikcije. U skladu s tim, primijenjen je princip višestrukih predikcijskih kandidata. Kod ovakvog postupka, kvantizacija se izvodi nad nekoliko najmanjih rezidualnih vektora nazvanih predikcijskim kandidatima, a ne samo nad jednim koji rezultira najmanjom kvadratnom normom. Matrica koja će se koristiti za predikciju nekog vektora određuje se na temelju kandidata koji rezultira najmanjom mjerom izobličenja ostvarenom kod kvantizacije. U istraživanjima je ostvareni dobitak u kvaliteti analiziran s obzirom na primijenjeni broj predikcijskih kandidata i broj preklapanih matrica. Također je razvijen i postupak projektiranja prediktora kod kojeg se umjesto minimizacije pogreške predikcije minimizira kvantizacijska pogreška. Kombinacijom navedene mjere za projektiranje prediktora i predikcijskih kandidata sa postupkom predikcije s prorijeđenim matricama, ostvaren je niz kodera kojima se postiže najbolji kompromis između kvalitete i složenosti kodiranja. Istražen je utjecaj svih parametara kod projektiranja kodera. Ustanovljeno je da je uz zadovoljavajuće smanjenje složenosti kodiranja moguće ostvariti i veću kvalitetu od one koja se postiže klasičnim SIVP postupkom s dvije matrice predikcije.
Na osnovu velikog broja projektiranih kodera i iscrpnih rezultata prezentiranih u radu moguće je za više različitih tipova primjene kodiranja govora odabrati koder kojim se najbolje zadovoljavaju postavljeni zahtjevi.
Sažetak (engleski) In this thesis, several techniques are proposed for complexity reduction of a switched-adaptive vector linear prediction coding scheme (known as SIVP) with vector quantization of the prediction residual. Coding is performed on Line Spectral Frequencies representation of the power spectrum envelope used for acoustic transfer function modeling in the source/filter model for speech production. Most frequently, coding by switched-adaptive prediction is performed using only two prediction matrices to achieve the best possible quality of reconstructed speech. In this work, the potential of utilizing larger number of switched matrices is investigated that enables reduction of complexity of vector quantization that follows prediction. By applying several techniques proposed in the thesis complexity of prediction is further reduced. In the first proposed technique, prediction complexity is reduced by decreasing the number of nonzero elements in prediction matrices. The criterion for obtaining optimal patterns of nonzero elements in partially zeroed matrices is given as well as the design procedure for calculating the optimal values of these elements. The prediction gain obtained with resulting sparse matrices is the highest for the chosen total number of predictor nonzero elements. The effect of the number and the fullness of switched matrices of the predictor on the resulting coding quality and complexity has been analyzed. Also, the technique based on linear transformation has been proposed for increasing the quality of coding with prediction matrices having fixed, diagonal structure. In the second proposed approach, the reduction of prediction complexity has been accomplished by substituting the optimal full search of the switched matrices during prediction with binary-tree search. Suitable predictor design procedure and coding scheme have been realized. Apart from exploring techniques resulting in lower complexity, two approaches for increasing the coding quality of SIVP method with higher number of prediction matrices have also been investigated. In that sense, the principle of multiple prediction candidates has been applied. According to that, quantization is performed on several smallest prediction residuals, called prediction candidates, and not only on the one having the minimal squared norm. The matrix used for prediction of the current input vector is then determined based on the corresponding candidate that results with minimal distortion measure after quantization. The obtained quality improvement is analyzed pertaining to the chosen number of prediction candidates and prediction matrices. Predictor design procedure based on minimization of the quantization error instead of prediction error energy has also been proposed. The last proposed method is a combination of the above mentioned predictor design procedure, prediction candidate principle and technique with sparse prediction matrices described first. The influence of different values of several design parameters has been investigated. It was shown that a group of coders obtained by this method result in best compromise between coder quality and complexity. It was also found out that by utilizing these coders, even higher coding quality can be obtained than in the case of classical SIVP method with two prediction matrices and it is accompanied by an adequate complexity reduction at the same time. Based on the great number of designed coders and detailed analysis of obtained results as part of this thesis, it is possible to choose a coder meeting the requirements for various types of speech coding applications.
Ključne riječi
Kodiranje govora
kvantizacija spektralne ovojnice
analiza linearnom predikcijom
vektorska linearna predikcija
prediktivna vektorska kvantizacija
frekvencije spektralnih linija
međuokvirno kodiranje
adaptacija prediktora preklapanjem
smanjenje složenosti
Ključne riječi (engleski)
Speech coding
spectrum quantization
Linear Predictive Coding LPC
Vector Linear Prediction VLP
Predictive Vector Quantization PVQ
Line Spectrum Frequencies LSF
interframe coding
switched prediction
complexity reduction
Jezik hrvatski
URN:NBN urn:nbn:hr:168:142313
Studijski program Naziv: Elektrotehnika Vrsta studija: sveučilišni Stupanj studija: poslijediplomski znanstveni (doktorski) Akademski / stručni naziv: doktor/doktorica znanosti, po-dručje tehničkih znanosti (dr. sc.)
Vrsta resursa Tekst
Način izrade datoteke Izvorno digitalna
Prava pristupa Zatvoreni pristup
Uvjeti korištenja
Datum i vrijeme pohrane 2019-04-23 11:11:49