Abstract (croatian) | Disertacija je organizirana u pet poglavlja. Prvo poglavlje daje kratak uvod u područje računalnog vida te navodi osnovne razloge za istraživanje u područu. Također, u poglavlju se navode i najvažniji doprinosi ostvareni u ovoj disertaciji. Drugo poglavlje postavlja teorijske osnove za istraživane metode. Ovdje se također nalazi pregled osnovne literature te opis eksperimenata koji će poslužiti kao uvod u ostatak disertacije. Treće poglavlje opisuje novu metodu za detekciju ljudskih lica u digitalnim slikama. Četvrto poglavlje opisuje dvije nove metode. Prva metoda služi za detekciju pozicije zjenice u slici ljudskog oka. Druga metoda omogućuje brzo i precizno određivanje oblika ljudskog lica. Posljednje, peto, poglavlje ukratko sažima glavne rezultate opisane u ovoj disertaciji. Više je detalja izloženo u nastavku. Prvo poglavlje – Uvod Ljudi doživljavaju svijet oko njih kroz biološke senzore koji su spojeni s ljudskim živčanim sustavom. Oči omogućuju dar vida i možemo reči da je to najvažnije i najsloženije osjetilo. Zbog korisnosti osjetila vida u rješavanju mnogih problema u prirodi, čovjek teži prenijeti te sposobnosti u strojeve. Tako je nastalo područje "računalni vid", koje je tema i ove disertacije. Od svih metoda koje se proučavaju u računalnom vidu od posebnog su interesa one koje se bave automatskom analizom ljudskih lica. Te metode uključuju detekciju lica u slikama, praćenje značajki lica, analizu emocija, klasifikaciju spola, procjenu starosti itd. Takve metode, ako rade točno, mogu doprinijeti mnogim područjima i komercijalnim aplikacijama. Neke od njih jesu: ∙ primjena u računalnim igrama, umjetnosti i zabavi; ∙ marketing i prodaja; ∙ istraživanje tržišta; ∙ sigurnosni sustavi u vozilima i strojevima; ∙ zdravstvo i pomoć nemoćnima; vi ∙ robotika. Sve su ove primjene od velike važosti i interesa. Glavni je cilj ove doktorske disertacije istražiti mogućnost upotrebe jednostavnih binarnih testova temeljenih na usporedbama intenziteta piksela za rješavanje važnih problema u području računalnog vida. Usporedbe intenziteta piksela najjednostavniji su mogući testovi koji se mogu primijeniti na digitalnu sliku. Osnovna je ideja uzorkovati sliku na dvije različite pozicije, Ix1;y1 i Ix2;y2 , te odrediti je li intenzitet Ix1;y1 veći ili ne od intenziteta Ix2;y2 . Ovo je vrlo malo informacije (1 bit) i jasno je da nam jedan takav test ne može reči mnogo o slici. Ipak, mnogo takvih testova mogu kodirati bitnu informaciju. Osnovna motivacija za ovu temu mnogi su objavljeni radovi drugih autora. Ti su radovi pokazali da organizacijom usporedbi intenziteta piksela u stabla odlučivanja imaju potencijal za izvrsne rezultate u usporedbi s metodama druge vrste (npr. neuronskim mrežama) ako na raspolaganju imamo male računalne resurse. Skromna upotreba računalnih resursa bitna je za programe koji su pokretani na ugrađenim i malim uređajima, poput onih dostupnih u mobilnim telefonima. Glavni doprinosi ove disertacije mogu se sažeti na sljedeći način: ∙ metoda za detekciju objekata koja zamjenjuje Haarove značajke u Viola-Jonesovu pristupu s usporedbama intenziteta piksela posloženima u stabla odlučivanja; ∙ metoda za preciznu lokalizaciju zjenice oka u digitalnim slikama; ∙ metoda za određivanje oblika ljudskog lica. Detalji su opisani u idućim poglavljima. Drugo poglavlje – Teorijske osnove Gotovo svi problemi računalnog vida mogu se opisati kao klasifikacija ili regresija: za digitalnu sliku I, koja je predstavljena kao dvodimenzionalno polje brojeva (tzv. pikseli), zadatak je odrediti njezinu labelu. U slučaju klasifikacije, labela je diskretna, a u slučaju regresije, labela je neprekinuta. Za danu sliku ljudskog lica, tipičan je klasifikacijski zadatak odrediti spol osobe na slici. Tipičan je problem regresije odrediti starost te osobe. Temeljni alat koji se koristi u ovoj disertaciji stabla su odlučivanja s usporedbama intenziteta piksela (Ix1;y1 < Ix2;y2?) u unutarnjim čvorovima. U ovom su obliku po prvi put predstavljena krajem devedesetih (Amit i Geman, 1997.) za upotrebu u sustavu raspoznavanja rukom pisanih znakova. Također, kasnije su uspješno upotrijebljena u mnogim istraživačkim i praktičnim primjenama. U ovom se poglavlju daje detaljan opis učenja i upotrebe stabala odlučivanja s usporedbama intenziteta piksela u unutarnjim čvorovima. Također, opisuje se i algoritam rekonstrukcije slike iz niza usporedbi intenziteta piksela. Eksperimentalno se potvrđuje njegova djelotvornost kroz rekonstrukciju jednostavnih i dobro prepoznatljivih logotipova. Ta eksperimentalna analiza služi kao motivacija za ostatak disertacije u kojem su predstavljene nove metode zasnovane na stablima odlučivanja s usporedbama vii intenziteta piksela u unutarnjim čvorovima. Treće poglavlje – Detekcija objekata zasnovana na usporedbama intenziteta piksela U ovom se poglavlju istražuje detekcija objekata u digitalnim slikama. Detekcija objekata može se definirati kao računalni (algoritamski) proces kojim se određuju lokacije i veličine objekata u slici koji pripadaju (unaprijed) određenom razredu. Neki su zanimljivi razredi ljudska lica, automobili, pješaci itd. Budući da je ovaj problem računalnog vida od širokog interesa, postoji očita motivacija za istraživanje u ovom području. Poglavlje uvodi novu metodu pod nazivom PICO. Ta je metoda modifikacija poznatog pristupa koji su opisali Viola i Jones krajem devedesetih. Osnovna je ideja metode podijeliti sliku u skup preklapajućih regija i upotrijebiti na svakoj regiji kaskadu klasifikatora čija je zadaća otkriti radi li se o objektu koji pripada zadanom razredu. Kaskada klasifikatora potrebna je za brzo odbacivanje regija koji ne pripadaju traženom razredu (tzv. pozadina): dovoljno je da jedan član kaskade odbaci regiju. Regija treba proći sve članove kaskade da bude proglašena objektom iz traženog razreda. Na taj se način značajno smanjuje računalna složenost pretrage slike. U PICO-metodi svaki se član kaskade sastoji od stabala odlučivanja s usporedbama intenziteta piksela u unutarnjim čvorovima. Ovo je osnovna razlika s obzirom na Viola-Jonesov pristup koji koristi Haarove značajke. Prednost metode PICO jest njezina velika brzina izvođenja. Eksperimentalna analiza prikazana je kroz problem detekcije ljudskih lica. Za učenje stabala upotrijebljena je javno dostupna baza AFLW koja sadrži 20 000 slika lica. Dobivena kaskada prvo je uspoređena s Viola-Jonesovom kaskadom iz paketa OpenCV. Rezultati pokazuju da PICO postiže do šest puta veću brzinu izvođenja, što čini metodu iznimno pogodnom za upotrebu na mobilnim uređajima. Također, ostvaruje i bolju preciznost detekcije na javno dostupnim bazama GENKI-SZSL i CALTECH-FACES (3500 i 10 000 slika lica koje se nisu nalazile u skupu za učenje). Usporedba s najboljim brzim metodama iz literature na FDDB bazi (5000 slika lica i jasno definirani protokol usporedbe) pokazuje da PICO-metoda ima određene prednosti. Iako neki pristupi postižu bolju preciznost, PICO-metoda je značajno brža. Odabir metode za određenu primjenu ovisi o karakteristikama te primjene. Na mobilnim i ostalim malim uređajima, PICO-metoda odličan je izbor budući da tamo može zamnijeniti široko korišteni Viola-Jonesov pristup. Na kraju je poglavlja dana kratka diskusija o učenju PICO metode za pronalaženje ostalih razreda slika. viii Četvrto poglavlje – Brza i točna lokalizacija ključnih točaka Ovo poglavlje opisuje dva nova algoritma za lokalizaciju ključnih točaka na objektu iz unaprijed određenog razreda. Prva je metoda korisna kada trebamo pronaći pojedinačnu ključnu točku. Druga se metoda može upotrijebiti kada postoji potreba lokalizacije više međusobno koreliranih točaka (drugim riječima, među kojima postoji neka strukturna veza). Oba su algoritma eksperimentalno testirana kroz upotrebu u pronalaženju točaka na ljudskom licu: lokalizacija zjenice oka i određivanje oblika lica. Lokalizacija zjenice u danoj slici lica od posebne je važnosti za biometrijske sustave, animaciju virtualnih likova i sustave interakcije stroja i čovjeka. Stoga će prva metoda predložena u ovom poglavlju biti eksperimentalno prikazana kroz ovaj problem. Osnovna je ideja koristiti stabla odlučivanja s usporedbama intenziteta piksela u unutarnjim čvorovima za procjenu pozicije zjenice. Ovo je standardni problem regresije. U ovom se poglavlju eksperimentalno pokazuje da taj jednostavni pristup ne daje dobre rezultate (ostvarena preciznost nije dovoljno visoka). Stoga, predlaže se metoda koja proces procjene koordinate zjenice razlaže na rješavanje niza manjih problema (iterativno, jedan za drugim). Prva skupina stabala primijenjena na sliku oka daje grubu procjenu pozicije zjenice. Iduća grupa stabala uzorkuje testove oko trnutaćno najbolje procjene i pokušava je popraviti. Process se ponavlja nekoliko puta. Eksperimentalno se pokazuje (kvalitativno i kvantitativno) da ovakav pristup značajno unapređuje procjenu. Predložena se metoda uspoređuje s dva druga popularna pristupa za lokalizaciju zjenice oka. Rezultati pokazuju da je metoda znaćajno brža i preciznija od tih pristupa. To je ćini izvrsnim kandidatom za komercijalne sustave koji se ne oslanjaju na skupe uređaje i kamere. Kroz diskusiju je pokazano da predložena metoda nije najbolje moguće rješenje za lokalizaciju više koreliranih točaka. Razlog tomu je što lokalizacija svake pojedine točke može biti bitno unaprijeđena korištenjem informacije o poziciji ostalih točaka. Tipičan su primjer točke na ljudskom licu (kutovi očiju, vrh nosa, pozicije obrva itd.). Druga metoda predložena u ovom poglavlju služi za lokalizaciju više koreliranih točaka. Njezine mogućnosti testirane su kroz problem određivanja ljudskog lica iz digitalne slike, što je drugi naziv za lokalizaciju više točaka na ljudskom licu. Taj se problem pokazao posebno zahtjevnim u stvarnim uvjetima (loše osvjetljenje, zakrivanje/rotacija glave itd.). Predložena metoda modifikacija je pristupa objavljenog na CVPR-u 2014. godine (Ren et al.). Ideja tog pristupa je formirati veliki vektor znaˇcajki F kodiranjem putova koje ulazna slika ima duž stabla odlučivanja s usporedbama intenziteta piksela u unutarnjim čvorovima te nakon toga linearno transformirati taj vektor u oblik lica (u praksi se taj pristup također ponavlja nekoliko puta, iterativno). Zamijećeno je da takav pristup ima značajne probleme s memorijskim zahtjevima. Stoga, u ovoj je disertaciji predložena zamjena sloja linearne regresije neuronskim mrežama posebne arhitekture. Ključno je da se oblik lica iz vektora F odvije u nekoliko koraka. Prvi korak "komprimira" vektor F u niskodimenzionalnu reprezentaciju koja se u ostalim koracima ix transformira u oblik lica. Ako je niskodimenzionalna reprezentacija dovoljno kompaktna (dimenzionalnost je dovoljno mala), postiže se značajna ušteda memorije. U ovoj se disertaciji predlažu dvije razlčcite arhitekture s ovim svojstvom. Prvu je arhitekturu moguće naučiti egzaktno algoritmom najmanjih kvadrata s matricama reduciranog ranga. Drugu arhitekturu moguće je učiti običnim gradijentnim spustom (gradijent se izračunava algoritmom unazadne propagacije). Predložena metoda uspoređena je na 300W bazi (≈ 3000 slika s označenim točkama) s dvadesetak ostalih popularnih pristupa za određivanje oblika lica. Ostvareni su rezultati odlični s obzirom na memorijske zahtjeve i brzinu izvođenja. Što se tiče preciznosti, predložena metoda i ovdje dobiva izvrsne rezultate, ali postoje pristupi koji su nešto precizniji. Ti su pristupi temeljeni na konvolucijskim neuronskim mrežama i to ih čini vrlo sporim na modernim uređajima (za izvođenje u stvarnom vremenu potrebne su grafičke kartice). Svojstva predložene metode ćine je izvrsnim kandidatom za lokalizaciju točaka ljudskog lica na mobilnim i ugrađenim uređajima, pogotovo kada se uzme u obzir i razina preciznosti koju dostiže. Peto poglavlje – Zaključci Posljednje poglavlje ukratko sažima glavne rezultate i doprinose ostvarene tijekom izrade ove disertacije. Ključna je poruka da su predložene metode izrazito korisne ako tip primjene dozvoljava (ili čak nalaže) žrtvovanje (malo) preciznosti kako bi se dobilo mnogo na brzini izvođenja. |