Eredeti cikk: https://faculty.cc.gatech.edu/~parikh/relative.html
Marr-díj (legjobb papírdíj) nyertese, ICCV 2011
"Ki tudja a szivárványban meghúzni azt a határt, ahol az ibolya árnyalat véget ér és a narancssárga árnyalat kezdődik? Egyértelműen látjuk a színek különbségét, de pontosan hol lép be először az egyik a másikba? Tehát józansággal és őrültséggel."
-- Herman Melville, Billy Budd

[papír] [adatok] [kód] [demók] [diák] [beszélgetés (videó )] [poszter] [fordítások]
Absztrakt
Az ember által megnevezhető vizuális "attribútumok" különféle felismerési feladatokban hasznosak lehetnek. A meglévő technikák azonban ezeket a tulajdonságokat kategorikus címkékre korlátozzák (például egy személy „mosolyog” vagy sem, egy jelenet „száraz” vagy sem), és így nem képesek általánosabb szemantikai kapcsolatokat rögzíteni. Javasoljuk a relatív attribútumok modellezését. Az objektum/jelenet kategóriák különböző attribútumok szerinti kapcsolatát jelző betanítási adatok alapján megtanulunk egy attribútumonkénti rangsorolási függvényt. A tanult rangsoroló függvények megjósolják az egyes tulajdonságok relatív erősségét újszerű képeken. Ezután felépítünk egy generatív modellt az attribútum-rangsorolási kimenetek közös terére, és javasoljuk a nullapontos tanulás újszerű formáját, amelyben a felügyelő viszonyul .a láthatatlan tárgyak kategóriája a korábban látott tárgyakhoz attribútumokon keresztül (például „a medvék szőrösebbek, mint a zsiráfok”). Megmutatjuk továbbá, hogy a javasolt relatív attribútumok hogyan tesznek lehetővé új képek gazdagabb szöveges leírását, amelyek a gyakorlatban pontosabbak az emberi értelmezés szempontjából. Bemutatjuk az arcok és a természetes jelenetek adatkészleteire vonatkozó megközelítést, és bemutatjuk annak egyértelmű előnyeit a hagyományos bináris attribútum-előrejelzéssel szemben ezeknél az új feladatoknál.
Motiváció
A bináris attribútumok korlátozóak és természetellenesek is lehetnek. A fenti példákban, míg a bal felső sarokban és a jobb felső sarokban lévő képet természetesnek, illetve ember alkottaként jellemezhetjük, miként írná le a felső középső képet? Jellemzésének egyetlen értelmes módja a többi kép vonatkozásában van: kevésbé természetes, mint a bal oldali kép, de sokkal inkább, mint a jobb oldali kép.
Javaslat
Ebben a munkában relatív attribútumok modellezését javasoljuk. Az attribútum jelenlétének előrejelzésével ellentétben a relatív attribútum egy attribútum erősségét jelzi egy képen a többi képhez képest. Amellett, hogy természetesebbek, a relatív attribútumok gazdagabb kommunikációs módot kínálnak, így lehetővé teszik a részletesebb emberi felügyelethez való hozzáférést (és így potenciálisan nagyobb felismerési pontosságot), valamint azt, hogy újszerű képekről informatívabb leírásokat készítsenek.
Olyan megközelítést dolgozunk ki, amely megtanul egy rangsorolási függvényt minden egyes attribútumhoz, figyelembe véve a relatív hasonlósági megszorításokat a példapárokra (vagy általánosabban néhány példán a részleges rendezésre). A tanult rangsoroló függvény meg tudja becsülni a képek valós értékű rangját, jelezve az attribútum jelenlétének relatív erősségét bennük.
Bemutatjuk a zero-shot tanulás és a képleírás új formáit, amelyek kihasználják a relatív attribútum-előrejelzéseket.
Megközelítés
Relatív attribútumok elsajátítása: Minden relatív attribútum megtanulása egy tanulási rangsorolással történik, összehasonlító felügyelet mellett, az alábbiak szerint:

Különbséget teszünk egy széles margójú rangsoroló függvény (jobbra), amely a kívánt sorrendet kényszeríti ki a képzési pontokon (1-6) és egy széles margójú bináris osztályozó (balra) megtanulása között, amely csak a két osztályt választja el (+ és -). nem feltétlenül tartja meg a kívánt sorrendet a pontokon, az alábbiakban látható:

Újszerű nullapontos tanulás : A következő összeállítást tanulmányozzuk
- Összesen N kategória: S látott kategória (kapcsolódó képek állnak rendelkezésre) + U nem látott kategória (nem érhetők el képek ezekhez a kategóriákhoz)
- S látott kategória egymáshoz viszonyítva van leírva attribútumokon keresztül (nem kell minden kategóriapárnak minden attribútumhoz kapcsolódónak lennie)
- Az U láthatatlan kategóriákat a látott kategóriákhoz (részhalmazokhoz) viszonyítva írják le attribútumok (egy részhalmaza) szerint.
Először a relatív attribútumok halmazát betanítjuk a látott kategóriákon biztosított felügyelet segítségével. Ezek az attribútumok külső adatokból is előre betaníthatók. Ezután minden látott kategóriához generatív (Gauss-modellt) építünk a látott kategóriák képeire adott relatív attribútumok válaszainak felhasználásával . Ezután következtetünk a nem látott kategóriák generatív modelljeinek paramétereire, felhasználva a látott kategóriákra vonatkozó relatív leírásaikat . Az alábbiakban bemutatjuk az általunk alkalmazott egyszerű megközelítést:

Egy tesztkép a legnagyobb valószínűséggel rendelkező kategóriához van hozzárendelve.
A képek relatív szöveges leírásának automatikus generálása: Adott egy leírandó I kép, kiértékeljük az összes tanult rangsorolási függvényt az I-n. Minden attribútumhoz azonosítunk két referenciaképet, amelyek az I két oldalán helyezkednek el, és nincsenek túl messze az I-től vagy túl közel ahhoz. Ezután az I. képet leírjuk. ehhez a két referenciaképhez képest, az alábbiak szerint:

Mint fentebb látható, amellett, hogy egy képet más képekhez viszonyítva írunk le, megközelítésünk képes egy képet más kategóriákhoz viszonyítva is leírni, ami pusztán szöveges leírást eredményez. Nyilvánvaló, hogy a relatív leírások pontosabbak és informatívabbak, mint a hagyományos bináris leírás.
Kísérletek és eredmények
Két adathalmazon végzünk kísérleteket:
- Outdoor Scene Recognition (OSR), amely 2688 képet tartalmaz 8 kategóriából: tengerpart C, erdő F, autópálya H, belváros I, hegy M, nyílt vidék, utca S és magas épület T. A lényegi jellemzőket használjuk a képeket.
- A Public Persons Face Database (PubFig) részhalmaza , amely 772 képet tartalmaz 8 kategóriából: Alex Rodriguez A, Clive Owen C, Hugh Laurie H, Jared Leto J, Miley Cyrus M, Scarlett Johansson S, Viggo Mortensen V és Zac Efron Z. Összefűzött lényegi és színjellemzőket használunk a képek ábrázolására.
Az egyes adatkészletekhez használt attribútumok listája, valamint a bináris és relatív attribútum megjegyzések az alábbiakban láthatók:
Zero-shot tanulás:
Javasolt megközelítésünket két alapvonallal hasonlítjuk össze. Az első a Score-based Relative Attributes (SRA). Ez az alapvonal megegyezik a mi megközelítésünkkel, azzal a különbséggel, hogy egy bináris osztályozó (bináris attribútumok) pontszámait használja a rangsoroló függvény pontszámai helyett. Ez az alapvonal segít felmérni a rangsorolási függvény szükségességét a relatív attribútumok legjobb modellezéséhez. A második alapvonalunk a közvetlen tulajdonság-előrejelzés (DAP) modell, amelyet Lampert és munkatársai vezettek be. Ez az alapérték segít felmérni a tulajdonságok relatív kezelésének előnyeit a kategorikussal szemben. Ezeket a megközelítéseket különböző számú láthatatlan kategória, az attribútumok betanításához használt adatmennyiség, a nem látott kategóriák leírására használt attribútumok változó száma és a nem látott kategóriák leírásának „lazasága” különböző szintjeire értékeljük. A kísérleti összeállítás részleteiről cikkünkben olvashatnak. Az eredmények az alábbiakban láthatók:
Automatikusan generált képleírások:
Annak érdekében, hogy értékeljük a bináris megfelelőihez viszonyított képleírásaink minőségét, humán vizsgálatot végeztünk. A mi megközelítésünkkel egy kép leírását hoztuk létre, valamint az alap bináris attribútumokat. Ezzel a leírással, három képpel együtt bemutattuk az alanyokat. A három kép közül az egyik volt a leírt kép. Az alanyok feladata az volt, hogy rangsorolják a három képet az alapján, hogy szerintük melyik a legvalószínűbb a leírtaknak. Minél pontosabb a leírás, annál nagyobb az esélye az alanyoknak a megfelelő kép azonosítására. Az alábbiakban az alanyoknak bemutatott feladat illusztrációja látható:
A vizsgálat eredményeit az alábbiakban mutatjuk be. Látjuk, hogy az alanyok a javasolt relatív attribútumok segítségével pontosabban azonosíthatják a helyes képet, mint a bináris attribútumok.
A képek bináris leírására, valamint a kategóriákhoz kapcsolódó leírásokra az alábbiakban kerül sor:
Kép | Bináris leírások | Relatív leírások |
nem természetesnem nyitottperspektíva | természetesebb, mint a magasépítés, kevésbé természetes, mint az erdő,nyitottabb, mint a magasépítés, kevésbé nyitott, mint a part,perspektívább, mint a magasépítés | |
nem természetesnem nyitottperspektíva | természetesebb, mint a belvárosban, kevésbé természetes, mint az autópálya, nyitottabb, mint az utca, kevésbé nyitott, mint a part, erspektivikusabb, mint az autópálya, kevésbé perspektíva, mint a belvárosban | |
természetesnyitottperspektíva | természetesebb, mint a magas épület, kevésbé természetes, mint a hegy,nyitottabb, mint a hegykevésbé perspektíva, mint a nyílt terepen | |
Fehérnem mosolygós láthatóhomlok | Több fehér mint AlexRodriguezmosolygósabb, mint JaredLeto, kevesebb mosolygós mint ZacEfrontöbb VisibleForehead, mint JaredLeto, kevesebb VisibleForehead mint MileyCyrus | |
Fehérnem mosolygósnem látható Homlok | több fehér, mint AlexRodriguez, kevésbé fehér, mint MileyCyrus kevésbé mosolygós, mint HughLaurie több VisibleForehead, mint ZacEfron, kevesebb VisibleForehead, mint MileyCyrus | |
nem YoungBushyEyebrowsRoundFace | fiatalabb, mint CliveOwen, kevésbé fiatal, mint ScarlettJohanssontöbb BushyEyebrows, mint ZacEfron, kevesebb BushyEyebrows, mint AlexRodriguez több RoundFace, mint CliveOwen, kevesebb RoundFace, mint ZacEfron |
Adat
Megtanult relatív attribútumokat és azok előrejelzéseit adjuk meg a dolgozatunkban használt két adatkészlethez: a Kültéri Jelenetfelismeréshez (OSR) és a Public Figures Face Database egy részhalmazához (PubFig).
Relatív arcattribútumok adatkészlete. A közszereplők arcadatbázisából (PubFig) 60 kategóriában 29 relatív attribútumhoz tartalmaz megjegyzéseket .
Kód
Módosítottuk Olivier Chappelle RankSVM implementációját, hogy hasonlósági megszorításokkal relatív attribútumokat tanítsunk. Módosított kódunk itt található .
Ha a kódunkat használja, kérjük, hivatkozzon a következő papírra:
D. Parikh és K. Grauman
Relatív tulajdonságok
Nemzetközi Számítógépes Látás Konferencia (ICCV), 2011.
Demos
A relatív attribútumok különféle alkalmazásainak bemutatói itt találhatók . Ezeknek az alkalmazásoknak a leírása az itteni lapokban található .
Publikációk
Nemzetközi Számítógépes Látás Konferencia (ICCV), 2011. (Szóbeli)
Marr-díj (a legjobb papír díja) nyertese
[diák] [beszélgetés (videó)] [poszter] [relatív leírások bemutatója]
Az alábbiakban további relatív attribútumokat használó papírjaink találhatók:
A. Biswas és D. Parikh
Osztályozók és attribútumok egyidejű aktív tanulása relatív visszajelzésen keresztül
IEEE konferencia a számítógépes látásról és mintafelismerésről (CVPR), 2013
[projekt oldala és adatai] [poszter] [bemutató]
A. Parkash és D. Parikh
Attribútumok az osztályozói visszajelzéshez
Európai Konferencia a Számítógépes Látásról (ECCV), 2012 (szóbeli)
[diák] [beszélgetés (videó)] [projekt oldala és adatai] [bemutató]
A. Kovashka, D . Parikh és K. GraumanWhittleSearch: Képkeresés relatív attribútumok visszajelzésévelIEEE konferencia a számítógépes látásról és mintafelismerésről (CVPR), 2012
[projekt oldala] [poszter] [bemutató]
D . Parikh, A. Kovashka, A. Parkashés K. GraumanRelatív attribútumok a fokozott ember-gép kommunikációhoz (meghívott cikk)
AAAI Mesterséges Intelligencia Konferencia (AAAI), 2012 (szóbeli)
Let professional writers deal with your paper, quickly and efficiently.
Write My Paper