Relatív tulajdonságok

Eredeti cikk: https://faculty.cc.gatech.edu/~parikh/relative.html

Marr-díj (legjobb papírdíj) nyertese, ICCV 2011

Devi Parikh és Kristen Grauman

"Ki tudja a szivárványban meghúzni azt a határt, ahol az ibolya árnyalat véget ér és a narancssárga árnyalat kezdődik? Egyértelműen látjuk a színek különbségét, de pontosan hol lép be először az egyik a másikba? Tehát józansággal és őrültséggel."

-- Herman Melville, Billy Budd

[papír] [adatok] [kód] [demók] [diák] [beszélgetés (videó )] [poszter] [fordítások]

Absztrakt

Az ember által megnevezhető vizuális "attribútumok" különféle felismerési feladatokban hasznosak lehetnek. A meglévő technikák azonban ezeket a tulajdonságokat kategorikus címkékre korlátozzák (például egy személy „mosolyog” vagy sem, egy jelenet „száraz” vagy sem), és így nem képesek általánosabb szemantikai kapcsolatokat rögzíteni. Javasoljuk a relatív attribútumok modellezését. Az objektum/jelenet kategóriák különböző attribútumok szerinti kapcsolatát jelző betanítási adatok alapján megtanulunk egy attribútumonkénti rangsorolási függvényt. A tanult rangsoroló függvények megjósolják az egyes tulajdonságok relatív erősségét újszerű képeken. Ezután felépítünk egy generatív modellt az attribútum-rangsorolási kimenetek közös terére, és javasoljuk a nullapontos tanulás újszerű formáját, amelyben a felügyelő viszonyul .a láthatatlan tárgyak kategóriája a korábban látott tárgyakhoz attribútumokon keresztül (például „a medvék szőrösebbek, mint a zsiráfok”). Megmutatjuk továbbá, hogy a javasolt relatív attribútumok hogyan tesznek lehetővé új képek gazdagabb szöveges leírását, amelyek a gyakorlatban pontosabbak az emberi értelmezés szempontjából. Bemutatjuk az arcok és a természetes jelenetek adatkészleteire vonatkozó megközelítést, és bemutatjuk annak egyértelmű előnyeit a hagyományos bináris attribútum-előrejelzéssel szemben ezeknél az új feladatoknál.

Motiváció

A bináris attribútumok korlátozóak és természetellenesek is lehetnek. A fenti példákban, míg a bal felső sarokban és a jobb felső sarokban lévő képet természetesnek, illetve ember alkottaként jellemezhetjük, miként írná le a felső középső képet? Jellemzésének egyetlen értelmes módja a többi kép vonatkozásában van: kevésbé természetes, mint a bal oldali kép, de sokkal inkább, mint a jobb oldali kép.

Javaslat

Ebben a munkában relatív attribútumok modellezését javasoljuk. Az attribútum jelenlétének előrejelzésével ellentétben a relatív attribútum egy attribútum erősségét jelzi egy képen a többi képhez képest. Amellett, hogy természetesebbek, a relatív attribútumok gazdagabb kommunikációs módot kínálnak, így lehetővé teszik a részletesebb emberi felügyelethez való hozzáférést (és így potenciálisan nagyobb felismerési pontosságot), valamint azt, hogy újszerű képekről informatívabb leírásokat készítsenek.

Olyan megközelítést dolgozunk ki, amely megtanul egy rangsorolási függvényt minden egyes attribútumhoz, figyelembe véve a relatív hasonlósági megszorításokat a példapárokra (vagy általánosabban néhány példán a részleges rendezésre). A tanult rangsoroló függvény meg tudja becsülni a képek valós értékű rangját, jelezve az attribútum jelenlétének relatív erősségét bennük.

Bemutatjuk a zero-shot tanulás és a képleírás új formáit, amelyek kihasználják a relatív attribútum-előrejelzéseket.

Megközelítés

Relatív attribútumok elsajátítása: Minden relatív attribútum megtanulása egy tanulási rangsorolással történik, összehasonlító felügyelet mellett, az alábbiak szerint:

Különbséget teszünk egy széles margójú rangsoroló függvény (jobbra), amely a kívánt sorrendet kényszeríti ki a képzési pontokon (1-6) és egy széles margójú bináris osztályozó (balra) megtanulása között, amely csak a két osztályt választja el (+ és -). nem feltétlenül tartja meg a kívánt sorrendet a pontokon, az alábbiakban látható:

Újszerű nullapontos tanulás : A következő összeállítást tanulmányozzuk

  • Összesen N kategória: S látott kategória (kapcsolódó képek állnak rendelkezésre) + U nem látott kategória (nem érhetők el képek ezekhez a kategóriákhoz)
  • S látott kategória egymáshoz viszonyítva van leírva attribútumokon keresztül (nem kell minden kategóriapárnak minden attribútumhoz kapcsolódónak lennie)
  • Az U láthatatlan kategóriákat a látott kategóriákhoz (részhalmazokhoz) viszonyítva írják le attribútumok (egy részhalmaza) szerint.

Először a relatív attribútumok halmazát betanítjuk a látott kategóriákon biztosított felügyelet segítségével. Ezek az attribútumok külső adatokból is előre betaníthatók. Ezután minden látott kategóriához generatív (Gauss-modellt) építünk a látott kategóriák képeire adott relatív attribútumok válaszainak felhasználásával . Ezután következtetünk a nem látott kategóriák generatív modelljeinek paramétereire, felhasználva a látott kategóriákra vonatkozó relatív leírásaikat . Az alábbiakban bemutatjuk az általunk alkalmazott egyszerű megközelítést:

Egy tesztkép a legnagyobb valószínűséggel rendelkező kategóriához van hozzárendelve.

A képek relatív szöveges leírásának automatikus generálása: Adott egy leírandó I kép, kiértékeljük az összes tanult rangsorolási függvényt az I-n. Minden attribútumhoz azonosítunk két referenciaképet, amelyek az I két oldalán helyezkednek el, és nincsenek túl messze az I-től vagy túl közel ahhoz. Ezután az I. képet leírjuk. ehhez a két referenciaképhez képest, az alábbiak szerint:

Mint fentebb látható, amellett, hogy egy képet más képekhez viszonyítva írunk le, megközelítésünk képes egy képet más kategóriákhoz viszonyítva is leírni, ami pusztán szöveges leírást eredményez. Nyilvánvaló, hogy a relatív leírások pontosabbak és informatívabbak, mint a hagyományos bináris leírás.

Kísérletek és eredmények

Két adathalmazon végzünk kísérleteket:

  1. Outdoor Scene Recognition (OSR), amely 2688 képet tartalmaz 8 kategóriából: tengerpart C, erdő F, autópálya H, belváros I, hegy M, nyílt vidék, utca S és magas épület T. A lényegi jellemzőket használjuk a képeket.
  2. A Public Persons Face Database (PubFig) részhalmaza , amely 772 képet tartalmaz 8 kategóriából: Alex Rodriguez A, Clive Owen C, Hugh Laurie H, Jared Leto J, Miley Cyrus M, Scarlett Johansson S, Viggo Mortensen V és Zac Efron Z. Összefűzött lényegi és színjellemzőket használunk a képek ábrázolására.

Az egyes adatkészletekhez használt attribútumok listája, valamint a bináris és relatív attribútum megjegyzések az alábbiakban láthatók:

Zero-shot tanulás:

Javasolt megközelítésünket két alapvonallal hasonlítjuk össze. Az első a Score-based Relative Attributes (SRA). Ez az alapvonal megegyezik a mi megközelítésünkkel, azzal a különbséggel, hogy egy bináris osztályozó (bináris attribútumok) pontszámait használja a rangsoroló függvény pontszámai helyett. Ez az alapvonal segít felmérni a rangsorolási függvény szükségességét a relatív attribútumok legjobb modellezéséhez. A második alapvonalunk a közvetlen tulajdonság-előrejelzés (DAP) modell, amelyet Lampert és munkatársai vezettek be. Ez az alapérték segít felmérni a tulajdonságok relatív kezelésének előnyeit a kategorikussal szemben. Ezeket a megközelítéseket különböző számú láthatatlan kategória, az attribútumok betanításához használt adatmennyiség, a nem látott kategóriák leírására használt attribútumok változó száma és a nem látott kategóriák leírásának „lazasága” különböző szintjeire értékeljük. A kísérleti összeállítás részleteiről cikkünkben olvashatnak. Az eredmények az alábbiakban láthatók:

Automatikusan generált képleírások:

Annak érdekében, hogy értékeljük a bináris megfelelőihez viszonyított képleírásaink minőségét, humán vizsgálatot végeztünk. A mi megközelítésünkkel egy kép leírását hoztuk létre, valamint az alap bináris attribútumokat. Ezzel a leírással, három képpel együtt bemutattuk az alanyokat. A három kép közül az egyik volt a leírt kép. Az alanyok feladata az volt, hogy rangsorolják a három képet az alapján, hogy szerintük melyik a legvalószínűbb a leírtaknak. Minél pontosabb a leírás, annál nagyobb az esélye az alanyoknak a megfelelő kép azonosítására. Az alábbiakban az alanyoknak bemutatott feladat illusztrációja látható:

A vizsgálat eredményeit az alábbiakban mutatjuk be. Látjuk, hogy az alanyok a javasolt relatív attribútumok segítségével pontosabban azonosíthatják a helyes képet, mint a bináris attribútumok.

A képek bináris leírására, valamint a kategóriákhoz kapcsolódó leírásokra az alábbiakban kerül sor:

Kép

Bináris leírások

Relatív leírások

nem természetes

nem nyitott

perspektíva

természetesebb, mint a magasépítés, kevésbé természetes, mint az erdő,

nyitottabb, mint a magasépítés, kevésbé nyitott, mint a part,

perspektívább, mint a magasépítés

nem természetes

nem nyitott

perspektíva

természetesebb, mint a belvárosban, kevésbé természetes, mint az autópálya,
nyitottabb, mint az utca, kevésbé nyitott, mint a part,
erspektivikusabb, mint az autópálya, kevésbé perspektíva, mint a belvárosban

természetes

nyitott

perspektíva

természetesebb, mint a magas épület, kevésbé természetes, mint a hegy,

nyitottabb, mint a hegy

kevésbé perspektíva, mint a nyílt terepen

Fehér

nem mosolygós látható

homlok

Több fehér mint AlexRodriguez

mosolygósabb, mint JaredLeto, kevesebb mosolygós mint ZacEfron

több VisibleForehead, mint JaredLeto, kevesebb VisibleForehead mint MileyCyrus

Fehér

nem mosolygós

nem látható Homlok

több fehér, mint AlexRodriguez, kevésbé fehér, mint MileyCyrus kevésbé mosolygós,
mint HughLaurie több VisibleForehead, mint ZacEfron,
kevesebb VisibleForehead, mint MileyCyrus

nem Young

BushyEyebrows

RoundFace

fiatalabb, mint CliveOwen, kevésbé fiatal, mint ScarlettJohansson

több BushyEyebrows, mint ZacEfron, kevesebb BushyEyebrows, mint AlexRodriguez több RoundFace,
mint CliveOwen, kevesebb RoundFace, mint ZacEfron

Adat

Megtanult relatív attribútumokat és azok előrejelzéseit adjuk meg a dolgozatunkban használt két adatkészlethez: a Kültéri Jelenetfelismeréshez (OSR) és a Public Figures Face Database egy részhalmazához (PubFig).

README

Letöltés (v2)

Relatív arcattribútumok adatkészlete. A közszereplők arcadatbázisából (PubFig) 60 kategóriában 29 relatív attribútumhoz tartalmaz megjegyzéseket .

Kód

Módosítottuk Olivier Chappelle RankSVM implementációját, hogy hasonlósági megszorításokkal relatív attribútumokat tanítsunk. Módosított kódunk itt található .

Ha a kódunkat használja, kérjük, hivatkozzon a következő papírra:

D. Parikh és K. Grauman

Relatív tulajdonságok

Nemzetközi Számítógépes Látás Konferencia (ICCV), 2011.

Demos

A relatív attribútumok különféle alkalmazásainak bemutatói itt találhatók . Ezeknek az alkalmazásoknak a leírása az itteni lapokban található .

Publikációk

D. Parikh és K. Grauman

Relatív tulajdonságok

Nemzetközi Számítógépes Látás Konferencia (ICCV), 2011. (Szóbeli)

Marr-díj (a legjobb papír díja) nyertese

[diák] [beszélgetés (videó)] [poszter] [relatív leírások bemutatója]

Az alábbiakban további relatív attribútumokat használó papírjaink találhatók:

A. Biswas és D. Parikh

Osztályozók és attribútumok egyidejű aktív tanulása relatív visszajelzésen keresztül

IEEE konferencia a számítógépes látásról és mintafelismerésről (CVPR), 2013

[projekt oldala és adatai] [poszter] [bemutató]

A. Parkash és D. Parikh

Attribútumok az osztályozói visszajelzéshez

Európai Konferencia a Számítógépes Látásról (ECCV), 2012 (szóbeli)

[diák] [beszélgetés (videó)] [projekt oldala és adatai] [bemutató]

A. Kovashka, D . Parikh és K. GraumanWhittleSearch: Képkeresés relatív attribútumok visszajelzésévelIEEE konferencia a számítógépes látásról és mintafelismerésről (CVPR), 2012
[projekt oldala] [poszter] [bemutató]

D . Parikh, A. Kovashka, A. Parkashés K. GraumanRelatív attribútumok a fokozott ember-gép kommunikációhoz (meghívott cikk)
AAAI Mesterséges Intelligencia Konferencia (AAAI), 2012 (szóbeli)