Kuidas muuta oma andmed ja mudelid tõlgendatavaks kognitiivteadustest õppides

(Selle postitusega kaasneb Been Kim South Park Commonsis peetud vestlus tõlgendatava masinõppe kohta. Kui soovite tehnilisi üksikasju Been Kimilt endalt, vaadake selle postituse allosas olevat videot ja pabereid.)

Sissejuhatus: enamik masinõppe mudeleid on vaieldamatud. Mis me teha saame?

See on tänapäevase masinõppe kahetsusväärne tõde: isegi kui teie mudel töötab teie optimeeritud mõõdikul suurepäraselt, ei tähenda see, et jääte selle tegelikkuses rahule.

Muidugi, testide täpsus on suurepärane. Kuid te pole võib-olla märganud, et selle tehtud vead on koondunud kategooriatesse, mille puhul on oluline mitte segamini ajada (näiteks mustanahaliste märkimine gorilladeks). See võib tugevdada diskrimineerivaid eelarvamusi, kuna te ei kodeerinud oma objektiivsesse funktsiooni õiglust (Bolukbasi jt 2016). See võib suurejooneliselt ebaõnnestuda, kui tegelik keskkond erineb katsekeskkonnast märkamatult (vastandlikud näited, nt Goodfellow jt 2014). Või võib see rahuldada teie taotluse kirja, kuid kindlasti mitte vaimu (https://blog.openai.com/faulty-reward-functions/).

Vasakul: madala üldise veamääraga klassifikaatorid võivad ikkagi teha ränki vigu, näiteks mustanahaliste inimeste ebakorrektne märgistamine gorilladeks. Parempoolne: tänapäevases keelekasutuses peegelduvad sõna manused peegeldavad ka tänapäevaseid stereotüüpe, kui nende erapoolikusele eriti tähelepanu ei pöörata (https://arxiv.org/abs/1607.06520).Vasakul: klassifikaatorid võivad silmatorkavate muudatuste korral silmatorkavalt ebaõnnestuda (https://arxiv.org/abs/1412.6572). Õige: tugevdusõppega koolitatud esindajad teevad seda, mis teenib kõige rohkem tasu, mitte seda, mida te stimuleerida kavatsesite (https://blog.openai.com/faulty-reward-functions/).

Probleem on selles, et üksik mõõdik, näiteks klassifitseerimise täpsus, on enamiku reaalmaailma ülesannete mittetäielik kirjeldus (Doshi-Velez ja Kim 2017). Muid olulisi tulemusi - nagu õiglus, privaatsus, ohutus või kasutatavus - ei kajastata lihtsas jõudlusmõõdikus.

Kui jätkame ML-i kasutuselevõttu üha enam reaalsetes rakendustes, võivad soovimatud tulemused muutuda ühiskonna jaoks üha problemaatilisemaks (nagu arutasid algatus AINow, tuleviku eluinstituut ja muud rühmad). Mis me teha saame?

Arusaadavus: üks tee edasi

Üks uurimistöö nende raskuste lahendamiseks on seletatavate või tõlgendatavate mudelite väljatöötamine. Võimalus mõista, millised näited on mudeli jaoks õiged või valed ning kuidas see vastuseid saab, võib aidata ML-süsteemide kasutajatel märgata olulisi lünki vormistatud probleemikirjelduse ja soovitud reaalmaailma tulemuste vahel.

Viimastel aastatel on teadlased alustanud mudeli tõlgendatavust käsitlevaid seminare ja konverentse, näiteks NIPS-i tõlgendatava ML-i seminar ja õigluse, vastutuse ning läbipaistvuse (FAT *) konverents. Rahastajad ja seadusandjad otsivad lahendusena ka selgitatavust, alates ELi hiljutisest õigusest selgitada seadusi kuni DARPA seletatava AI programmiga.

DARPA XAI-programmi eesmärk on „Selgitatavamate mudelite loomine, säilitades samal ajal õpitulemuste kõrge taseme (ennustamise täpsus)“ ja „Võimaldada inimestel kasutajatel mõista kunstlikult intelligentsete partnerite tekkivat põlvkonda, neid vastavalt usaldada ja neid tõhusalt juhtida.“ “

Been Kim: “inimese” tõlgendamine “inimesele tõlgendatavaks”

Been Kim on teadlane, kes loob tõlgendatavaid ML-mudeleid Google Braini People + AI uurimisalgatuses. Oma hiljutises vestluses South Park Commonsi AI esinejate sarjas tutvustas ta mitmeid meetodeid, milles kasutatakse näidetepõhiseid arutluskäike, mis on inspireeritud inimese otsustusprotsessi kognitiivsest teadusest, ja näitas, et inimestel on neid lihtsam ennustada ja nendega koostööd teha.

Erinevalt teistest lähenemisviisidest on Kim'i looming otseselt inspireeritud inimlike mõttekäikude kognitiivsest teadusest. Täpsemalt: inimese mõttekäik põhineb sageli prototüübil, kasutades kategooriate ja otsuste tegemisel esinduslikke näiteid. Samamoodi kasutavad Kim'i mudelid representatiivseid näiteid andmete selgitamiseks ja grupeerimiseks.

Kim'i kogu vestluse vältel toetati väiteid „tõlgendatavuse” kohta eksperimentaalsete andmetega, mis näitavad konkreetseid soovitud tulemusi - näiteks et kasutajad saaksid mudeli tulemusi järjekindlamalt prognoosida või et nad annaksid kõrgema subjektiivse rahulolu.

Selle postituse ülejäänud osas selgitan kahte peamist meetodit, mida Been Kim oma jutu ajal näitas:

Esimene meetod, mida nimetatakse MMD-kriitiliseks (Maximum Mean Discrepancy), ei ole iseenesest ML-mudel, vaid pigem viis andmete mõistmiseks. See on järelevalveta meetod, mida saab rakendada märgistamata andmestikule või märgistatud andmestiku üksikutele kategooriatele.

Teine meetod, nimega Bayesian Case Model (BCM), on juhendamata õppemeetod, mis kasutab nii prototüüpe kui ka hõredaid funktsioone paremini tõlgendatavaks, ilma et oleks vaja võimu kaotada võrreldes standardmeetoditega. Kim näitab ka, et BCM-idega on inimestel kergem koostööd teha, kui integreerida BCM-i mudel kursuseülesannete klassifitseerimise ülesandesse.

Annan lühikese ülevaate MMD-Critic ja BCM toimimisest. Kui soovite rohkem üksikasju, kui siin pakun, siis tasub kindlasti vaadata selle postituse lõpus olevaid videoid ja pabereid.

MMD-kriitik: prototüüpide ja kriitika kasutamine oma andmete vaatamiseks

Andmeanalüüsi praktikantide nõustajate seas on tavaline hoiak, et pigem vaadake oma andmeid! Mitte selle asemel, et hüpata pimesi mudelisse. See on suurepärane nõuanne. Kokkuvõtliku statistika liigne usaldus võib varjata veidraid sisendjaotusi, katkenud andmejuhtmeid või halbu eeldusi. Eeskätt modelleerimisraamistiku poole jõudmine, kui teie lähteandmed on jama, on peamine retsept „prügi sisse, prügi välja”.

See ütles, kuidas täpselt peaksite oma andmeid uurima? Kui teie andmed koosnevad tuhandetest piltidest, ei saa te neid kõiki vaadata. Kas peaksite lihtsalt vaatama pilti 000001.png kuni 000025.png ja helistama, et see on piisavalt hea?

Eksemplaripõhine kategoriseerimine

Sellele küsimusele vastamiseks võttis Kim inspiratsiooni kognitiivsest teadusest, kuidas inimesed kategooriaid mõistavad. Täpsemalt võib inimeste kategoriseerimist modelleerida prototüüpide kasutamise teel: näited, mis esindavad kogu kategooriat tervikuna. Üksuse kategooria liikmesus määratakse kindlaks selle sarnasuse kaudu kategooria prototüüpidega. (lisateabe saamiseks kognitiivse teaduse kohta vaadake https://en.wikipedia.org/wiki/Prototype_theory ja https://en.wikipedia.org/wiki/Recognition_primed_decision)

Prototüüpidel põhineva arutluse üks puudusi on see, et see on aldis liigsele generalisatsioonile. See tähendab, et prototüüpiliste liikmete omadused on eeldatavasti rühmas üldiselt jagatud, isegi kui rühmas on olulisi erinevusi. Üks tehnikat, mis aitab vältida üleüldist üldistamist, on reegli erandite või kriitika näitamine: vähemuste andmepunktid, mis erinevad prototüübist oluliselt, kuid kuuluvad sellegipoolest kategooriasse.

Näiteks koosneb kassipiltide levitamine enamasti üksikutest kassidest istudes, seistes või pikali. Kassi kujutis, mis on laiali sirutatud klaviatuuri kõhuli, kostüümi seljas või peidus koti sees, on siiski kassipilt, ehkki see erineb oluliselt prototüüpilistest piltidest. Need ebaharilikud näited on pigem olulised vähemused kui üksikud kõrvalnähud. Kassipilte, millel on kujutatud ebatüüpilised positsioonid ja kostüümid, on palju ja seetõttu on need pildid kassi piltide täielikuks mõistmiseks olulised.

Prototüüpsed kasside pildid võivad sisaldada kasside ühiseid vaateid (istudes, seistes või lamades) ja ühiseid värve.Kriitika võib hõlmata kasside ebaharilikke vaateid: laiali klaviatuuril, kostüümi kandmist või kotti peitmist. Ehkki need vaated on ebatüüpilised, on need siiski ikkagi kassipildid ja tuleks sellesse kategooriasse lisada. Niisuguse kriitika näitamine võib vältida liigset üldistamist.

MMD-kriitiku algoritm

Kim jt. töötas välja juhendamata algoritmi prototüüpide ja kriitikute automaatseks leidmiseks andmekogumile, mida nimetatakse MMD-kriitikuks. Märgistamata andmete kasutamisel leiab see prototüübid ja kriitikud, mis iseloomustavad kogu andmekogumit. Seda saab kasutada ka märgistatud andmestiku piltide kategooria visualiseerimiseks.

MMD-kriitiku algoritm töötab kahes etapis: esiteks valitakse prototüübid nii, et prototüüpide komplekt sarnaneb täieliku andmestikuga. Maksimaalne keskmine erinevus (MMD) tähendab prototüübi ja täieliku andmejaotuse erinevuse mõõtmise konkreetset viisi. Teiseks valitakse kriitika prototüüpide alaesindatud andmestiku osade hulgast koos täiendava piiranguga kriitika mitmekesisuse tagamiseks. Selle meetodi tulemuseks on prototüüpide komplekt, mis on tüüpiline kogu andmekogumile, ja kriitika komplekt, mis tuvastab andmekogu suured osad, mis prototüüpidest kõige rohkem erinevad.

Kui soovite proovida MMD-Criticit omaenda andmete põhjal, on rakendus saadaval aadressil https://github.com/BeenKim/MMD-critic.

Kui MMD-kriitikut rakendatakse USPS-numbrite andmekogumile (töötlemata piksliruumis), näevad prototüübid välja nagu tavalised numbrid, samas kui kriitika sisaldab horisontaalseid jooni, eriti pakse numbreid ja nõrku numbreid. Pange tähele, et prototüübid on nummerdatud järjekorras lihtsalt visualiseerimise huvides; MMD-kriitiku meetod ei kasutanud kategooria silte mingil viisil.MMD-kriitikut saab rakendada ka vahepealsete andmete esinduste jaoks, mis on läbinud manustamisastme või suurema mudeli osa. Siin visualiseeritakse üks piltNetNet pärast pildi manustamist. Selles esindusruumis on selle kategooria prototüübid täisvärvilised esipildid, erandiks on mustvalged pildid ja veider vaatenurk.

Pilootuuring inimestega

MMD-kriitiku meetodi valideerimiseks koostas Kim väikese pilootuuringu, milles inimsubjektid tegid kategoriseerimisülesande. Kasutajatele näidati looma pilti ja neil paluti ennustada, millisest alarühmast see pärineb (näiteks kui neile näidatakse koera, peaksid nad näite põhjal liigitama selle 1. tõuks või 2. tõuks) pildid iga tõu kohta).

Kasutajatele anti see ülesanne neljas erinevas olukorras, mis näitas rühmaliikmeid erineval viisil: 1) kõik pildid igas rühmas (neist 200–300); 2) lihtsalt prototüübid; 3) prototüübid ja kriitika ning 4) juhuslik valik pilte igast rühmast, sama palju pilte kui tingimusel 3.

Oma piloottulemustes leidis Kim tõendeid, et:

  1. Iga rühma ainult prototüüpide vaatamine võimaldas kasutajatel teha täpsemaid ja ajaliselt tõhusamaid ennustusi, võrreldes kõigi rühma liikmete või juhusliku alamhulgaga.
  2. Kriitika lisamine parandab täpsust ainult prototüüpide osas, ajakulude säästmisele väikeste kuludega.
  3. Piltide juhusliku alamhulga vaatamine on kõige vähem täpne ja kõige vähem tõhus.
Kasutajatel paluti määrata loomade kujutised 1. rühma või 2. rühma. Igas küsimuses kasutati erinevat loomaliiki - koer, rebane jne - ja igas rühmas oli erinev alamliikide sort (koera tõug, rebase tüüp jne). Katsealustele näidati rühmi erineval viisil: kasutades kõiki rühma liikmeid, ainult prototüüpe, prototüüpe + kriitikat või juhuslikku alamhulka.Prototüüpide vaatamine võimaldas kasutajatel teha täpsemaid ja tõhusamaid ennustusi, võrreldes kõigi andmete või juhusliku alamhulgaga. Sealhulgas kriitika parandas täpsust ainult prototüüpide osas, väikeste kulutustega tõhususele.

Bayesian Case Model (BCM): cog-sci-inspireeritud klasterdamine

Valik prototüüpe ja kriitikat võib anda ülevaate andmekogumist, kuid see pole iseenesest masinõppe mudel. Kuidas saaks prototüübil põhinevat arutlust laiendada täieõiguslikule ja töötavale ML-mudelile?

Teine kahest oma vestluses esitatud mudelist, mida Been Kim esitas, oli uudne lisamudeli tüüp, mis oli kavandatud kaasama juhtumipõhise arutluse tõlgendatavust, kaotamata toimivust võrreldes standardsegude mudelitega.

Selleks, et mõista Bayes'i juhtumimudelit kui juhtumipõhise arutluskäigu rakendamist "segumudelitele", on kasulik selgitada, millele need mõisted viitavad:

  • Juhtumipõhised mõttekäigud on inimlikud mõttekäigumeetodid reaalse maailma probleemide lahendamiseks. Varem nähtud näiteid kasutatakse tellinguna uudsete probleemide lahendamisel. Selgitatakse välja asjakohased tunnused, mis seostavad vana probleemi uue probleemiga, ning varasemaid probleemide lahendamise strateegiaid kasutatakse uuesti ja vaadatakse läbi. See on midagi enamat kui lihtsalt ametlik probleemide lahendamise protseduur; see on ka kirjeldus igapäevastest mitteametlikest mõttekäikudest.
  • Lisamudel on generatiivse mudeli tüüp juhendamata õppimiseks. Andmejaotuse tunnused on modelleeritud nii, et need tulenevad alusallikate segust (näiteks teemad, alampopulatsioonid või klastrid), mis on tuletatud, kuid mida ei ole otseselt jälgitud. Lisamudeli sobitamine vaadeldava andmekogumiga on juhendamata õppimise vorm. Tuvastatud alusallikaid saab andmete alusstruktuurist ülevaate saamiseks otse kontrollida või kasutada neid klastrianalüüsi alusena. (Lisateavet leiate segumudelite Vikipeediast, lisaks selgitus selle kohta, kuidas segusegud erinevad segumudelitest)

Mõistamaks erinevusi selliste traditsiooniliste lisamudelite nagu latentne dirižeti jaotamine (LDA) ja Bayessi juhtumimudeli (BCM) vahel, mille Kim esitas, mõelge järgmisele joonisele Kim 2015:

Kui tüüpilised lisamudelid, näiteks LDA (keskel), tähistavad igat klastrit funktsioonide tõenäosuste loendina, siis Bayes'i juhtumimudelis (paremal) kasutatakse iga klastri jaoks kognitiivsemalt juurdepääsetavamat käepidet: selle klastri prototüübina üks näide, koos juhistega millistele prototüübi omadustele on oluline tähelepanu pöörata.

Selles näites on segunevat mudelit kasutades analüüsitud erineva kuju, värvi, silmade ja suuga koomiksinägude hüpoteetilist andmekogumit ja avastatud on kolm aluseks olevat klastrit (vasak veerg). LDA ja BCM leiaksid sarnased klastrid; need erinevad ainult klastrite esindatuse poolest. BCM esindab klastrid tõlgendatavamas vormingus, ilma esindusjõudu kaotamata.

Tüüpiline segumudel (keskmine veerg, LDA) esindaks kolme klastri identiteete tunnuste tõenäosuste pika loendina - 26% rohelise värvi tõenäosus, 23% ruudu kuju tõenäosus jne. Inimestel võib seda olla keeruline tõlgendada kuna see pakub klastri jaoks kokkuvõtlikku ja meeldejäävat käepidet pesemisloendit pidevatest väärtustest (vt Doshi-Velez ja Kim 2017 arutelu “kognitiivsete tükkide” kohta). Seevastu Bayesi juhtumimudel esindaks iga klastrit, kasutades 1) esindusliku klassi liikme prototüüpset näidet (parem veerg, “prototüüp”) ja 2) prototüübi funktsioonide alamruum, mis on klastri liikmeks saamisel tegelikult oluline (parem veerg) , “Alamruumid”). See pakub iga klastri jaoks kognitiivselt juurdepääsetavamat käepidet: üks näide prototüübina koos juhistega selle kohta, millistele prototüübi omadustele on oluline tähelepanu pöörata.

„Mehhiko toidu” klastrit saab esindada, kasutades prototüübina taco. Kuid mõned taco omadused (näiteks kõva kest ja salat) on spetsiifilised just takodele, mitte aga laias laastus olulistele kogu Mehhiko toiduklastrile. Olulised omadused on salsa, hapukoor ja avokaado.

BCM hindamine interaktiivse hindamissüsteemi abil

Hinnates sel juhul tõlgendatavust, keskendus Kim kasutajate võimalusele teha mudeliga interaktiivset muutmist.

Ta ehitas BCM-põhise interaktiivse laienduse OverCode'ile (http://people.csail.mit.edu/elg/overcode), süsteemis, mis kasutab klastrianalüüsi, et juhendajad saaksid tuhandeid programmeerimislahendusi visualiseerida. Interaktiivne laiend võimaldas instruktoritel klastritega otseselt manipuleerida, valides, milliseid esildisi tuleks kasutada BCM-i prototüüpidena ja millised märksõnad on iga prototüübi olulised alamruumid.

Kui juhendajad said ülesandeks kasutada interaktiivset BCM-süsteemi, et valida ettekandmistes näidete komplekt, siis teatasid nad, et on rahulolevamad, uurisid paremini õpilaste esildiste kogu spektrit ning avastasid rohkem kasulikke funktsioone ja prototüüpe (p < 0,001), võrreldes mitte-interaktiivse versiooniga.

OverCode'i interaktiivne BCM-i laiendus näitab kognitiivselt inspireeritud segumudelite paindlikkust. Kuna mudeli klastrite määratlemisel on kasutatud inimeselaadseid juhtumipõhiseid põhjendusi, saavad kasutajad mudeliga interaktiivselt manipuleerida, et lisada oma domeeniga seotud asjatundlikkus.

Tee ees

Küsimuste ja vastuste ajal andis Kim aimu mõnedest huvitavatest tulevikuprobleemidest, mille tõlgendamisel ML on jäänud lahendama:

  1. Näited pole kõigele lõplik vastus. Näiteks meditsiiniuuringutes tahavad teadlased avastada uusi mustreid, mida nad veel ei näe ega märka. Esindusliku patsiendi näide võib esile kutsuda reaktsiooni: “tean selle patsiendi kohta kõike; mis siis?"
  2. Te ei saa oodata, et inimene mõistaks või ennustaks, mis üleinimliku jõudlusega süsteemil toimub, peaaegu definitsiooni järgi. Inimese ennustatavusele tõlgendatavuse mõistmine pole enam otsekoheselt kasulik, kui süsteemid ületavad meie võime oma tegevust ette näha. Sellegipoolest usub Kim, et tõlgendatavus jääb üliohkete inimeste süsteemide jaoks oluliseks. Isegi kui neid ei saa terviklikult mõista, on siiski võimalik ühest andmepunktist kohalikul tasandil aru saada, miks otsus teatud viisil tehti.

Järeldus / kokkuvõte

Võtsin Been Kimi jutust ära järgmised olulised kaasavõtmised:

  • Kui soovite oma töötlemata andmeid vaadata, keskenduge prototüüpsetele näidetele, kui soovite oma andmete vaatamiseks tõhusamat ja täpset viisi kui juhuslik valim. Lisaks lisage kriitika, et teie andmete mitmekesisus oleks võimalikult täpne.
  • Veendumaks, et kasutajad saavad teie mudelitega koostööd teha, kaaluge mudelite kohandamist inimese tunnetuse eripäradega. Kui teie süsteem mõtleb nii, nagu teie kasutajad, siis on teie kasutajatel tõenäoliselt parem oma teadmised süsteemile tagasi anda.
  • “Tõlgendatavusel” on palju tähendusi. Määratlege oma eesmärgid konkreetse rakenduse jaoks selgelt ja tehke katseid inimestega, et veenduda, kas teie mudel saavutab teie soovitud kasutajatulemused.

Kuna ML-süsteemid muutuvad üha võimsamaks, on meile üha olulisem olla usaldus selle vastu, mida nad teevad. Ja selleks, et see usaldus oleks põhjendatud ja mitte kohane, peame arvestama, mida tähendab inimesel konkreetselt „omada enesekindlust“, „usaldada“ või „mõista“. Meie tähelepanuulatus on piiratud ja meie kognitiivsed võimalused on idiosünkraatilised ja vältimatult inimlikud. Kui tahame tõeliselt mõista tuleviku ja tänapäeva ML-i süsteeme, peame arvestama oma mõistmisprotsessiga.

See on kokkuvõte jutust, mille Kim peatas South Park Commonsi AI esinejate sarjas pealkirjaga “Interaktiivsed ja tõlgendatavad masinõppe mudelid”. Google'i pakutavad ja loal kasutatud pildid ja videod vestlusest.

Lisa: täielik video, slaidid, paberid ja kood

  • Talk slaidid allalaadimiseks
  • Terve video allpool:

MMD-kriitilised ressursid:

  • Näiteid pole piisavalt, õppige kritiseerima! Kriitika tõlgendatavuse suhtes. Kim, Khanna ja Koyejo, NIPS 2016.
  • Githubi kood: https://github.com/BeenKim/MMD-critic
  • NIPS-i suuline esitlus: slaidid ja 15-minutiline vestlus

BCM paberid ja kood:

  • Bayes'i juhtumimudel: generatiivne lähenemisviis juhtumipõhisele mõttekäigule ja prototüüpide klassifitseerimisele. Kim, Rudin ja Shah, NIPS 2014.
  • iBCM: interaktiivne Bayesi juhtumimudel, mis annab inimestele võimaluse intuitiivse interaktsiooni kaudu. Kim, Glassman, Johnson ja Shah, MIT CSAIL TR 2015.
  • Kood: https://users.cs.duke.edu/~cynthia/code/BCM.zip

Seotud dokumendid:

  • Tõlgendatud masinõppe range teaduse poole. Doshi-Velez ja Kim 2017