Kuidas öelda andmeteadusprojektidele ei? - Intervjuu Fraktal Analyticsi andmeteadlase Saikatiga

Foto autor Kai Pilger saidil Unsplash

Saikat selgitab raamistikku, mida ta kasutab andmeteaduse projektide väärtuspakkumise kindlaksmääramiseks ja ütleb neile „Ei”.

Viisakus: https://www.linkedin.com/in/saikatkumardey/

Saikat Kumar Dey on Fractal Analyticsi andmeteadlane. Tema lugu on põnev, kuidas ta on läinud tarkvarainsenerist andmeteadlase juurde. Avastasin Saikati tema veebisaidi http://saikatkumardey.com kaudu. Tal on selle kallal mõni suurepärane projekt. Temaga intervjuud tehes kirjeldas ta oma mõtteprotsessi sellest, kuidas ta ütleb andmeteaduse projektidele eitavalt. Tema vastus oli nii hästi korraldatud kui ka asjalik. Palun lugege intervjuud, et rohkem teada saada ...

Veel mõnda sarnast inspiratsiooni:

Vimarsh Karbhari (VK): Millised AI / ML / DS kohta käinud kolm parimat raamatut on teile kõige rohkem meeldinud? Millised raamatud on teie karjääris kõige suuremat mõju avaldanud?

Saikat Kumar Dey (SD): Õpin tehes. Niisiis, mulle meeldib lugeda raamatuid, kus kirjutatakse koos nendega ka koodi. Kolm parimat raamatut, mis mulle kõige rohkem meeldinud on: Kollektiivse intelligentsuse programmeerimine, Masinõppimine tegevuses ja Mõtle statistikale.

VK: Milline tööriist / tööriistad (tarkvara / riistvara / harjumus), mis teil on andmeteadlasena, mõjutab teie tööd kõige rohkem?

SD: Jupyteri märkmik. Kordustatava töö loomine, mida saaks jagada kolleegide või kogu maailmaga, pole kunagi olnud lihtsam. Jupyteri sülearvuti muudab töö kirjutamise, kodeerimise ja kõigile tutvustamise tõesti lihtsaks. Mulle meeldib Markdownis kirjutada väikeseid märkmeid oma mõtteprotsessist, kui töötan ükskõik millise projekti kallal. Kui mul on vaja oma vanade projektide juurde tagasi pöörduda, võisin hõlpsalt meelde jätta seda, mida mõtlesin. Seal on kõik olemas. Samuti püüan ML-i kohta uut raamatut lugedes leida Githubist selle raamatu jaoks koodi. See aitab mul raamatus sisalduvaid ideid reprodutseerida.

VK: Kas saate jagada andmeteadusega seotud rikete / projektide / katsete kohta, mida olete kõige rohkem õppinud?

SD: Mäletan, et töötasin oma eelmise ettevõtte konkurentide analüüsi projekti kallal. See oli minu esimene Data Science projekt ettevõttes. Idee oli välja mõelda sarnased ettevõtted nende FourSquare-siltide põhjal. Naabruses asuvad sarnased ettevõtted võivad olla konkurendid. Sain andmeid FourSquare'ist ja kasutasin probleemi lahendamiseks sarnasuspõhist lähenemist.

Ma pole kunagi mõelnud küsida, kes seda mudelit kasutab? Kuidas seda mudelit kasutusele võetakse? Nagu selgus, polnud enamik meie klientidest VKEsid (väikesed ja keskmise suurusega ettevõtted) FourSquare'is saadaval. Enamikku neist ei olnud ka Google Placesis (kahe ettevõtte läheduse kindlakstegemiseks). Projekt lammutati hiljem.

Nägin huvitavat probleemi ja asusin seda lahendama. Lahenduse täpsust / toimivust peeti ebaoluliseks pärast seda, kui arvasime, et me ei saa seda oma kliendibaasi kasutada. Tohutu õppetund. :)

VK: Kui kirjutaksite raamatu, mis oleks selle raamatu pealkiri? Millised oleksid peamised teemad, mida raamatus käsitleksite?

SD: „Rakendusmasinaõpe” - raamat viib lugejad teekonnale, mille käigus ehitatakse projekte otsast lõpuni. See võtab õppimisel ülalt alla lähenemise. Enamik raamatuid / blogisid / MOOC-sid rakendab ML-i kohaldamise demonstreerimisel kontseptsioonide tõestust. Need on kasulikud algajatele. Enamik inimesi ei tea aga, kuhu järgmisena minna. Nad õpivad seda raskelt. Edasijõudnud õppija jaoks on oluline teada:

  1. Kuidas esitada õigeid küsimusi?
  2. Kuidas kvaliteetseid andmeid koguda?
  3. Kuidas luua tõhusat andmesalvestusstrateegiat (kui kvaliteetsed andmed pole saadaval)?
  4. Kuidas ehitada automatiseeritud torujuhet ML-i mudelite koolitamiseks / valideerimiseks / juurutamiseks / jälgimiseks?
  5. Kuidas ehitada inseneritoru, et teised saaksid teie ML-i rakendust kasutada?
  6. Kuidas luua MVP ja kas teil on strateegiaid, mida korrata?

VK: Mis on teie parimad investeeringud aja, raha või energia osas, mis on andnud teile karjääris palju hüvesid?

SD: Minu osakonna professori poole pöördumine mõne huvitava probleemiga tegelemiseks oli tema jaoks parim otsus, mille olen ülikoolis teinud. Valmistasin end tarkvarainseneriks. Projektide kallal töötades tekkis aga huvi MLi vastu ja natuke õnnega sain alustada oma andmeteadlase karjääri.

Töötame kõrvalprojektide kallal, mille panin aeg-ajalt üles GitHubis.

Andmeteaduskonverentsi Viies elevant vabatahtlik tegevus. Ma pidin seal kohtuma nii paljude huvitavate inimestega. Kohtusin inimestega, kellel olid sügavad teadmised ML / DL algoritmidest, mis inspireerisid mind oma aluseid tugevdama.

VK: Millised on absurdsed ideed andmeteaduskatsete / projektide ümber, mis ei ole intuitiivsed väljastpoolt vaadates?

SD: tänu AI hüpele viimastel aastatel on ootused ML-põhiste rakenduste suhtes kõrged. Inimesed arvavad, et ML saab millestki midagi luua. GIGO (prügi sisse, prügi välja) põhimõte on selles kontekstis kohane.
Mäletan ühte konkreetset juhtumit. Töötasime chatboti ehitamise kallal. Me ehitasime selle üles lahendama teatud domeeniga seotud probleemide komplekt. Inimeste ootused vestlusoboti suhtes olid sama kõrged kui Siri / Google-Assistent / Alexa. Vaevalt inimesed aru said, et me ehitame seda nullist :). Mul olid kolleegid (tarkvarainsenerid), kes aeg-ajalt hiilivad sisse ja soovitavad mul kasutada süvaõpet (eriti LSTM-e). Oluline oli, et edastaksime süsteemi võimalused esmajoones.

VK: Mis on teie tööelu paremaks muutnud viimase aasta jooksul ja sellest võiks kasu olla teistele?

SD: projekti elutsükli erinevatel etappidel (enamasti Google'i dokumentides) tehtud otsuste märkmete tegemine ja meeskonnaga jagamine. See aitab hoida kõiki teose olekuga samal lehel.

VK: Millist nõu annaksite kellelegi, kes selle valdkonnaga alustaks? Millist nõu peaksid nad ignoreerima?

SD: keskenduge lahedate asjade loomisele. Seejärel puurige alla ja õppige selle ehitamiseks kasutatavaid algoritme / tehnikaid.

Ignoreerige inimesi / raamatuid / videoid, mis teile lubavad:

  • Õpetage andmeteadust või ML-d ilma matemaatikata. Matemaatika on oluline. Peaksite õppima, kuidas algoritm töötab, tehtud oletusi ja miks see töötab. Lineaarses algebras ja statistikas tugeva aluse omandamine aitab teil kaugele jõuda.
  • Õpetage andmeteadust X nädala / kuu jooksul. See on tohutu väli, mille täitmiseks on vaja aastaid. Selleks ajaks, kui olete järelejõudmisele lähedal, oleks väli veel kaugemale jõudnud. Kutsun teid üles lugema Õpetage endale programmeerimine 10 aasta pärast. See artikkel sobib õppimiseks mis tahes valdkonnas ja igas valdkonnas.

VK: Millised on teie arvates infoteaduses antud halvad soovitused?

SD: rohkem rõhku pannakse algoritmidele kui andmetele. Nagu ma juba varem mainisin, on prügi sisse = prügi väljastamise põhimõte üsna kohane. Sügav õppimine pole kõikjal rakendatav. Kõikide saadaolevate algoritmide jõuline sundimine ei toimi hästi, kui te ei peatu ega mõtle, mis toimub. Paljud probleemid, mida teie ettevõttes lahendaksite, tuleb võib-olla lahendada nullist alates, kui andmeid on vähe või puuduvad üldse. Mida te siis kasutaksite?

VK: Kuidas määrate katsetele / projektidele ütlemise Ei?

SD: alustan projektide tellimisega nende väärtuse pakkumise alusel. Seejärel järgin allpool loetletud oluliste küsimuste esitamise raamistikku. Tähtsa ülesande valimine on siis lihtne, kui hindate neid objektiivselt. Enamasti on funktsiooni / rakenduse loomine äriotsus ja te peaksite seda järgima. Sellistel juhtudel on oluline, et teataksite piirangutest ja seaksite ootused varakult paika.

Enne mis tahes andmeteaduse projekti alustamist tuleks küsida järgmised küsimused:

  1. Kas see probleem on lahendamist väärt?
  2. Kes kasutab meie rakendust?
  3. Kas meil on praegu selle probleemi lahendamiseks vajalikke andmeid?
  4. Millised on meie andmeallikad?
  5. Kui meil praegu puuduvad andmed, kas saame luua andmete kogumiseks praegu torustiku, et saaksime tulevikus kasutada Data Science'i?
  6. Kas siin tehakse ML asemel heuristilist tööd?
  7. Milliseid tehnilisi jõupingutusi selle rakenduse toetamiseks vajame?

VK: Kas tunnete end kunagi andmemahu või katse mahu või andmeprobleemide pärast ülekoormatud? Kui jah, mida teete oma mõtte tühjendamiseks?

SD: enamikul seni lahendatud probleemidest puudusid ülekaalukad andmed. Projekt võib siiski liiga palju tundmatute tõttu üle jõu käia (ja kui peate ikkagi edasi minema ja seda ikkagi tegema). Nendel juhtudel üritan oma disaini lihtsustada ja ehitada välja esimene toimiv versioon (MVP), mõtlesin, et kordan seda ja aja jooksul parandan veelgi.

VK: Kuidas arvate oma hüpoteesi / tulemuste esitamist, kui olete jõudnud lahenduseni?

SD: projekti süstemaatilise väljatöötamise järgimine aitab vähendada projekti tutvustamiseks tehtavaid lisapingutusi. Töötan peamiselt Jupyteri sülearvutitega, mida saaks igal hetkel esitada slaididena. Tulemuste tutvustamise raamistik on:

  1. Probleemipüstituses
  2. Väärtuse pakkumine
  3. Tehtud eeldused
  4. Huvitavad sissejuhatused uurimuslikust analüüsist (visualiseerimiste / agregatsioonide / statistika kujul).
  5. Mudeli ennustuste selgitus (kui ennustav mudel oli üles ehitatud).
  6. Näited valepositiivsetest / valedest negatiivsetest ja strateegiad selle kohta, kuidas neid järgmises iteratsioonis vähendada (sõltuvalt ettevõtte kasutuse juhtumist).
  7. Tuleviku kaalutlused.

VK: Milline on intuitsiooni roll teie igapäevases töös ja tööl suurte otsuste tegemisel?

SD: intuitsioon aitab teil hinnata konkreetse probleemi lahendamiseks vajalikke jõupingutusi. Mõnikord võib rakenduse loomine tunduda lihtne. Kuid intuitsioon võib aidata teil hinnata rakenduse mahukaks haldamiseks vajalikke pingutusi. Intuitsioon aitab ka ennetada probleeme, mis võivad tulevikus tekkida seoses praegusel ajal vastu võetud otsustega. Ainult kogemustega saab see paremaks, nii et enne suurte otsuste tegemist ajurünnakuks saan oma kolleegidega (kes on minust kogenumad). See aitab mul näha asju erinevatest vaatenurkadest.

VK: Milline on teie arvates ideaalne andmemeeskonna organisatsiooniline paigutus?

SD: andmemeeskond peaks aru andma otse tegevjuhile ja tegema tihedat koostööd toote- ja insenerimeeskondadega. Andmemeeskond (rohkem kui ükski teine ​​meeskond) on oluline viia vastavusse ettevõtte visiooniga. Asjade perspektiivi viimiseks võib olla, et puuduvad igasugused andmed. Andmeteaduse omamine toote keskpunktis aitab automatiseerimis- / luurekavade üle varakult otsustada. See aitab gaasijuhtme tähtsuse järjekorda seadmist nii, et kui meil on piisavalt andmeid, kasutame seda õigesti.

VK: Kui sa saaksid oma karjääri täna ümber teha, mida sa teeksid?

SD: loeksin lähemalt statistikat (bayesian & Frequentist) ja Lineaarset algebrat. Masinõppes on palju uusi ideid, mida on väljendatud uurimistöödes. Tugeva matemaatika aluse omamine aitaks mul mõista intuitsiooni tagamaid ja ideid taasesitada.

VK: Millised on teie filtrid katse eelarvamuste vähendamiseks?

SD: ma kasutan kihistatud valimit, et jagada oma andmekogum rongideks / kinnitada / testida nii, et iga komplekti valimid oleksid proportsionaalsed alarühmade jaotusega algses andmekogumis. Efektiivsustehnikad aitavad ka eelarvamusi vähendada.

VK: Mis on andmete teadlaste või andmeinseneride või ML-inseneride palkamine, millised on kolm peamist tehnilist / mittetehnilist oskust, mida otsite?

SD: Kui ma peaksin palgama andmeteadlase, oleks kolm kõige paremat oskust, mida otsin:

  1. Tugevad probleemide lahendamise / kodeerimise oskused.
  2. Tugevad statistilised alused.
  3. Hea suhtlemisoskus - oskus selgitada mõisteid erinevatel abstraktsuse astmetel, sõltuvalt publikust.

Andmeinseneride / ML-inseneride jaoks on hea punkt 2, samas kui punktid 1 ja 3 on kohustuslikud.

Tahaksin teha koostööd inimestega, kelle oskuste komplektid on olemuselt mitmekesised. Uudishimulik loomus aitab, kuna see tagab, et saate päevast päeva üksteiselt õppida.

VK: Milliseid veebiblogisid / inimesi jälgite DS-i kohta nõu saamiseks / lisateabe saamiseks?

SD: Ma lugesin Arxivist palju. See on parim ressurss, et olla kursis valdkonna arenguga.
Võltstuumade lugemine aitab mul õppida mitmesuguste andmekogumite analüüsimist.
Datatau, KDnuggets, Reddit (/ r / MachineLearning, / r / DataScience jne) aitavad leida ka valdkonna uusimaid ressursse / õpetusi.

Inimesed saavad Saikati töid jälgida tema veebisaidil: http://saikatkumardey.com

Andmeteaduslike intervjuude ettevalmistamiseks külastage Acing AI-i intervjuusid: Acing AI-intervjuud

Telli meie Acing AI uudiskiri selliste suurepäraste ekspertintervjuude jaoks, luban, et ei rämpsposti ja see on TASUTA!

Täname, et lugesite! Kui teile see meeldis, katsetage, mitu korda võite 5 sekundiga nuppu hit lüüa. See on teie sõrmede jaoks suurepärane kardio JA aitab teistel inimestel seda lugu näha.