Treening, valideerimine, testkomplekt masinõppes - kuidas aru saada

Rong, valideerimine ja testikomplekt on masinõppe ja AI kolm suurimat kõnepruuki. Näiliselt saavad paljud sellest valesti aru. Kui küsin mõnedelt sõpradelt rongi, valideerimise ja katsekomplekti erinevuste kohta, ei saa nad sellele vastata. Täna selgitan teile kõike kolme ülaltoodud terminoloogia kohta.

Treeningkomplekt

Võite ette kujutada, et masinõppe algoritm klassi õpilasena ja andmed on õpetaja antud teadmised. Õpetaja kasutab teadmisi õpilase ülesande lahendamisel. Masinõppes on koolituse komplekt teada õpetajalt õpilase õpetamiseks. Õpilane (masinõppe mudel) proovib treeningkomplektist teadmisi meelde jätta ja sellest teada saada, seejärel salvestab need optimeerimisalgoritmide abil selle parameetritele (või kaalule). Õpilase võime kajastub koolitusvea kaudu. Õpilasel on väiksem koolitusviga, parem kui ühel on suurem koolitusviga. Kuid pidage meeles, et meie lõppeesmärk on leida õpilane, kes töötab hästi nähtamatutes andmetes, ma mõtlen neid andmeid tulevikus.

Valideerimise komplekt

Valideerimiskomplekt, mida mõnikord nimetatakse arenduskomplektiks (arendamiskomplekt). Depoteerimise peamised eesmärgid on masina ületalitluse takistamine ja hüperparameetrite valimine. Masina ületäitumise takistamine aitab masinõppe mudelil tulevikuandmetega paremini töötada ja takistab õpilasel rote abil õppimist. Hüperparameetrite valimine aitab leida nii ülejäänud parimat masinõppe algoritmi kui ka leida klassi parima õpilase, kellel on konkreetne kingitus.
Hüperparameetrite valimine: rongiandmetest õpitud parameetrite kõrval on igal masinõppe algoritmil tavaliselt ka mõned hüperparameetrid. Need hüperparameetrid tuleb valida käsitsi. Päris maailmas on meil mitmesuguseid andmeid alates turunduspaigast kuni NLP-ni, meditsiinilisse ja nii edasi. Igat tüüpi andmed õppeainena koolis. Ja igal õpilasel on oma hobist ja kingitusest tulenevalt hea konkreetne õppeaine. Seega peab klassijuhataja kasutama mõnda õppekomplekti, et leida igat tüüpi õppeaine jaoks parim õpilane.

Masinõppe algoritmi hüperparameetrite valimise illustratsioon

Vältige üleliigset paigaldamist: mõnikord õpivad õpilased rote järgi. Nii et peame õpilaste testimiseks kasutama dev seadet. Dev komplekti võib pidada katseõpetaja rongikomplektist sõltumatult tehtavaks. Nagu alloleval pildil, on punktid treeningandmed ja kõverad on teie algoritmid. Roheline kõver sobib liiga hästi ja must on hea.

Pilt üleliigse paigaldamise probleemi kohta

Testikomplekt

See andmekogum on sõltumatu vormirong ja dev-komplekt, kuid kolmel andmestikul peab olema sama jaotus. Kujutage ette, kui õpilane õpib rongikomplektist ja pärast seda, kui õpetaja valib parima õpilase, kasutades dev komplekti. Test seati eksamiks, et kontrollida õpilase tegelikke võimeid pärast õppimist.

Kokkuvõte

Rongikomplekt: kasutatakse mudeli parameetrite treenimiseks ja optimeerimiseks
Dev set: valige hüperparameetrid ja vältige liigset paigaldamist
Testikomplekt: andke oma mudelile erapooletu hinnang

Viide