J:
Kā inženieri var novērtēt mācību komplektus un testa komplektus, lai pamanītu iespējamo pārmērīgu aprīkojumu mašīnmācībā?
A:Lai saprastu, kā tas tiek darīts, parasti ir jāapgūst dažādu datu kopu loma tipiskā mašīnmācīšanās projektā. Apmācības komplekts ir izveidots, lai sniegtu tehnoloģijai atskaites punktu - datu bāzes līniju, kuru programma izmanto prognozējošu un varbūtīgu lēmumu pieņemšanai. Pārbaudes komplekts ir vieta, kur jūs pārbaudāt, vai mašīnai ir dati.
Pārmērīga aprīkošana ir sindroms mašīnmācībā, kad modelis pilnībā neatbilst datiem vai mērķim.
Bezmaksas lejupielāde: mašīnmācīšanās un kāpēc tas ir svarīgi |
Viens no galvenajiem mašīnmācības pavēlēm ir tas, ka apmācības un testa datiem jābūt atsevišķām datu kopām. Par to ir diezgan plaša vienprātība, vismaz daudzās lietojumprogrammās, dažu specifisku problēmu dēļ, kas saistītas ar tā paša komplekta izmantošanu, kuru jūs izmantojāt apmācībai, lai pārbaudītu mašīnmācīšanās programmu.
Kad mašīnmācības programmā tiek izmantota apmācību kopa, ko galvenokārt varētu dēvēt par izejvielu kopu, tā darbojas no tā, lai pieņemtu lēmumus par paredzamo rezultātu. Viens ļoti vienkāršs veids, kā par to domāt, ir tas, ka apmācības komplekts ir intelekta skaitļošanas procesa “ēdiens”.
Tagad, kad testēšanai tiek izmantots tas pats komplekts, mašīna bieži var sasniegt izcilus rezultātus. Tas ir tāpēc, ka tas jau ir redzējis šos datus iepriekš. Bet viss mašīnu apguves mērķis daudzos gadījumos ir iegūt rezultātus par datiem, kas vēl nav redzēti. Universālās mašīnmācīšanās programmas ir izveidotas, lai darbotos ar dažādiem datu kopiem. Citiem vārdiem sakot, mašīnmācīšanās princips ir atklāšana, un jūs parasti nesaņemat tik daudz no tā, izmantojot testa vajadzībām sākotnējo apmācības komplektu.
Novērtējot apmācību komplektus un pārbaudes komplektus iespējamai pārmērīgai aprīkošanai, inženieri varētu novērtēt rezultātus un izdomāt, kāpēc programma var rīkoties atšķirīgi, salīdzinot šo divu komplektu salīdzinošos rezultātus, vai dažos gadījumos, kā mašīna varētu pārāk labi rīkoties ar pašiem apmācības datiem .
Jaudīgi raksturojot dažas no šīm mašīnmācības problēmām 2014. gada darbā, Džeisons Braunlijs mašīnmācīšanās meistarībā apraksta pārkvalifikāciju šādā veidā:
"Ļoti iespējams, ka modelim, kas izvēlēts tā precizitātei apmācības datu kopā, nevis precizitātei neredzētā testa datu kopā, ir mazāka precizitāte neredzētā testa datu kopā, " raksta Braunlijs. "Iemesls ir tāds, ka modelis nav tik vispārināts. Tas ir specializējies apmācības datu kopas struktūrā (pievienots slīpraksts). To sauc par pārmērīgu aprīkojumu, un tas ir vairāk mānīgs, nekā jūs domājat."
Var teikt, ka, specializējoties treniņu datu kopā, programma kļūst pārāk neelastīga. Tas ir vēl viens metaforisks veids, kā aplūkot, kāpēc mašīnmācīšanās programma netiek optimāli nodrošināta, izmantojot testa komplektam apmācības komplektu. Tas ir arī labs veids, kā tuvināties šo divu atšķirīgo kopu novērtēšanai, jo rezultāti inženieriem daudz parādīs par programmas darbību. Jūs vēlaties, lai abu modeļu precizitāte būtu mazāka. Jūs vēlaties pārliecināties, ka sistēma nav pārspīlēta vai "precīzi apvienota" ar noteiktu datu kopu, bet tā ir vispārīgāka un spēj augt un attīstīties komandā.
