J:
Kā datu nokasīšana mašīnmācībai ir kļuvusi par darbietilpīgāko sašaurinājumu kopš manuālās datu ievadīšanas mantotajā migrācijā?
A:Viena no praktiskajām problēmām, ar kurām uzņēmumi varētu saskarties, mēģinot sākt mašīnmācīšanās (ML) projektu, ir izaicinājums iegūt sākotnējās apmācības datu kopas. Tas varētu ietvert darbietilpīgus procesus, piemēram, tīmekļa nokasīšanu vai citu datu nokasīšanu.
Termini Web nokasīšana un datu nokasīšana lielākoties attiecas uz datorprogrammatūras automatizētām darbībām, taču daudzos ML projektos būs gadījumi, kad datoriem nav sarežģītības, lai savāktu pareizos mērķtiecīgos datus, tāpēc tas būs jādara "ar rokām." To jūs varētu dēvēt par “cilvēku tīmekļa / datu nokasīšanu”, un tas ir nepateicīgs darbs. Parasti tas nozīmē iziet un meklēt datus vai attēlus, lai "pabarotu" ML programmu, izmantojot apmācību komplektus. Tas bieži vien ir diezgan iteratīvs, kas padara to par garlaicīgu, gausu, prasīgu darbu.
Bezmaksas lejupielāde: mašīnmācīšanās un kāpēc tas ir svarīgi |
Datu nokasīšana ML mācību komplektiem ir unikāli problemātiska problēma mašīnmācībā daļēji tāpēc, ka tik liela daļa citu darbu ir ļoti konceptuāli un neatkārtojas. Daudzi cilvēki var nākt klajā ar lielisku ideju jaunai lietotnei, kas veic mašīnmācīšanās uzdevumus, taču uzgriežņi un skrūves, kā arī praktiskais darbs var būt daudz grūtāks. Jo īpaši mācību komplektu montāžas darba deleģēšana faktiski var būt viena no vissmagākajām ML projekta daļām, kā tas pilnībā izpētīts Maika Judgera televīzijas šovā “Silikona ieleja”. Četras sezonas epizodē iesācējs uzņēmējs vispirms piespiež partneri veikt darbietilpīgu darbu, pēc tam mēģina to nodot koledžas studentiem, maskējot to kā mājasdarbu.
Šis piemērs ir pamācošs, jo parāda, cik nepatīkama un šķietami nesvarīga ir manuālā datu nokasīšana. Tomēr tas arī parāda, ka šis process ir nepieciešams plašam mašīnmācīšanās produktu klāstam. Lai gan vairums cilvēku ienīst datu ievadīšanu, apmācību komplekti kaut kādā veidā ir jāsamontē. Procesa eksperti bieži iesaka izmantot tīmekļa nokasīšanas pakalpojumu - būtībā tikai šo ļoti darbietilpīgo darbu uzticēt ārējām pusēm, taču tas varētu radīt drošības problēmas un radīt citas problēmas. Turot manuālo datu vākšanu iekšēji, atkal ir jāparedz noteikums, kas bieži vien ir ļoti manuāls un laikietilpīgs process.
Dažos veidos "cilvēku datu nokasīšana" mašīnmācībai izskatās kā manuāla datu ievadīšana, kas dažreiz bija jāveic mantojuma migrācijas laikā. Tā kā mākonis kļuva aizvien populārāks, un uzņēmumi ievietoja procesus un darbplūsmas mākonī, daži atklāja, ka viņi nav strādājuši līdz praktiskiem aspektiem, kā iegūt korporatīvos datus no izolētas mantotās sistēmas mākoņa vietnēs. Tā rezultātā daži cilvēki, kas citādi bija datu zinātnieki vai radoši cilvēki ar būtiskām IT prasmēm, pamanījās veikt nepatīkamus datu ievadīšanas uzdevumus.
Visticamāk, tas pats notiks ar mašīnmācību. Varētu dzirdēt datu zinātnieku sūdzību, ka “es esmu radošs cilvēks” vai “es esmu attīstības pusē” - bet kādam ir jādara netīrais darbs.
Atkal, ja radošajai plūsmai neatbilst praktisks darbplūsmas deleģēšanas novērtējums, rodas neatbilstība uzdevumu apstrādes virzībā. Ja uzņēmumam nav cilvēku, kas nodarbojas ar datu nokasīšanu, vācot datu kopas, tam trūkst veiksmīgas projekta procedūras ķēdes galvenās daļas. Ir vērts to paturēt prātā ikreiz, kad uzņēmums mēģina realizēt ideju, kuras pamatā ir jaunu mašīnmācīšanās lietojumprogrammu izstrāde.
