Autors: Techopedia Staff, 2016. gada 22. jūnijs
Izņemšana: Uzņēmēja Rebeka Jozvejaka ar Dezu Blanšfīldu, Robinu Blooru un Deividu Krorfordu apspriež datu katalogu priekšrocības.
Lai apskatītu video, jums jāreģistrējas šim notikumam. Reģistrējieties, lai redzētu video.
Rebecca Jozwiak: dāmas un kungi, sveicināti un laipni gaidīti 2016. gada Hot Technologies. Šodien mums ir “Ieteikuma spēks: kā datu katalogs piešķir analītiķiem.” Es esmu jūsu uzņēmēja Rebeka Jozvejaka, aizpildot mūsu parasto mitinātāju Ēriku. Kavanagh šodien, kamēr viņš ceļo pa pasauli, tāpēc paldies, ka pievienojāties mums. Šis gads ir karsts, tas nav tikai karsts Teksasā, kur es esmu, bet arī visur ir karsts. Iznāk visu veidu jauno tehnoloģiju eksplozija. Mums ir IoT, straumē datus, pieņem mākoņus, Hadoop turpina pilnveidoties un tikt pieņemti. Mums ir automatizācija, mašīnmācība, un visu šo informāciju, protams, pasvītro dati. Un uzņēmumi arvien vairāk un vairāk datu vada dienu. Un, protams, tas ir tas, kas ved uz zināšanām un atklājumiem un, zini, pieņem labākus lēmumus. Bet, lai patiešām iegūtu visaugstāko vērtību no datiem, tam ir jābūt viegli pieejamam. Ja jūs to turēsit aizslēgtu, apraktu vai dažu uzņēmuma smadzenēs, tas neradīs daudz labuma uzņēmumam kopumā.
Es domāju par datu kataloģizēšanu un, protams, par bibliotēkām, kur jau sen devāties, ja vajadzēja kaut ko uzzināt, ja vajadzēja kādu tēmu izpētīt vai uzmeklēt kādu informāciju, jūs devāties uz bibliotēku, un, protams, jūs devāties uz karšu katalogu vai turpat strādājošo kraukšķīgo kundzi. Bet bija arī jautri klīst apkārt, ja jūs vienkārši gribējāt paskatīties, un pārliecinieties, ka varbūt vienkārši kaut ko atklājat, jūs varat uzzināt interesantus faktus, ko nezinājāt, bet, ja jums patiešām vajadzēja kaut ko uzzināt, un jūs zinājāt, ko meklējat, jums bija nepieciešams karšu katalogs, un, protams, uzņēmuma ekvivalents ir datu katalogs, kas var palīdzēt izgaismot visus datus, lai mūsu lietotāji varētu bagātināt, atklāt, dalīties, patērēt un patiešām palīdzēt cilvēki ātrāk un vieglāk iegūst datus.
Tāpēc šodien mums ir Dez Blanchfield, mūsu pašu datu zinātnieks, un mums ir doktors Robins Bloors, mūsu pašu galvenais analītiķis, mums ir David Crawford no Alation, kurš runās par sava uzņēmuma datu kataloģizācijas stāstu, bet vispirms mēs ar Dezu dodamies uz priekšu Dez, es nododu tev bumbu, un grīda ir tava.
Dezs Blanšfīlds: Paldies, paldies, ka šodien manī ieradāties. Šis ir jautājums, kas mani ārkārtīgi interesē, jo gandrīz katrā organizācijā, ar kuru saskaros savā ikdienas darbā, es atklāju tieši to pašu jautājumu, par kuru ļoti īsi runājām pirmsizrādes banterā, un tas ir tas, lielākajai daļai organizāciju, kas darbojas uzņēmējdarbībā vairāk nekā dažus gadus, visā organizācijā ir apglabāts daudz datu, dažādi formāti, un patiesībā man ir klienti, kuriem ir datu kopas, kas atgriežas Lotus Notes, datu bāzēs, kuras joprojām darbojas dažās gadījumi kā viņu pseidointernāti, un viņi visi ir saskārušies ar šo izaicinājumu, lai patiesībā atrastu, kur atrodas viņu dati un kā piekļūt tiem, kam nodrošināt piekļuvi tam, kad nodrošināt piekļuvi tiem un kā un kā katalogs un kā to nokļūt vietā, kur ikviens var: A) apzināties, kas tur atrodas un kas tajā atrodas, un B) kā piekļūt tam un to izmantot. Un, protams, viens no lielākajiem izaicinājumiem ir tā atrašana, otrs lielais izaicinājums ir zināt, kas tur atrodas un kā tam piekļūt.
Es, iespējams, labi zinu, ka man ir dučiem datu bāzu, bet es faktiski nezinu, kas tur atrodas vai kā uzzināt, kas tur atrodas, un vienmēr, kā mēs tagad atklājam pirmsizrādes datos, jums ir tendence lai staigātu pa biroju un uzdotu jautājumus, kliegtu pāri korpusa sienām un mēģinātu izdomāt, bieži vien man ir pieredze, ka jūs pat varat atrast, ka jūs klīstat uz reģistratūru, reģistratūru un vaicājat, vai kāds zina, kas jūs gatavojaties iet sarunāties. Diezgan bieži tas nav IT ļaudis, jo viņi nezina datu kopu, jo kāds to ir vienkārši izveidojis, un tas varētu būt kaut kas vienkāršs - diezgan bieži mēs atradīsim sava veida projektu, kas stāv IT vidē un projekta vadītājs izmantoja visu lietu izklājlapu, un tajā ir iegūts milzīgs daudzums vērtīgas informācijas par aktīviem un kontekstu un nosaukumiem, un, ja vien jūs nezināt šo projektu un nezināt šo personu, jūs vienkārši nevarat atrast šo informāciju. Tas vienkārši nav pieejams, un jums ir jāsaņem oriģinālais fails.
Tur ir frāze, kas ir saspiesta attiecībā uz datiem, un es tam noteikti nepiekrītu, bet es domāju, ka tas ir jauks, mazs metiens, un tas ir tas, ka noteikts skaits cilvēku domā, ka dati ir jaunā eļļa, un es esmu pārliecinieties, ka šodien to apskatīsim arī kādā aspektā. Bet tas, ko esmu pamanījis, noteikti piedaloties šajā pārveidē, ir tas, ka uzņēmumu organizācijas, kuras ir iemācījušās novērtēt savus datus, ir ieguvušas ievērojamas priekšrocības salīdzinājumā ar konkurentiem.
Apmēram pirms pieciem vai sešiem gadiem bija IBM interesants raksts, un viņi aptaujāja apmēram 4000 uzņēmumus šeit, Austrālijā, un viņi paņēma visu informāciju, visus darbības datus, visus finanšu datus un salika to vārīšanās katlā un pēc tam nosūtīja to Austrālijas Ekonomikas augstskolai, un viņi šeit faktiski sāka kopīgu tendenci, un tas bija, ka uzņēmumi, kas izmantoja tehnoloģiju, vienmēr ieguva tik lielas konkurences priekšrocības salīdzinājumā ar vienaudžiem un konkurentiem kā tādi, ka viņu konkurenti gandrīz nekad nesasniedz, un es domāju, ka tas ļoti attiecas uz datiem, ko mēs esam redzējuši, ko cilvēki sauc par digitālo pārveidi, kur organizācijas, kuras ir skaidri izdomājušas, kā atrast iegūtos datus, padarīt šos datus pieejamus un padarīt tos pieejamus ļoti viegli lietojamā materiālā modeli, vienmēr nezinot, kāpēc organizācijai tas varētu būt vajadzīgs, un iegūstiet ievērojamas priekšrocības salīdzinājumā ar konkurentiem.
Man ir pāris piemēru šajā slaidā, kurus varat redzēt. Mans viedoklis ir tāds, ka liela mēroga traucējumus gandrīz katrā rūpniecības nozarē, manuprāt, veicina dati, un, ja pašreizējās tendences ir kaut kas pagājis, tad, manuprāt, mēs esam tikai tikko ieguvuši sākās tāpēc, ka tad, kad ilggadējie zīmoli beidzot pamodīsies, ko tas nozīmē, un ieiet spēlē, viņi iesaistīsies spēlē vairumtirdzniecībā. Kad lielākie mazumtirgotāji, kuriem ir daudz datu, sāk piemērot vēsturisko datu analīzi, pat ja viņi pat zina, ka tie pastāv, tad daži no tiešsaistes spēlētājiem saņems nelielu pamudināšanas zvanu.
Bet ar daudziem no šiem zīmoliem es domāju, ka mums ir Uber, kas ir lielākā taksometru kompānija pasaulē. Viņiem nepieder nekādi taksometri, tāpēc kas viņus padara maģiskus, kādi ir viņu dati? Airbnb, lielākais izmitināšanas pakalpojumu sniedzējs, mums ir WeChat, kas ir lielākā tālruņu kompānija pasaulē, taču viņiem nav faktiskas infrastruktūras, tālruņu un tālruņa līniju. Alibaba, lielākais mazumtirgotājs uz planētas, taču viņiem nepieder neviens no inventāra. Facebook, vārda lielākā mediju kompānija. Es domāju, ka pēdējā skaitā tagad viņiem bija 1, 4 miljardi aktīvo datu lietotāju, kas ir prātā satraucošs skaitlis. Tas neatrodas netālu no vietas - es domāju, ka kāds apgalvoja, ka ceturtdaļa planētas patiesībā atrodas tur katru dienu, un tomēr šeit ir kāds satura nodrošinātājs, kurš faktiski nerada saturu, visi dati, ko viņi apkalpo, nav viņu pašu radīti, tas ir izveidots to abonenti, un mēs visi zinām šo modeli.
SocietyOne, par kuru jūs, iespējams, neesat dzirdējuši, tas ir vietējais zīmols, es domāju, ka pāris valstīs tā ir banka, kas faktiski veic vienādranga kreditēšanu, tātad citiem vārdiem sakot, tai nav naudas. Atliek tikai pārvaldīt darījumus, un dati atrodas zem tā. Netflix, mēs visi to ļoti, ļoti labi zinām. Šeit ir interesants viens laineris. Kad Netflix likumīgi varēja izmantot Austrālijā, kad tas tika oficiāli paziņots, jums nebija jāizmanto VPN, lai to nokļūtu, daudzi cilvēki visā pasaulē mēdz - ja nevarat nokļūt tajā savā vietējā reģionā - Kad Netfix tika palaists Austrālijā, tas palielināja starptautisko joslas platumu mūsu interneta saitēs par 40 procentiem, tāpēc gandrīz divkāršoja interneta izmantošanu Austrālijā vienas nakts laikā, izmantojot tikai vienu programmu, vienu mākoņa mitinātu lietojumprogrammu, kas neko nedara, bet tikai spēlē ar datiem. Tā ir tikai prātīga statistika.
Un, protams, mēs visi esam pazīstami ar Apple un Google, taču šie ir lielākie programmatūras biznesi uz planētas, tomēr viņi faktiski neraksta lietotnes. Kāda ir visu šo organizāciju konsekvence? Tie ir dati, un viņi tur netika, jo nezina, kur atrodas viņu dati, un nezināja, kā tos kataloģizēt.
Tagad mēs atklājam, ka ir pilnīgi jauna aktīvu klase, kas tiek dēvēta par datiem, un uzņēmumi to mostas. Bet viņiem ne vienmēr ir rīki un zinātība, kā arī kāpēc visus šos datus kartēt, visus datus apkopot un padarīt pieejamus, taču mēs esam atklājuši, ka uzņēmumi, kuriem gandrīz nav fizisko aktīvu, ir ieguvuši augstu tirgus vērtību ierakstiet laiku, izmantojot šo jauno datu aktīvu klasi. Kā jau teicu, daži no vecajiem spēlētājiem tagad to mostas un noteikti to izceļ.
Esmu liels ventilators, lai mazliet ņemtu vērā tautas braucienus, tāpēc astoņpadsmit simtos, astoņpadsmit simtu beigās un jums būs vairāk nekā pazīstams ar to ASV tirgū, izrādījās, ka, lai vadītu tautas skaitīšanu katru gadu vai tā, es domāju, ka viņi tajā brīdī vadīja tos ik pēc desmit gadiem, bet, ja jūs katru gadu rīkosit skaitīšanu, tad datu analīzes veikšanai varētu būt nepieciešami astoņi vai deviņi gadi. Izrādījās, ka šī datu kopa pēc tam tika atstāta kastēs papīra vietās, un gandrīz neviens to nevarēja atrast. Viņi tikai turpināja pumpēt šos ziņojumus, bet faktiskos datus bija ļoti grūti iegūt, mums ir līdzīga situācija ar citu pasaules nozīmes brīdi, ap 1940. gadu, ar Otro pasaules karu, un šī lieta ir Bletchley Park Bombe uzrakstītā BOMBE, un tas bija masīvs skaitļu sagraujošs analītiskais rīks, kas iet cauri mazām datu kopām un atrod tajā signālus, un tiek izmantots, lai Enigma izmantojot kreka kodus.
Šī lieta atkal bija būtībā ierīce, kas izstrādāta ne tikai kataloģizēšanai, bet arī datu marķēšanai un kartēšanai, kā arī iespēju ņemt modeļus un atrast tos datu kopās, šajā gadījumā - salauzt kodus, atrast atslēgas un frāzes un atrast regulāri tos datu kopās, un tāpēc mēs esam gājuši cauri šim ceļam, lai atrastu lietas datos un virzītos uz datu kataloģizēšanu.
Un tad nāca klāt šīs lietas, šie masīvie zemo cenu mašīnu plaukti, tikai pie plauktiem. Mēs izdarījām dažas ļoti interesantas lietas, un viena no lietām, ko mēs ar viņiem izdarījām, ir tas, ka mēs izveidojām ļoti zemu izmaksu kopas, kas varētu sākt indeksēt planētu, un ļoti slaveni ir šie lielie zīmoli, kas ir ienākuši un aizgājuši, bet, iespējams, Google visbiežāk sastopamā mājas lapa zīmols, par kuru mēs visi esam dzirdējuši - tas ir kļuvis par patiesu darbības vārdu, un jūs zināt, ka gūstat panākumus, kad jūsu zīmols kļūst par darbības vārdu. Bet tas, ko mums iemācīja, neapzinoties to, iespējams, biznesa pasaulē, ir tas, ka viņi spēja indeksēt visu planētu līdz noteiktam līmenim un kataloģizēt datus, kas bija visā pasaulē, un padarīt to pieejamu ļoti viegli, ērta forma nedaudz niecīgā vienrindas formulā, tīmekļa lapa, kurā gandrīz nav nekā, un, ievadot vaicājumu, tas aiziet un atrod to, jo viņi jau bija pārmeklējuši planētu, indeksējuši to un padarījuši to viegli pieejamu.
Un tas, ko mēs pamanījām, bija: “Pakavējies, mēs organizācijās to nedarām - kāpēc tas tā ir? Kāpēc mums ir organizācija, kas var kartēt visu planētu un indeksēt to, pārmeklēt un indeksēt, kā arī padarīt to pieejamu, mēs varam to meklēt un pēc tam noklikšķināt uz lietas, lai dotos un atrast, kā tad mēs nonākam to vēl neesat izdarījis iekšēji? ”Tātad visā pasaulē ir daudz šo mazo mašīnu plaukti, kas to dara iekštīkliem un atrod lietas, bet viņi joprojām patiešām reaģē uz ideju pāriet ārpus tradicionālā tīmekļa lapu vai failu serveri.
Tā vietā, lai tagad daudzējādā ziņā ievadītu šo nākamās paaudzes datu katalogu, datu piekļuves atklāšana, izmantojot pastmarku piezīmes un ūdens vēsākas sarunas, vairs nav īsti piemērota metode datu atklāšanai un kataloģizēšanai, un patiesībā es nedomāju, ka tas kādreiz tiešām bija. Mēs vairs nevaram novest visu šo izaicinājumu pret cilvēkiem, kas tikai veic piezīmes, izliek piezīmes un tērzē par to. Mēs esam tālu un patiesi ārpus teritorijas, kur tagad ir radusies un aizgājusi šī nākamā paaudzes pieeja datu kataloģizēšanai. Mums tas ir jāapiet. Ja tas būtu viegls jautājums, mēs to daudzējādā ziņā jau būtu atrisinājuši agrāk, bet es domāju, ka tas nav viegls jautājums, datu indeksēšana un izsaukšana ir tikai viena tā sastāvdaļa, zinot, kas ir datos un veidojot metadatus ap to, ko mēs atklājam, un pēc tam padarot tos pieejamus viegli, patērējamā formā, it īpaši pašapkalpošanās un analītikai. Tā joprojām ir problēma, kas tiek atrisināta, taču piecu gadu laikā daudzas mīkla ir labi un patiesi atrisinātas un pieejamas.
Kā mēs zinām, cilvēku datu kataloģizēšana ir neveiksmes recepte, jo cilvēku kļūdas ir viens no lielākajiem murgiem, ar ko mēs apstrādājam datu apstrādē, un es regulāri runāju par šo tēmu, kur, manuprāt, vislielākais murgs ir cilvēki, kas aizpilda papīra veidlapas mēs strādājam ar lieliem datiem un analītiku, lai pastāvīgi nāktos labot darāmās darbības, pat līdz vienkāršām lietām, piemēram, datumiem un laukiem, cilvēkiem to ieliekot nepareizā formātā.
Bet, kā jau teicu, mēs esam redzējuši, ka interneta meklētājprogrammas katru dienu indeksē pasauli, tāpēc tagad mēs domājam, ka to var izdarīt biznesa datu kopās atklāšanas procesā, un rīki un sistēmas tagad ir viegli pieejams, jo jūs šodien gatavojaties mācīties. Tāpēc triks, manuprāt, patiešām ir pareizo un labāko darbarīku atlase. Un vēl pareizāk, atrodot pareizo tā daļu, lai palīdzētu jums sākt šo ceļu. Un es uzskatu, ka mēs par to dzirdēsim šodien, bet, pirms mēs to darīsim, es pāriešu uz savu koledžu Robinu Blooru un uzklausīšu viņa izvēli par šo tēmu. Robin, vai es varu nodot tev pāri?
Robins Bloors: Jā, protams, jūs varat. Redzēsim, vai tas darbojas, ak, jā. Labi, es nāku no cita virziena, nekā patiesībā Dez, bet es nonākšu tajā pašā vietā. Šeit runa ir par savienojumu ar datiem, tāpēc es tikai domāju, ka tiešām caur punktu pa punktam pārdomāšu savienojumu ar datiem.
Pastāv fakts, ka dati ir sadrumstalotāki nekā jebkad agrāk. Datu apjoms aug fenomenāli, bet patiesībā arī dažādi datu avoti pieaug ar neticamu ātrumu, un tāpēc dati visu laiku kļūst arvien sadrumstalotāki. Bet jo īpaši analītisko lietojumprogrammu dēļ - bet tās nav vienīgās lietojumprogrammas - mums ir patiešām labs iemesls, lai izveidotu savienojumu ar visiem šiem datiem, tāpēc mēs esam iestrēguši grūtā vietā, mēs esam iestrēguši sadrumstalotu datu pasaulē, un datos ir iespēja, jo Dezs to sauca par jauno eļļu.
Par datiem, labi, tas agrāk dzīvoja uz vērpšanas diska - failu sistēmās vai datu bāzēs. Tagad tas dzīvo daudz daudzveidīgākā vidē, tas darbojas failu sistēmās, bet mūsdienās tas darbojas arī Hadoop instancēs vai pat Spark instancēs. Tas dzīvo vairāku sugu datu bāzēs. Ne tik sen, mēs sava veida standartizējām kaut kādu relāciju datu bāzi, labi, ka jūs zināt, ka pēdējos piecos gados izgāja pa logu, jo ir vajadzīgas dokumentu datu bāzes un grafiku datu bāzes, lai jūs zināt, spēlei ir mainīts. Tātad tas dzīvoja uz vērpšanas diska, bet tagad dzīvo uz SSD. Jaunākais SSD daudzums - noteikti no Samsung iznāk jaunākā SSD ierīce - divdesmit gigabaitu, kas ir milzīgi. Tagad tas paliek atmiņā tādā nozīmē, ka galvenā datu kopija var būt atmiņā, nevis diskā, un mēs agrāk to neveidojām; mēs to darām tagad. Un tas mākonī dzīvo. Kas nozīmē, ka tas var dzīvot kādā no šīm lietām, mākonī, jūs noteikti nezināt, kur tas atrodas mākonī, jums būs tikai tā adrese.
Hadoop līdz šim brīdim nav saņēmis vienotu datu krātuvi. Mēs bijām cerējuši, ka tā kļūs par paplašināmu mēroga datu krātuvi, un tā vienkārši kļūs par vienu failu sistēmu visam, un tā arī notiks - debesīs pamatā parādījās varavīksnes un apkārt dejoja vienradži, un nekas tāds nenotika. Kas nozīmē, ka mēs nonākam pie datu pārraides problēmas, un dažreiz nav vajadzības pēc datu pārsūtīšanas, bet tas arī rada grūtības. Mūsdienās datiem patiešām ir gravitācijas spēks, kad esat iedziļinājies vairāku terabaitu datos, tos paņēmis un apvedis, tāpēc latenti parādās jūsu tīklā vai parādās dažādās vietās. Ja vēlaties pārvadāt datus apkārt, svarīgs ir laika grafiks. Mūsdienās gandrīz vienmēr ir daži ierobežojumi tam, cik daudz laika jums ir nepieciešams, lai iegūtu vienu lietu, vienu informāciju no vienas vietas uz otru. Kādreiz mēs domājām par pakešu logiem, kad mašīna bija dīkstāvē, un neatkarīgi no tā, cik daudz datu jums bija, jūs to vienkārši varētu izmest, un tas viss izdotos. Tas vairs nav, mēs dzīvojam daudz reālā laika pasaulē. Tāpēc laiks ir faktors. Tiklīdz vēlaties pārvietot datus, tāpēc, ja datiem ir smagums, jūs tos droši vien nevarat pārvietot.
Datu pārvaldība ir faktors tādā ziņā, ka patiesībā esat ieguvis visu šo datu pārvaldību, jūs tos nesaņemat par brīvu, un, lai datus faktiski iegūtu, lai varētu veikt nepieciešamo darbu, var būt nepieciešama atkārtošana, jo tas var nebūt visur, kur to ievietojis. Tam, iespējams, nav pietiekamu resursu, lai normāli apstrādātu datus. Tātad dati tiek replicēti, un dati tiek replicēti vairāk, nekā jūs varētu iedomāties. Es domāju, ka kāds man jau sen teica, ka vidējais datu kopums tiek atkārtots vismaz divarpus reizes. ESB vai Kafka piedāvā iespēju datu plūsmai, taču mūsdienās tā prasa arhitektūru. Mūsdienās jums tiešām vienā vai otrā veidā ir jādomā par to, ko patiesībā nozīmē datu savākšana. Tāpēc parasti ir vēlams piekļūt datiem tur, kur tas ir, ja vien, protams, jūs varat iegūt nepieciešamo veiktspēju, kad patiesībā meklējat datus, un tas ir atkarīgs no konteksta. Tātad jebkurā gadījumā tā ir sarežģīta situācija. Runājot par datu vaicājumiem, mēs kādreiz spējām domāt par SQL. Mēs patiešām esam nākuši klajā ar dažādām vaicājumu formām, SQL, jā, bet blakus esošie, arī grafika vaicājumi, Spark ir tikai viens piemērs darot grafiku, jo mums vairāk nekā jebkad agrāk ir jāmeklē teksts, tāpat arī regex tipa meklējumos, kas ir patiešām sarežģīti paraugu meklējumi un īsta paraugu saskaņošana, visas šīs lietas faktiski burbuļo. Un tie visi ir noderīgi, jo tie dod jums to, ko meklējat, vai arī viņi var jūs iegūt to, ko meklējat.
Tagad vaicājumi prasa vairākus datus, tāpēc ne vienmēr tas tika darīts, un bieži vien veiktspēja ir drausmīga, ja jūs to darāt. Tātad, tas ir atkarīgs no apstākļiem, bet cilvēki sagaida, ka varēs veikt vaicājumus no vairākiem datu avotiem, tāpēc šāda veida datu federācija kļūst arvien aktuālāka. Ļoti izplatīta ir arī datu virtualizācija, kas atkarībā no veiktspējas ir atšķirīgs veids, kā to izdarīt. Datu vaicājumi faktiski ir procesa sastāvdaļa, nevis viss process. Ir tikai vērts atzīmēt, ka, ja jūs faktiski skatāties analītikas veiktspēju, faktiskā analīze var aizņemt šausmīgi daudz laika nekā datu vākšana, jo tas ir atkarīgs no apstākļiem, taču, ja vēlaties veikt datus, absolūti nepieciešama datu vaicāšana. tāda veida analītika vairākos datu avotos, un tas tiešām ir, jums tiešām ir jābūt iespējām, kas sniedzas.
Tātad par katalogiem. Katalogi pastāv iemesla dēļ, vismaz mēs sakām, ka, jūs zināt, tas ir, mums ir katalogi un shēmas datu bāzēs, kā arī katrs katalogs un, lai kur jūs dotos, jūs atradīsit vienu vietu, un tad jūs faktiski atklāj, ka tur ir kaut kāds katalogs, un vienotais globālais katalogs ir tik acīmredzami laba ideja. Bet ļoti maz uzņēmumiem ir šāda lieta. Es atceros, divtūkstoš - panikā - divtūkstoš gadā - es atceros, ka komunisti pat nespēja noteikt, cik daudz izpildāmu rīku viņiem bija, pat atceroties, cik dažādu datu krātuvju viņiem bija, un tas, iespējams, ir arī tagad, jūs zināt, ka vairums uzņēmumu globālā izpratnē aktīvi nezina, kādus datus viņi ir ieguvuši. Bet acīmredzami kļūst arvien nepieciešamāks faktiski izveidot globālu katalogu vai vismaz iegūt vispārēju priekšstatu par notiekošo, jo pieaug datu avoti un pastāvīgais lietojumprogrammu pieaugums, un tas ir īpaši nepieciešams analītikai, jo jūs arī vienā veidā, un šeit ir arī citi jautājumi, piemēram, cilts un problēmas ar datiem, un tas ir nepieciešams drošībai, daudziem datu pārvaldības aspektiem, ja jūs patiešām nezināt, kādus datus esat ieguvis, ideja ka jūs plānojat to pārvaldīt, ir vienkārši absurdi. Tātad visi dati kaut kādā veidā tiek kataloģizēti ir tikai fakts. Jautājums ir par to, vai katalogs ir saskaņots, un ko patiesībā varat darīt ar to. Tāpēc es atgriezīšos Rebekā.
Rebeka Jozwiak: Labi, paldies Robin. Nākamgad mēs esam dabūjuši Deividu Krorfordu no Alation, Deivids Es gatavojos iet uz priekšu un nodot jums bumbu, un jūs to varēsit atņemt.
Deivids Krorfords: Liels paldies. Es ļoti novērtēju, ka jūs, puiši, esat mani šajā izrādē. Es domāju, ka es sākšu to sākt, tāpēc es domāju, ka mana loma šeit ir pārņemt daļu no šīs teorijas un redzēt, kā tā faktiski tiek piemērota, kā arī rezultātus, kurus mēs spējam virzīt pie reāliem klientiem un lai jūs varētu redzēt dažus uz slaida, es gribu runāt par to, kādus rezultātus mēs redzēsim analītiskos uzlabojumos. Tāpēc, lai motivētu diskusiju, mēs runāsim par to, kā viņi tur nokļuva. Tāpēc man ir paveicies diezgan ciešā sadarbībā ar daudziem patiešām gudriem cilvēkiem, šiem klientiem, un es tikai gribu norādīt dažus, kuri ir spējuši reāli izmērīt, un runāt par to, kā datu kataloga izveidošana ir ietekmējusi viņu analītiķi darbplūsma. Un, lai tikai īsi paliktu priekšā, es domāju, ka viena no lietām, ko mēs redzam, mainās, izmantojot datu katalogus ar iepriekšējiem starpniecības risinājumiem, un viens no veidiem, kā attiecības patiesībā domā par risinājumiem, ko mēs saliekam, ir sākt no analītiķiem. un strādā atpakaļ. Jāsaka, pieņemsim to par analītiķu produktivitātes nodrošināšanu. Pretstatā tikai atbilstībai vai tikai uzskaitei, mēs izgatavojam rīku, kas analītiķus padara produktīvākus.
Tāpēc, kad es runāju ar datu zinātnieku finanšu pakalpojumu uzņēmumā Square, tur ir kāds puisis Niks, kurš mums stāstīja par to, kā viņam bija jālieto vairākas stundas, lai atrastu pareizo datu kopu, lai sāktu pārskatu, un tagad viņš to var. Dariet to dažu sekunžu laikā, izmantojot meklēšanu pēc tirgus daļas, mēs runājām ar viņu CTO, kurš piesaistīja viņa analītiķus, kuri izmanto Square, atvainojiet, izmantoja Alation, lai uzzinātu, kas ir viņu, kādas priekšrocības viņi redzēja, un viņi ziņoja par 50 Procentuāli palielināt produktivitāti, un, ka viens no pasaules labākajiem mazumtirgotājiem - eBay - viņiem ir vairāk nekā tūkstotis cilvēku, kuri regulāri veic SQL analīzi, un es diezgan cieši sadarbojos ar Deb Says, kurš ir šis projekts. Datu rīku komandas vadītāja, un viņa atklāja, ka tad, kad pieprasītāji pieņem Alation, pieņem katalogu, viņi redz divkāršā ātrumā jaunu vaicājumu rakstīšanu datu bāzē.
Tātad šie ir reāli rezultāti, tie ir cilvēki, kas faktiski izmanto katalogu savā organizācijā, un es vēlos jūs iepazīstināt ar to, kas nepieciešams, lai izveidotu. Kā katalogs tiek izveidots uzņēmumā, un, iespējams, vissvarīgākais ir pateikt, ka liela daļa tā notiek automātiski, tāpēc Dez runāja par sistēmām, par sistēmu apgūšanu, un tieši to arī dara mūsdienu datu katalogs. Viņi instalē Alation savā datu centrā un pēc tam savieno to ar dažādiem metadatu avotiem savā datu vidē. Nedaudz pievērsīšos datu bāzēm un BI rīkiem - no abiem mēs iegūsim tehniskos metadatus, kas pamatā ir tas, kas pastāv. Pareizi, kādas tabulas? Kādi pārskati? Kādas ir pārskata definīcijas? Viņi izvelk šos tehniskos metadatus un katram objektam šajās sistēmās tiek automātiski izveidota kataloga lapa, un pēc tam viņi arī izvelk un slāņo virs šiem tehniskajiem metadatiem, kā arī uzliek lietošanas datus. To galvenokārt veic, lasot vaicājumu žurnālus no datu bāzes, un tas ir patiešām interesants informācijas avots. Tātad, kad analītiķis raksta vaicājumu, kad vien atskaites rīks neatkarīgi no tā, vai tas ir mājās audzēts, vai pie plaukta, vai atskaišu rīks izpilda vaicājumu, lai atjauninātu informācijas paneli, kad lietojumprogramma izpilda vaicājumu, lai ievietotu datus, lai tie darbotos datu kopa - visas šīs lietas tiek notvertas datu bāzes vaicājumu žurnālos. Neatkarīgi no tā, vai jums ir katalogs vai nē, tie tiek notverti vaicājumu žurnālā ar datu bāzi. Datu katalogs un jo īpaši tas, ko var izdarīt Alation katalogs, ir lasīt šos žurnālus, uzdot vaicājumus tajos un izveidot patiešām interesantu lietošanas grafiku, pamatojoties uz šiem žurnāliem, un mēs to iekļaujam spēlē, lai informētu nākamos lietotājus datu par to, kā to izmantojuši iepriekšējie datu lietotāji.
Tātad, visas šīs zināšanas tiek apvienotas katalogā, un, lai to padarītu reālu, šīs ir integrācijas, kas jau tiek izmantotas pie klientiem, tāpēc mēs esam redzējuši Oracle, Teradata, Redshift, Vertica un vēl virkni citu. relāciju datu bāzes. Hadoop pasaulē Hadoop ir virkne SQL, sava veida relāciju, meta veikali virs Hadoop failu sistēmas, Impala, Tez, Presto un Hive, mēs esam redzējuši panākumus arī ar mākonis Hadoop privātajiem pakalpojumu sniedzējiem, piemēram, Altiscale, un mēs ir spējuši arī izveidot savienojumu ar Tableau serveriem, MicroStrategy serveriem un indeksēt tur esošos paneļus, kā arī integrācijas ar tādiem datu zinātnes kartēšanas rīkiem kā Plotly.
Tātad, mēs izveidojam savienojumu ar visām šīm sistēmām, mēs esam pievienojuši šīs sistēmas klientiem, mēs esam ievilkuši tehniskos metadatus, esam ieraduši lietošanas datus un mēs automātiski savācam datu katalogu, bet tādā veidā mēs centralizēt zināšanas, bet tikai lietu centralizēšana datu katalogā pats par sevi nenodrošina tos patiešām lieliskos produktivitātes paaugstinājumus, par kuriem mēs runājām ar eBay, Square un tirgus daļu. Lai to izdarītu, mums faktiski jāmaina veids, kā mēs domājam par zināšanu nodošanu analītiķiem. Viens no jautājumiem, ko viņi lūdz sagatavot, bija “Kā katalogs faktiski ietekmē analītiķa darbplūsmu?”
Tas ir tas, ko mēs pavadām visu dienu domājot, un, lai runātu par šīm domāšanas izmaiņām - push verses pull mode, es gribēju ātri izveidot analoģiju tam, kāda bija pasaule pirms un pēc lasīšanas Kindle. Tātad, tā ir tikai pieredze, kāda dažiem no jums varētu būt, lasot fizisku grāmatu, jūs saskaraties ar vārdu, neesat pārliecināts, ka zināt šī vārda definīciju ļoti labi, varbūt varat to uzminēt no konteksta, nevis tik iespējams, ka jūs mēs gatavojamies piecelties no dīvāna, aiziet līdz grāmatplauktam, atrast savu vārdnīcu, notīrīt to no putekļiem un pāriet pareizajā vietā vārdu alfabēta secībā, lai pārliecinātos, ka, jā, jums šī definīcija bija tieši piemērota, un jūs zināt tā nianses. Tātad tas īsti nenotiek. Tātad jūs iegādājaties lietotni Kindle un sākat lasīt grāmatas tur, un redzat vārdu, par kuru neesat pilnīgi pārliecināts, un pieskaraties vārdam. Pēkšņi tieši tajā pašā ekrānā ir vārda definīcija vārdnīcā ar visām tā niansēm, dažādiem paraugiem, un jūs mazliet velciet un jūs saņemat Wikipedia rakstu par šo tēmu, jūs velciet vēlreiz, jūs saņemat tulkošanas rīku, kas to var tulkot citās valodās vai no citām valodām, un pēkšņi jūsu valodas zināšanas ir tik bagātas, un tas notiek tikai pārsteidzoši vairākas reizes, salīdzinot ar laiku, kad jums bija jādodas un pavelciet šo resursu sev.
Un tāpēc es runāšu par to, ka analītiķa darbplūsma un veids, kā analītiķis nodarbosies ar datu dokumentāciju, faktiski ir ļoti līdzīgs tam, kā lasītājs mijiedarbosies ar vārdnīcu, neatkarīgi no tā, vai tā ir fiziska, vai arī Iekurt, un tāpēc mēs, veids, kā mēs patiešām redzējām šo produktivitātes pieaugumu, nevis izliekam katalogu, bet pievienojam to analītiķa darbplūsmai, un tāpēc viņi ir lūguši mani šeit veikt demonstrāciju, un es gribu lai šī prezentācija būtu uzmanības centrā. Bet es tikai vēlos izveidot demonstrācijas kontekstu. Kad mēs domājam par datu nodošanu lietotājiem, kad viņiem tas ir vajadzīgs, mēs domājam, ka īstā vieta, kur to darīt, vieta, kur viņi pavada laiku un kur veic analīzi, ir SQL vaicājumu rīks. Vieta, kur rakstāt un palaižat SQL vaicājumus. Un tā mēs uzbūvējām, un mēs to uzbūvējām, un lieta, kas patiešām atšķiras no citiem vaicājumu rīkiem, ir tā dziļā integrācija ar datu katalogu.
Tātad mūsu vaicājumu rīks saucas Alation Compose. Tas ir tīmekļa vaicājumu rīks, un es jums to parādīšu pēc sekundes. Tīmekļa vaicājumu rīks, kas darbojas visos šajos datu bāzes logotipos, kurus redzējāt iepriekšējā slaidā. Īpaši mēģināšu demonstrēt, kā kataloga informācija nonāk lietotājiem. Un tas tiek darīts, izmantojot šos trīs dažādos veidus. Tas tiek darīts ar iejaukšanās palīdzību, un tur kāds var būt datu pārzinis vai datu pārzinis, kā arī sava veida administrators vai pārvaldnieks, sakot: “Es vēlos kārtot starpsaucienus ar piezīmi vai brīdinājumu darbplūsmu un pārliecinieties, ka tā lietotājiem tiek piegādāta īstajā laikā. ”Tā ir iejaukšanās, un mēs to parādīsim.
Viedie ieteikumi ir veids, kā rīks izmanto visas savas apkopotās zināšanas par katalogu, lai ieteiktu objektus un vaicājuma daļas tā rakstīšanas laikā. Vissvarīgākais, kas tur jāzina, ir tas, ka to patiešām izmanto vaicājumu žurnāls, lai ieteiktu lietas, kas balstītas uz izmantošanu, kā arī atrastu pat uzrakstītu vaicājumu daļas. Un mēs to parādīsim.
Pēc tam priekšskatījumi. Priekšskatījumi ir, rakstot objekta nosaukumu, mēs parādīsim visu, ko zina katalogs, vai vismaz visatbilstošākās lietas, ko katalogs zina par šo objektu. Tātad visu to datu paraugi, kuri to bija izmantojuši iepriekš, - objekta loģiskais nosaukums un apraksts, nonāk pie jums, kamēr jūs to rakstāt, un jums tas nav jālūdz.
Tāpēc vairs nerunājot, es nokļūstu demonstrācijā, un es tikai gaidīšu, kamēr tā parādīsies. Tas, ko es jums parādīšu, ir vaicājumu rīks. Tā ir īpaša SQL rakstīšanas saskarne. Tas noteiktā nozīmē ir atsevišķs interfeiss no kataloga. Dezs un Robins runāja par katalogu, un es mazliet pārlecu pāri kataloga saskarnei tieši uz to, kā tas tiek ievests tieši darbplūsmas apkalpošanai.
Es šeit tikai parādu vietu, kur es varu rakstīt SQL, un apakšā jūs redzēsit, ka mums, piemēram, ir kāda informācija par objektiem, uz kuriem mēs atsaucamies. Tāpēc es tikai sākšu rakstīt vaicājumu un apstāšos, kad nokļūstu kādā no šiem iejaukšanās gadījumiem. Tāpēc es ierakstīšu “atlasīt” un gribu gadu. Es gribu vārdu. Un es meklēšu dažus datus par algu. Tātad šī ir izglītības datu kopa. Tajā ir informācija par augstākās izglītības iestādēm, un es skatos uz vidējo mācībspēku atalgojumu, kas ir vienā no šīm tabulām.
Tāpēc es faktiski esmu ierakstījis vārdu “alga”. Tas nav tieši kolonnas nosaukumā. Mēs ierosināšanai izmantojam gan loģiskos, gan fiziskos metadatus. Un es gribu šeit norādīt šo dzelteno lodziņu, kas šeit parādās. Tajā teikts, ka šajā slejā ir brīdinājums. Es to nemeklēju, es neuzticēju nodarbību, kā pareizi izmantot šos datus. Tas nāca pie manis, un tas, iespējams, ir brīdinājums par konfidencialitātes līgumu, kas ir saistīts ar šiem datiem. Tātad ir daži informācijas atklāšanas noteikumi. Ja es vaicāšu par šiem datiem, es izņemšu datus no šīs tabulas, man jābūt uzmanīgam attiecībā uz to, kā es tos atklāju. Tātad jums šeit ir pārvaldības politika. Pastāv dažas atbilstības problēmas, kas padara šo politikas ievērošanu tik daudz vienkāršu, ja es tajā laikā zinu par to, ka es skatos datus.
Tāpēc es to sapratu, un tad es apskatīšu arī mācību. Un šeit mēs redzam, ka tiek atskaņoti priekšskatījumi. Šajā mācību kolonnā es redzu - uz iestādes galda ir mācību kolonna, un es redzu tās profilu. Alija iet un izvelk datu paraugus no tabulām, un šajā gadījumā tas man parāda kaut ko diezgan interesantu. Tas parāda man vērtību sadalījumu, un man parāda, ka nulles vērtība paraugā parādījās 45 reizes un vairāk nekā jebkura cita vērtība. Tāpēc man ir kāda jēga, ka mums, iespējams, trūkst datu.
Ja esmu pieredzējis analītiķis, iespējams, ka tā jau ir daļa no manas darbplūsmas. It īpaši, ja es esmu īpaši rūpīgs, ja es pirms laika izdarītu virkni profilēšanas jautājumu. Kad es tuvojos jauniem datiem, es vienmēr domāju par to, kāds ir mūsu datu pārklājums. Bet, ja es esmu jauns datu analīzē, ja es esmu jauns šajā datu kopā, es varētu pieņemt, ka, ja ir kolonna, tā tiek vienmēr aizpildīta. Vai arī es varētu pieņemt, ka, ja tas nav aizpildīts, tas nav nulle, tas ir nulle vai kaut kas tamlīdzīgs. Bet šajā gadījumā mums ir daudz nulles, un, ja es izdarītu vidējo rādītāju, viņi droši vien kļūdītos, ja es tikai pieņemtu, ka šīs nulles faktiski ir nulle, nevis trūkstošie dati.
Bet Alation, iekļaujot šo priekšskatījumu savā darbplūsmā, lūdz jūs ielūkoties šajā informācijā un dod iespēju pat savam iesācēju analītiķim redzēt, ka šeit ir kaut kas pamanāms par šiem datiem. Tātad mums ir tas priekšskatījums.
Nākamā lieta, ko es darīšu, ir es mēģināšu noskaidrot, no kādām tabulām iegūt šo informāciju. Tātad šeit mēs redzam gudros ieteikumus. Tas notiek visu laiku, bet it īpaši šeit es pat neko neesmu ierakstījis, bet tas man ieteiks, kuras tabulas es varētu vēlēties izmantot šim vaicājumam. Un vissvarīgākais, kas par to jāzina, ir tas, ka tas izmanto lietošanas statistikas priekšrocības. Tāpēc vidē, piemēram, eBay, kur vienotā datu bāzē ir simtiem tūkstošu tabulu, kam ir rīks, kas var sava veida notriekt kviešus no pelavām, un, izmantojot šo lietošanas statistiku, ir ļoti svarīgi, lai tos izveidotu. ieteikumi kaut ko vērti.
Tāpēc mēs ierosināsim šo tabulu. Apskatot priekšskatījumu, mēs faktiski izceļam trīs kolonnas, kuras es jau minēju savā vaicājumā. Tāpēc es zinu, ka tam ir trīs, bet tam nav nosaukuma. Man jāsaņem vārds, tāpēc es gatavojos pievienoties. Kad es pievienojos, tagad man atkal ir šie priekšskatījumi, kas man palīdz atrast, kur ir tabula ar vārdu. Tāpēc es redzu, ka šim nosaukumam ir labi formatēts, sava veida lielo burtu lietojums. Šķiet, ka katrai iestādei ir viena rinda ar nosaukumu, tāpēc es to satvēru, un tagad man ir nepieciešams pievienošanās nosacījums.
Un tā, lūk, ko Alation dara, atkal tiek atskatīts uz vaicājumu žurnāliem, iepriekš redzēts, ka šīs divas tabulas ir savienotas, un tiek ieteikti dažādi veidi, kā tiem pievienoties. Atkal ir kāda iejaukšanās. Ja es apskatīšu vienu no šiem, tas saņem brīdinājumu, kas man parāda, ka tas ir jāizmanto tikai apkopotai analīzei. Tas, iespējams, radīs nepareizu lietu, ja mēģināsit kaut ko darīt caur iestādi, pēc iestādes. Tā kā šo vienu ar OPE ID apstiprina kā pareizu savienošanas veidu ar šīm divām tabulām, ja vēlaties iegūt datus universitātes līmenī. Tāpēc es to daru, un tas ir īss vaicājums, bet es esmu uzrakstījis savu vaicājumu, man tiešām nav nekāda ieskata par to, kas ir dati. Es nekad neesmu apskatījis šīs datu kopas ER diagrammu, bet es jau diezgan daudz zinu par šiem datiem, jo attiecīgā informācija man pienāk.
Tātad šie ir trīs veidi, kā katalogs, izmantojot integrētu vaicājumu rīku, var tieši ietekmēt darbplūsmu, rakstot vaicājumus. Bet viena no citām priekšrocībām, kas rodas, ja vaicājumu rīks tiek integrēts ar katalogu, ir tas, ka, pabeidzot vaicājumu un saglabājot to, es varu ievietot tādu nosaukumu kā “Institūcijas mācību un fakultātes alga”, un tad man šeit ir poga, kas ļauj man to vienkārši publicēt katalogā. Man kļūst ļoti viegli to atgriezt. Pat ja es to nepubliskoju, tas tiek notverts kā daļa no vaicājumu žurnāla, bet, kad to publicēju, tas faktiski kļūst par daļu no tā, kā centralizētajā vietā, kur mīt visas zināšanas par datiem.
Tātad, ja es noklikšķināšu uz Meklēt visiem vaicājumiem Ālijā, es tikšu ņemts vērā - un šeit jūs redzēsit vēl dažus kataloga saskarnes veidus - es tikšu pārvietots uz specializētu vaicājumu meklēšanu, kas parāda man iespēju atrast vaicājumus visā visa organizācija. Un jūs redzat, ka mana tikko publicētā vaicājuma augšdaļa ir redzama. Un daži šeit var pamanīt, uztverot jautājumus, mēs arī uztveram autorus, un mēs sava veida nodibinām attiecības starp mani kā autoru un šiem datu objektiem, par kuriem es tagad kaut ko zinu. Un es esmu kļuvis par ekspertu šajā vaicājumā un šajos datu objektos. Tas ir ļoti noderīgi, ja cilvēkiem ir jāapgūst dati par datiem, viņi var atrast pareizo cilvēku, uz kuru uzzināt. Un, ja es patiesībā esmu jauns datu lietotājs, neatkarīgi no tā, vai esmu pieredzējis analītiķis - es kā pieredzējis analītiķis, iespējams, apskatīšu šo un redzēšu virkni piemēru, kas liktu man sākt darbu ar jaunu datu kopu. Kā kāds, kurš, iespējams, nejūtas īpaši izveicīgs ar SQL, es varu atrast jau sagatavotus jautājumus, kas ir pārskati, kurus es varu izmantot.
Šeit ir Fils Mazanets par vidējiem SAT rādītājiem. Noklikšķiniet uz šī, un es saņemu sava pieprasījuma kataloga lapu. Tas runā par rakstu, kas tika uzrakstīts, atsaucoties uz šo vaicājumu, tāpēc man ir daži dokumenti, kas man jāizlasa, ja vēlos uzzināt, kā to izmantot. Un es to varu atvērt vaicājumu rīkā, noklikšķinot uz pogas Rakstīt, un es pats to varu palaist šeit, pat to nerediģējot. Patiesībā jūs mazliet iepazīstaties ar mūsu vieglajām pārskatu sniegšanas iespējām, kur, rakstot vaicājumu, varat iemest šablona mainīgo, kā šis, un tas rada vienkāršu veidu, kā izveidot veidlapu, lai izpildītu vaicājumu. uz pāris parametriem.
Tas ir tas, kas man ir paredzēts demonstrācijai. Es atgriezīšos pie slaidiem. Tikai veida atgādinājumam mēs parādījām, kā administrators, datu pārvaldnieks, var iejaukties, ievietojot brīdinājumus objektiem, kas parādās vaicājuma rīkā, kā Alation izmanto savas zināšanas par datu objektu izmantošanu, lai veiktu viedus ieteikumus, kā tas dod profilēšanā un citos padomos, kā uzlabot analītiķu darbplūsmas, kad viņi pieskaras noteiktiem objektiem, un kā visa šāda veida plūsmas tiek iekļautas atpakaļ katalogā, kad tiek uzrakstīti jauni vaicājumi.
Acīmredzot esmu uzņēmuma pārstāvis. Es teikšu jaukas lietas par datu katalogiem. Ja vēlaties dzirdēt tieši no viena no mūsu klientiem, Kristīne Allena vietnē Safeway vada analītiķu komandu un stāsta patiesi foršu stāstu par laiku, kad viņai patiešām vajadzēja pārspēt pulksteni, lai veiktu mārketinga eksperimentu, un kā viss komanda izmantoja Alation, lai sadarbotos un patiešām ātri apgrieztos šajā projektā. Lai jūs varētu sekot šai bit.ly saitei, lai pārbaudītu šo stāstu, vai arī, ja vēlaties mazliet uzzināt, kā Alation varētu ievietot datu katalogu jūsu organizācijā, mēs esam priecīgi iestatīt personalizētu demonstrāciju. Liels paldies.
Rebeka Jozviaka: Liels paldies, Dāvids. Esmu pārliecināts, ka Dezam un Robinam ir daži jautājumi, pirms es pārdevu skatītāju Q&A jautājumus. Dez, vai tu gribi iet pirmais?
Dez Blanchfield: Absolūti. Es mīlu ideju par šo publicēto vaicājumu jēdzienu un saistu to ar autora avotu. Esmu ilggadējs šīs idejas par iekšējo lietotņu veikalu čempions, un es domāju, ka tas ir patiešām lielisks pamats, uz kura balstīties.
Es gribēju dabūt ieskatu dažās organizācijās, kuras jūs redzat, kā to darāt, un dažos veiksmes stāstos, kas viņiem varētu būt bijuši visā šajā ceļojumā, kurā ne tikai tiek izmantots jūsu rīks un platforma, lai atklātu datus, bet arī tad arī pārveidojiet savas iekšējās kultūras un uzvedības iezīmes. Tagad ir šāda veida iekšējais lietotņu veikals, kurā jūs vienkārši lejupielādējat - koncepcija, kurā viņi var ne tikai to atrast, bet arī faktiski var sākt veidot mazas kopienas ar šo zināšanu glabātājiem.
Deivids Krorfords: Jā, es domāju, ka mēs esam bijuši pārsteigti. Mēs ticam, ka vaicājumu koplietošana ir vērtīga gan no manas pagātnes kā Adtech produktu menedžera, gan no visiem klientiem, ar kuriem mēs esam runājuši, taču joprojām esmu pārsteigts, cik bieži tā ir viena no pirmajām lietām, ko klienti runā par vērtību, kuru viņi iegūst no Alation.
Es veicu zināmu vaicājumu rīka testēšanu pie viena no mūsu klientiem, kura nosaukums bija Invoice2go, un viņiem bija samērā jauns produktu menedžeris, un viņi sacīja - viņš patiesībā man, lietotāja testa laikā nepopulāri, teica: “Es patiesībā negribētu vispār rakstīt SQL, izņemot to, ka to viegli atvieglo Alation. ”Un, protams, es, būdams premjerministrs, iesaku:“ Ko jūs domājat, kā mēs to izdarījām? ”, un viņš teica:“ Nu, tas tiešām ir tikai jo es varu pieteikties un redzēt visus šos esošos vaicājumus. ”Sākt ar tukšu šīferi ar SQL ir neticami smagi, taču modificēt esošu vaicājumu, kur var redzēt izlikto rezultātu un pateikt, “Ak, man vienkārši vajadzīga šī papildu kolonna” vai “Man tas jāfiltrē noteiktā datumu diapazonā”, tas ir daudz vieglāk izdarāms.
Mēs esam redzējuši šāda veida palīglomas, piemēram, produktu vadītājus, varbūt pārdošanas darbiniekus, kuri sāk izvēlēties un kuri vienmēr gribēja iemācīties SQL un sākt to izvēlēties, izmantojot šo katalogu. Mēs esam arī redzējuši, ka daudzi uzņēmumi ir mēģinājuši veikt sava veida atvērto avotu. Es esmu mēģinājis izveidot šāda veida lietas iekšēji, kur tās izseko jautājumus un padara tos pieejamus, un tur ir daži patiešām sarežģīti dizaina izaicinājumi, lai tos padarītu noderīgus. Facebook ir bijis iekšējs rīks, kuru viņi sauca par HiPal un kas uztver visus Hive rakstītos jautājumus, bet jūs uzzināsit, ka, ja jūs neveicat pareizu lietotāju iespiešanos, jūs vienkārši nonākat pie ļoti garš izvēlēto paziņojumu saraksts. Un kā lietotājs, kurš mēģina noskaidrot, vai vaicājums man ir noderīgs vai vai tas ir kaut kas labs, ja es vienkārši apskatīšu garu atlasīto paziņojumu sarakstu, man vajadzēs daudz ilgāku laiku, lai kaut ko tur iegūtu no vērtības, nekā sākot no nulles. Diezgan rūpīgi pārdomājām, kā izveidot vaicājumu katalogu, kas priekšplānā piedāvā pareizo saturu un nodrošina to noderīgā veidā.
Dezs Blanšfīlds: Es domāju, ka mēs visi daudzos veidos dodamies šajā ceļojumā no ļoti jauna vecuma līdz pat pieauguša cilvēka vecumam. Ķekars tehnoloģiju. Es pats personīgi esmu izgājis ļoti īstu lietu, piemēram, iemācījos sagriezt kodu. Es izietu žurnālus un pēc tam grāmatas, es studētu līdz noteiktam līmenim, un tad man vajadzēja aiziet un faktiski iegūt par to papildu apmācību un izglītību.
Bet netīšām es atklāju, ka pat dodoties mācīt sevi un lasīt žurnālus, lasīt grāmatas un lasīt citu cilvēku programmas un doties uz tās kursiem, es tomēr nobeidzu mācīties tik daudz, cik daudz darīju, un tikai runāju ar citiem. cilvēki, kuriem bija kāda pieredze. Un es domāju, ka tas ir interesants atklājums, ka tagad, kad jūs to pieņemat datu analītikai, mēs principā redzam to pašu paralēlu, ka cilvēki vienmēr ir diezgan gudri.
Otra lieta, ko es patiešām vēlos saprast, ir ļoti augsta līmeņa, ka daudzas organizācijas jautā: “Cik ilgs laiks nepieciešams, lai nokļūtu šajā punktā?” Kāds ir izejas punkts laika ziņā, kad cilvēki saņem jūsu platforma ir instalēta, un viņi sāka atklāt rīku veidus? Cik ātri cilvēki vienkārši pamana, ka šī lieta pārvēršas par tūlītēju “a-ha” brīdi, kad viņi saprot, ka vairs pat neuztraucas par IA, jo tā ir tur, bet tagad viņi faktiski maina uzņēmējdarbības veidu ? Viņi ir atklājuši pazaudētu mākslu un sagaida, ka ar to var paveikt kaut ko patiešām, ļoti jautru.
Deivids Krorfords: Jā, es varu to mazliet pieskarties. Es domāju, ka tad, kad mēs esam instalēti, viena no jaukajām lietām, viena no lietām, kas patīk cilvēkiem ar katalogu, kurš ir tieši savienots ar datu sistēmām, ir tāda, ka nesāciet tukšas vietas, kur jums tas ir jāaizpilda. lapa pa lappusei. Tas pats attiecas uz iepriekšējiem datu risinājumiem, kur jūs sāktu ar tukšu rīku un jāsāk izveidot lapa visam, ko vēlaties dokumentēt.
Tā kā mēs tik daudz lietu dokumentējam automātiski, iegūstot metadatus, galvenokārt dažu dienu laikā pēc programmatūras instalēšanas, rīkā varat iegūt savas datu vides attēlu, kas tajā ir vismaz 80 procenti. Un tad es domāju, ka tiklīdz cilvēki sāks rakstīt vaicājumus, izmantojot šo rīku, viņi automātiski tiks saglabāti atpakaļ katalogā un tāpēc viņi arī sāks parādīties.
Es nevēlos pārāk dedzīgi to apgalvot. Es domāju, ka divas nedēļas ir diezgan labs konservatīvs aprēķins - mēnesis. Divas nedēļas līdz mēnesis ir konservatīvs aprēķins par patiesu apgriešanos un sajūtu, ka jūs no tā gūstat vērtību, piemēram, jūs sākat dalīties ar zināšanām un spējat tur nokļūt un uzzināt lietas par saviem datiem.
Dezs Blanšfīlds: Tas tiešām ir diezgan pārsteidzoši, ja par to domājat. Fakts, ka dažu lielo datu platformu, kuras efektīvi indeksējat un kataloģizējat, ieviešana, izvietošana un stāvēšana dažreiz prasīs gadu.
Pēdējais jautājums, kas jums jums radās pirms Robina Bloora nodošanas, ir savienotāji. Viena no lietām, kas man uzreiz uznāk, ir acīmredzot, ka viss izaicinājums ir sakārtots. Tātad ir ļoti ātri pāris jautājumi. Pirmkārt, cik ātri savienotāji tiek ieviesti? Acīmredzot jūs sākat ar lielāko platformu, piemēram, Oracles un Teradatas un tā tālāk, un DB2. Bet cik regulāri jūs redzat, ka rodas jauni savienotāji, un cik ilgu laiku tie prasa? Es iedomājos, ka jums viņiem ir standarta sistēma. Un cik dziļi jūs iedziļināties tajos? Piemēram, pasaules Oracles un IBM un pat Tereadata, un pēc tam dažas no populārākajām vēlā atvērtā koda platformām. Vai viņi strādā tieši pie jums? Vai jūs to atklājat paši? Vai jums ir jābūt iekšējām zināšanām par šīm platformām?
Kā izskatās savienotāju attīstīšana, un cik dziļi jūs iesaistāties šajās partnerībās, lai nodrošinātu, ka šie savienotāji atklāj visu iespējamo?
Deivids Krorfords: Jā, protams, tas ir lielisks jautājums. Es domāju, ka lielākoties mēs varam attīstīt savienotājus. Mēs to noteikti darījām, kad bijām jaunāki startup un mums nebija klientu. Mēs noteikti varam izveidot savienojumus, neprasot nekādu iekšēju piekļuvi. Mēs nekad nesaņemam īpašu piekļuvi datu sistēmām, kas nav publiski pieejamas, un bieži vien mums nav nepieciešama iekšēja informācija. Mēs izmantojam metadatu pakalpojumu priekšrocības, ko nodrošina pašas datu sistēmas. Bieži vien tie var būt diezgan sarežģīti un ar tiem grūti strādāt. Īpaši zinu SQL Server, tas, kā viņi pārvalda vaicājumu žurnālu, tur ir vairākas dažādas konfigurācijas, un tas ir kaut kas, ar ko tiešām jāstrādā. Jums tas ir jāsaprot, izmantojot nianses, taustiņus un ciparnīcas, lai to pareizi uzstādītu, un tas ir kaut kas, ar ko mēs strādājam kopā ar klientiem, jo mēs to jau esam izdarījuši vairākas reizes iepriekš.
Bet zināmā mērā tas ir pieejams publiskā saskarnes API vai pieejamās publiskās saskarnes, kuras mēs izmantojam. Mums ir partnerattiecības ar vairākiem šiem uzņēmumiem, tas galvenokārt ir pamats sertifikācijai, lai viņi justos ērti sakot, ka mēs strādājam, kā arī viņi var mums piedāvāt resursus testēšanai, dažreiz agrīnai piekļuvei platformai, kas iznāk, lai pārliecinātos, ka mēs strādājam pie jaunajām versijām.
Lai apgrieztu jaunu savienojumu, es vēlreiz teiktu, ka mēģinu būt konservatīvs, teiksim, sešas nedēļas līdz divi mēneši. Tas ir atkarīgs no tā, cik tas ir līdzīgs. Tātad daži Postgre darbi izskatās ļoti līdzīgi Redshift. Redshift un Vertica dalās daudzās detaļās. Tātad mēs varam izmantot šīs lietas. Bet jā, sešas nedēļas vai divi mēneši būtu taisnīgi.
Mums ir arī API, tāpēc - mēs domājam arī par Alation kā metadatu platformu, tāpēc, ja kaut kas nav pieejams, lai mēs varētu sasniegt un automātiski satvert, ir veidi, kā jūs pats varat uzrakstīt savienotāju un ievietot to mūsu sistēmā ka viss joprojām tiek centralizēts vienā meklētājprogrammā.
Dez Blanchfield: fantastiski. Es to novērtēju. Tāpēc mēs to nodosim Robinam, jo esmu pārliecināts, ka arī viņam ir daudz jautājumu. Robins?
Rebeka Jozviaka: Robins, iespējams, ir izslēgts.
Dezs Blanšfīlds: Jūs esat klusējis .
Robins Bloors: Jā, pareizi. Atvainojiet, es sevi apklusināju. Kad jūs to īstenojat, kāds ir process? Es esmu veida ziņkārīgs, jo daudzās vietās var būt daudz datu. Tātad, kā tas darbojas?
Deivids Krorfords: Jā, protams. Mēs ieejam, vispirms tas ir sava veida IT process, kas nodrošina mūsu servera nodrošināšanu, pārliecināšanos, ka tīkla savienojumi ir pieejami, ostas ir atvērtas, lai mēs faktiski varētu piekļūt sistēmām. Viņi visi bieži zina, kuras sistēmas viņi vēlas sākt. Zinot datu sistēmas iekšpusi, kas dažreiz mēs viņiem tiešām palīdzēsim. Mēs viņiem palīdzēsim sākotnēji izpētīt viņu vaicājumu žurnālu, lai saprastu, kas ko izmanto un cik daudz lietotāju viņiem ir sistēmā. Tātad mēs palīdzēsim noskaidrot, kur - viņi bieži, ja viņiem ir simtiem vai tūkstošiem cilvēku, kas varētu pieteikties datu bāzēs, patiesībā nezina, kur viņi piesakās, tāpēc mēs varam uzzināt, izmantojot vietni vaicājumu žurnāli norāda, cik unikālu lietotāju kontu jūs šeit faktiski piesakāties un izpildāt vaicājumus apmēram pēc mēneša.
Tātad mēs to varam izmantot, bet bieži tikai svarīgākajos. Mēs tos sakārtojam, un tad notiek process, kurā tiek teikts: “Prioritāti noteiksim”. Paralēli var notikt virkne darbību. Es koncentrētos uz vaicājuma rīka lietošanas apmācību. Tiklīdz cilvēki sāk izmantot vaicājumu rīku, pirmkārt, daudziem cilvēkiem patīk tas, ka tas ir tikai viens interfeiss visām viņu dažādajām sistēmām. Viņiem patīk arī tas, ka tas ir balstīts uz tīmekļa vietni, neveic instalēšanu, ja viņi to nevēlas. Raugoties no drošības viedokļa, viņiem patīk, ja tiem ir viens ieejas punkts, no tīkla viedokļa starp korporatīvā IT tīkla veidu un datu centru, kurā atrodas ražošanas datu avoti. Viņi iestatīs Alation kā vaicājumu rīku un sāks izmantot programmu Compose kā piekļuves punktu visām šīm sistēmām.
Tātad, tiklīdz tas notiek, mēs galvenokārt koncentrējamies uz apmācību, lai saprastu, kādas ir atšķirības starp tīmekļa vai servera vaicājumu rīku salīdzinājumā ar vienu, kas jums ir uz darbvirsmas, un dažas lietošanas nianses ka. Un tajā pašā laikā mēs centīsimies noteikt visvērtīgākos datus, atkal izmantojot vaicājumu žurnāla informāciju un sakot: “Hei, jūs varētu vēlēties ienākt un palīdzēt cilvēkiem tos saprast. Sāksim publicēt reprezentatīvos pieprasījumus uz šīm tabulām. ”Tas dažreiz ir visefektīvākais veids, kā ļoti ātri panākt, lai cilvēki pievērstos. Apskatīsim jūsu vaicājumu vēsturi, publicēsim šīs lietas, lai tās parādītos kā pirmie vaicājumi. Skatot tabulas lapu, viņi var redzēt visus vaicājumus, kas skāra tabulu, un viņi var sākt no turienes. Un tad sāksim pievienot nosaukumus un aprakstus šiem objektiem, lai tos būtu vieglāk atrast un meklēt, lai jūs zināt dažas nianses, kā to izmantot.
Mēs pārliecināmies, ka esam rūpīgi izpētījuši vaicājumu žurnālu, lai varētu ģenerēt ciltsrakstu. Viena no lietām, ko mēs darām, ir tas, ka mēs skatāmies vaicājumu žurnālā brīžos, kad dati pārvietojas no vienas tabulas uz otru, un tas mums ļauj uzdot vienu no visbiežāk uzdotajiem jautājumiem par datu tabulu. Kur tas radās? Kā es tam uzticos? Un tas, ko mēs varam parādīt, ir ne tikai tas, no kādām citām tabulām tas nāca, bet arī tas, kā tas tika pārveidots. Atkal to veicina vaicājumu žurnāls.
Tāpēc mēs pārliecināmies, ka šīs lietas ir iestatītas un ka mēs sākam iekļauties sistēmā, un mēs mērķējam uz visvērtīgākajiem un visiecienītākajiem metadatu gabaliem, ko varam izveidot tabulas lapās, lai meklējot, jūs atradīsit kaut ko noderīgu.
Robins Bloors: Labi. Otrs jautājums - ir daudz jautājumu no auditorijas, tāpēc es nevēlos uzņemties pārāk daudz laika šeit - otrs jautājums, kas man ienāk prātā, ir tikai sāpju punkti. Ļoti daudz programmatūras tiek nopirkts, jo cilvēkiem tādā vai citādā veidā ir grūtības ar kaut ko. Kas tad ir tas kopīgais sāpju punkts, kas cilvēkus ved pie Alācijas?
Deivids Krorfords: Jā. Es domāju, ka ir daži, bet es domāju, ka viens no tiem, ko diezgan bieži dzirdam, ir analītiķis, kurš uzkāpj uz kuģa. “Man tuvākajā laikā vajadzēs nolīgt 10, 20, 30 cilvēkus, kuriem no šiem datiem būs jāiegūst jauns ieskats. Kā viņi gatavojas tikt pie ātruma?” Tātad, analītiķis uz kuģa ir kaut kas, ko mēs noteikti darām. risināt. Tas ir arī tas, ka vecākie analītiķi atbrīvo visu savu laiku, atbildot uz citu cilvēku jautājumiem par datiem. Tas ir arī ļoti bieži. Un abas tās būtībā ir izglītības problēmas.
Un tad es teiktu, ka cita vieta, kur mēs redzam cilvēkus, kuri pārņem Alation, ir tad, kad viņi vēlas izveidot pavisam jaunu datu vidi, lai kāds varētu strādāt. Viņi vēlas to reklamēt un pārdot iekšēji, lai cilvēki varētu izmantot priekšrocības. Tad Alation padarīšana par jauno analītisko vidi ir ļoti pievilcīga. Tam ir dokumentācija, tas ir viens ievadīšanas punkts - vienots piekļuves punkts sistēmām, un tā ir vēl viena vieta, kur cilvēki nāks pie mums.
Robins Bloors: Labi, es jūs nodošu Rebekai, jo auditorija mēģina nokļūt pie jums.
Rebeka Jozvejaka: Jā, šeit mums ir daudz ļoti labu jautājumu par auditoriju. Un Dāvids, šis tika uzdots tieši jums. Tas ir no kāda, kuram acīmredzot ir zināma pieredze ar cilvēkiem, kā ļaunprātīgi izmantot vaicājumus, un viņš saka, ka jo vairāk mēs pilnvarojam lietotājus, jo grūtāk ir pārvaldīt atbildīgu aprēķināto resursu izmantošanu. Tātad, vai jūs varat aizstāvēties pret kļūdaini, bet bieži sastopamo vaicājumu frāžu izplatīšanu?
Deivids Krorfords: Jā, es redzu šo jautājumu. Tas ir lielisks jautājums - tāds, kādu mēs saņemam diezgan bieži. Esmu pats redzējis sāpes iepriekšējos uzņēmumos, kur jums ir jāapmāca lietotāji. Piemēram, “Šī ir žurnālu tabula, tai ir žurnāli, kas atgriežas gadiem. Ja jūs gatavojaties rakstīt vaicājumu uz šīs tabulas, jums patiešām ir jāierobežo datums. ”Tā, piemēram, tā ir apmācība, kuru es apmeklēju iepriekšējā uzņēmumā, pirms man tika dota pieeja datu bāzei.
Mums ir pāris veidu, kā mēģināt to risināt. Es teiktu, ka, manuprāt, vaicājumu žurnāla dati ir patiešām unikāli vērtīgi, lai tos risinātu. Tas sniedz vēl vienu ieskatu salīdzinājumā ar datu bāzes iekšējo darbību ar vaicājumu plānotāju. Un tas, ko mēs darām, ir viena no šīm intervencēm - mums ir manuālas intervences, kuras es parādīju, un tas ir noderīgi, vai ne? Tā, piemēram, par konkrētu pievienošanos jūs varat teikt: "Novemēsim šo." Kad tas parādīsies viedajā ieteikumā, tam būs liels sarkanais karogs. Tātad tas ir viens veids, kā mēģināt sazināties ar cilvēkiem.
Vēl viena lieta, ko mēs darām, ir automatizēta iejaukšanās izpildes laikā. Tas faktiski izmantos vaicājuma pars koku, pirms mēs to palaižam, vai tas satur noteiktu filtru vai pāris citas lietas, ko mēs tur arī darām. Bet viens no vērtīgākajiem un vienkāršākais, ko izskaidrot, ir tas, vai tajā ir filtrs? Tātad, piemēram, manis sniegtajā piemērā, šai žurnāltabulai, ja jūs uz to meklēsit, ir jābūt datumu diapazonam, tur tabulas lapā varat norādīt, ka esat pilnvarojis šī datumu diapazona filtru lietot. Ja kāds mēģina izpildīt vaicājumu, kas neietver šo filtru, tas faktiski viņu apturēs ar lielu brīdinājumu un pateiks: “Jums droši vien vajadzētu savam vaicājumam pievienot kādu SQL, kas izskatās šādi.” Viņi var turpināt, ja viņi grib. Mēs faktiski to pilnībā neaizliegsim izmantot - tas ir arī vaicājums, dienas beigās ir jāveic vaicājumi. Bet mēs viņiem nostādām diezgan lielu barjeru un sniedzam viņiem ieteikumu, konkrētu piemērojamu ieteikumu vaicājuma modificēšanai, lai uzlabotu tā veiktspēju.
Atsevišķos gadījumos mēs to darām arī automātiski, atkal novērojot vaicājumu žurnālu. Ja redzēsim, ka daži patiešām lieli vaicājumu procenti uz šīs tabulas izmanto kāda noteikta filtra vai konkrēta pievienošanās noteikuma priekšrocības, mēs to faktiski parādīsim. Mēs to reklamēsim kā intervenci. Patiesībā ar mani tas notika iekšējā datu kopā. Mums ir klienta dati un lietotāja ID, bet lietotāja ID ir noteikts, jo tāds ir - katram klientam ir lietotāja ID. Tas nav unikāls, tāpēc, lai iegūtu unikālu pievienošanās atslēgu, tas ir jāsavieno pārī ar klienta ID. Es rakstīju vaicājumu un mēģināju kaut ko izanalizēt, un tas parādījās un sacīja: “Hei, visi citi, šķiet, pievienojas šīm tabulām gan ar klienta ID, gan ar lietotāja ID. Vai esat pārliecināts, ka nevēlaties to darīt? ”Un tas mani faktiski apturēja veikt nepareizu analīzi. Tātad tas darbojas gan attiecībā uz analīzes precizitāti, gan darbību. Tātad tas ir veids, kā mēs šo problēmu risinām.
Rebeka Jozvejaka: Man tas šķistu efektīvi. Jūs teicāt, ka ne vienmēr bloķēsit cilvēkus no krāpšanās ar resursiem, bet gan iemācīsit viņiem, ka tas, ko viņi dara, varētu nebūt labākais, vai ne?
Deivids Krorfords: Mēs vienmēr pieņemam, ka lietotāji nav ļaunprātīgi - dod viņiem vislabāko nodomu - un tādā veidā mēs cenšamies būt diezgan atvērti.
Rebeka Jozwiak: Labi. Šeit ir vēl viens jautājums: “Kāda ir atšķirība starp kataloga pārvaldnieku, piemēram, ar jūsu risinājumu, un MDM rīku? Vai arī tas paļaujas uz citu principālu, paplašinot vaicājumu tabulu izvēli, turpretī MDM to darītu automātiski, bet ar to pašu metadatu vākšanas principu. "
Deivids Krorfords: Jā, es domāju, ka, aplūkojot tradicionālos MDM risinājumus, galvenā atšķirība ir filozofiska. Tas viss ir par to, kas ir lietotājs. Tāds, kā es teicu savas prezentācijas sākumā, Alation, es domāju, ka tad, kad mēs tika dibināti, mēs tikām dibināti ar mērķi ļaut analītiķiem radīt vairāk ieskatu, tos ātrāk sagatavot, būt precīzākiem ieskatā, ka viņi ražot. Es nedomāju, ka tas kādreiz ir bijis tradicionālā MDM risinājuma mērķis. Šie risinājumi parasti ir vērsti uz cilvēkiem, kuriem jāsniedz ziņojumi par to, kādi dati ir iegūti SCC vai iekšēji kāda cita veida revīzijas nolūkos. Dažreiz tas var iespējot analītiķus, bet biežāk, ja tas dos iespēju praktizētājam viņu darbā, tas, visticamāk, iespējot tādu datu arhitektu kā DBA.
Kad domājat par lietām no analītiķa viedokļa, tas ir, kad sākat veidot vaicājumu rīku, ko MDM rīks nekad nedarītu. Tad jūs sākat domāt par veiktspēju, kā arī par precizitāti, kā arī saprotat, kādi dati attiecas uz mana biznesa vajadzībām. Visas šīs lietas ir lietas, kuras mūsu prātos, veidojot rīku, ir ļoti populāras. Tas ir iekļauts mūsu meklēšanas algoritmos, tas iekļauts kataloga lapu izkārtojumā un spējā sniegt zināšanas no visas organizācijas. Tas nonāk faktā, ka mēs izveidojām vaicājumu rīku un ka tieši tajā iebūvējām katalogu, tāpēc es domāju, ka tas tiešām nāk no tā. Kāds lietotājs jums vispirms prātā?
Rebeka Jozwiak: Labi, labi. Tas tiešām palīdzēja to izskaidrot. kurš nomira, lai saņemtu arhīvu, jo viņam bija jāatstāj, bet viņš ļoti vēlējās, lai uz viņa jautājumu tiktu atbildēts. Viņš teica, ka sākumā tika minēts, ka ir vairākas valodas, bet vai SQL ir vienīgā valoda, kas tiek izmantota komponenta sastādīšanā?
Deivids Krorfords: Jā, tā ir taisnība. Un viena no lietām, ko esmu pamanījusi, kad esmu pieredzējusi dažāda veida datu bāzu, dokumentu datu bāzu, grafiku datu bāzu, galveno vērtību krātuvju eksploziju, ir tā, ka tās ir patiešām spēcīgas lietojumprogrammu izstrādei. Viņi tur patiešām var kalpot īpašām vajadzībām labākos veidos, nekā to var izmantot relāciju datu bāzes.
Bet, atgriežot to datu analīzē, kad atgriežot to vietā - kad vēlaties sniegt šo informāciju cilvēkiem, kuri gatavojas veikt ad hoc ziņojumus vai gadījuma rakstura rakšanas datus, ka viņi vienmēr atgriežas pie relācijas vismaz interfeiss cilvēkiem. Daļēji tas notiek tikai tāpēc, ka SQL ir datu analīzes lingua franca, tātad cilvēkiem tas nozīmē arī rīkus, kas integrējas. Es domāju, ka tas ir iemesls, kāpēc SQL vietnē Hadoop ir tik populārs, un ir tik daudz mēģinājumu to atrisināt, jo dienas beigās tas ir tas, ko cilvēki zina. Droši vien ir miljoniem cilvēku, kas zina, kā rakstīt SQL, un es neuzdrošinos miljoniem, kuri zina, kā uzrakstīt Mongo apkopošanas cauruļvada ietvara vaicājumu. Un ka tā ir standarta valoda, kas tiek izmantota integrācijai ļoti plašā platformu klāstā. Tāpēc viss, kas to saka, mums ļoti reti tiek lūgts iziet ārpus tā, jo šī ir saskarne, kuru izmanto vairums analītiķu, un tā ir vieta, kur mēs, it īpaši Compose, koncentrējāmies uz SQL rakstīšanu.
Es teiktu, ka datu zinātne ir vieta, kur viņi riskē visvairāk, un tāpēc mēs ik pa laikam saņemam jautājumus par Pig vai SAS izmantošanu. Tās ir lietas, ar kurām mēs komponenta izveidē noteikti netiekam galā, un kuras mēs vēlētos iemūžināt katalogā. Un es redzu arī R un Python. Mums ir vairāki veidi, kā mēs esam izveidojuši saskarnes, ar kurām jūs varat izmantot vaicājumus, kas rakstīti Alation, R un Python skriptu iekšienē, tāpēc, ka bieži, kad esat datu zinātnieks un strādājat skriptu valodā, jūsu avota dati atrodas relāciju datu bāzē. Jūs sākat ar SQL vaicājumu, un pēc tam to apstrādājat tālāk un izveidojat grafikus R un Python iekšpusē. Mēs esam izveidojuši pakotnes, kuras varat importēt tajos skriptos, no kuriem tiek iegūti vaicājumi vai vaicājuma rezultāti no Alation, lai jūs tur varētu sajaukt darbplūsmu.
Rebeka Jozwiak: Labi, lieliski. Es zinu, ka mēs esam mazliet paskrējuši stundas virsotnē, es tikai uzdošu uzdot vēl vienu vai divus jautājumus. Es zinu, ka jūs runājāt par visām dažādajām sistēmām, kurām varat pieslēgties, bet ciktāl tos var meklēt vienā skatā, vienā platformā, ciktāl tie ir ārēji mitināti dati un iekšēji mitināti dati?
Deivids Krorfords: Protams. Ir daži veidi, kā to izdarīt. Es domāju, ka ārēji mitināts, es iedomājos, es cenšos domāt, ko tieši tas varētu nozīmēt. Tas varētu nozīmēt datu bāzi, ko kāds mitina AWS jums. Tas varētu nozīmēt publisku datu avotu no data.gov. Mēs tieši izveidojam savienojumu ar datu bāzēm, piesakoties tāpat kā citā lietojumprogrammā ar, ar datu bāzu kontu, un šādi mēs iegūstam metadatus. Tātad, ja mums ir konts un ir atvērts tīkla ports, mēs varam nokļūt uz to. Un tad, kad mums nav šo lietu, mums ir kaut kas tāds, ko sauc par virtuālo datu avotu, kas ļauj jums būtībā virzīt dokumentāciju - automātiski, rakstot pats savu savienotāju vai aizpildot to, veicot darbību, piemēram, CSV augšupielādi, lai dokumentētu datus kopā ar iekšējiem datiem. Tas viss nonāk meklētājprogrammā. Tas kļūst atsauces rakstu un citas dokumentācijas un sarunu iekšpusē sistēmā. Tā mēs rīkojamies, ja nevaram tieši izveidot savienojumu ar sistēmu.
Rebeka Jozwiaka: Labi, ka tam ir jēga. Es jums izšaudīšu vēl vienu jautājumu. Viens apmeklētājs ir jautājot: “Kā būtu jāapstiprina, jāpārbauda vai jāuztur datu kataloga saturs, kā atjauninot avota datus, mainot avota datus utt.”
Deivids Krorfords: Jā, tas ir jautājums, kuru mēs saņemam daudz, un es domāju, ka viena no lietām, ko mēs - viena no mūsu filozofijām, kā jau teicu, mēs neuzskatām, ka lietotāji ir ļaunprātīgi. Mēs pieņemam, ka viņi cenšas dot vislabākās zināšanas. Viņi neieradīsies un apzināti maldinās cilvēkus par datiem. Ja tā ir problēma jūsu organizācijā, iespējams, ka Alation nav jums piemērots rīks. Bet, ja jūs pieņemat lietotāju labus nodomus, tad mēs domājam par to kā kaut ko tādu, kur nonāk atjauninājumi, un tad parasti tas, ko mēs darām, ir tas, ka mēs uzliekam stjuarti, kurš ir atbildīgs par katru datu objektu vai katru datu sadaļu. Un mēs varam paziņot šiem pārvaldniekiem, kad tiek veiktas izmaiņas metadatos, un viņi var rīkoties ar to šādā veidā. Viņi redz, ka nāk atjauninājumi, viņi tos validē. Ja viņiem nav taisnības, viņi var atgriezties, mainīt tos un informēt, un, cerams, pat sazināties ar lietotāju, kurš sniedza informāciju, un palīdzēt viņiem mācīties.
Tātad tas ir galvenais veids, kā mēs domājam to darīt. Šādi pūļa ierosinājumi un pārvaldnieku vadība, tāpēc mums ir dažas iespējas.
Rebeka Jozwiak: Labi, labi. Un, ja jūs vienkārši varētu ļaut cilvēkiem uzzināt, kā viņi vislabāk var sākt strādāt ar Alation, un kur viņi var doties, lai iegūtu vairāk informācijas. Es zinu, ka jūs to dalījāties mazliet bitlyly. Vai tā ir labākā vieta?
Deivids Krorfords : Alation.com/learnmore Es domāju, ka tas ir lielisks ceļš. Lai reģistrētos demonstrācijai, vietnē Alation.com ir daudz lielisku resursu, klientu baltās grāmatas un jaunumi par mūsu risinājumu. Tāpēc es domāju, ka tā ir lieliska vieta, kur sākt. Jūs varat arī nosūtīt pa e-pastu.
Rebeka Jozwiak: Labi, lieliski. Un es zinu, apmeklētāji, atvainojos, ja šodien neuzskatīju visus jautājumus, bet, ja nē, tie tiks pārsūtīti Dāvidam vai viņa pārdošanas komandai vai kādam no Alation, tāpēc viņi noteikti var palīdzēt atbildēt uz jūsu jautājumiem un palīdzēt saprast to, ko dara Alation vai ko viņi dara vislabāk.
Un līdz ar to, ļaudis, es iešu uz priekšu un parakstīs mūs. Arhīvus vienmēr varat atrast vietnē InsideAnalysis.com. Jūs to varat atrast arī vietnē Techopedia.com. Viņi mēdz atjaunināt mazliet ātrāk, tāpēc noteikti pārbaudiet to. Un šodien liels paldies Deividam Krorfordam, Dezam Blanšfīldam un Robinam Boram. Tā ir bijusi lieliska tīmekļa pārraide. Un ar to es jūs atvadīšos. Paldies, ļaudis. Labdien!
Deivids Krorfords: Paldies.
