Hiper-personalizacija: Od podataka do izuzetnog korisničkog iskustva
Kako se očekivanja potrošača stalno razvijaju, vaši napori za personalizaciju takođe moraju da evoluiraju. Hiperpersonalizacija stupa na scenu — trend…
Read more28. 08. 2020.
Iako se istraživačka analiza podataka (EDA) često posmatra kao početni korak koji bi trebao biti jednostavan, postoje neki izazovi koji ovaj proces mogu usporiti i učiniti lošim i bolnim. Neki od izazova sa kojima sam se do sada susreo su navedeni u nastavku.
Loše definisan poslovni problem (i nedostatak razumevanja istog). Nepostojanje jasnog problema koji bi trebalo da se reši može da vas natera da lutate okolo bez nekog određenog cilja, što može biti pozitivno i produktivno, ali u većini slučajeva – osećaćete se izgubljeno i nećete znati šta da radite sa svim podacima koje imate u rukama. S druge strane, ako ne razumete koji su glavni problemi sa kojima se preduzeće suočava – imaćete problema da izvučete uvide koji su korisni, jer ćete se fokusirati u pogrešnom pravcu.
Nemate prave podatke (niti razgovarate sa pravom osobom). Iako je problem definisan i dobro shvaćen, neidentifikovanje pravih skupova podataka koji bi trebalo da se koriste ili nemogućnost razgovora sa osobom koja detaljno poznaje podatke bi od istraživačke analize podataka mogli da napravi paklenu vožnju. Ni vi, ni klijent nećete imati koristi i nećete biti zadovoljni rezultatima istzraživačke analize podataka – a to nije ono što želite da dobijete sa ovim procesom. Uverite se da imate prave podatke i da imate pravu osobu za svako pitanje u vezi sa pojašnjenjem domena, prikupljanjem i spajanjem podataka itd.
Neuređeni podaci i (nepostojanje) skladišta (što dovodi do odbrambenog stava osobe koja „zna znanje“). U većini slučajeva podaci će biti neuredni. Nepodudaranja stranih ključeva, nepostojanje ID-ova za spajanje informacija iz više izvora, pogrešne kalkulacije itd, itd. Ponekad kada pokušate da spojite neke skupove podataka i otkrijete da postoje razlike u ID-ovima, ili duplikatima, ili nečemu drugom, i odete kod osobe koja je zadužena za održavanje podataka – ta osoba može postati neprijatna. Oni su fokusirani na objašnjavanje razloga neusklađenosti i nereda, a ne na davanje uputstava kako da se stvari isprave – ili čak da to urade. Budite jasni sa onim što želite da uradite – želite da očistite svoje podatke (i da dobijete pomoć da to uradite, ako je potrebno) kako biste prezentovali kako nauka o podacima može da pomogne u korišćenju nekog procesa, a ne da ukazujete na neurednost i zanemarivanje ljudi zaduženih za održavanje podataka.
Istraživačka analiza podataka se radi na auto-pilotu (izveštaji su kontejneri, a ne riznica uvida). Ponekad je problem što se istraživačka analiza podataka smatra dosadnom i previše pojednostavljenom. Sprovodi se samo da bi se pratio neki definisani tok, kako biste mogli da kažete da ste to uradili, a zatim da se uskoči pravo u sofisticirane i složene algoritme ML-a. Većina problema se može rešiti u ranim fazama EDA – međutim, to nije lako, ali ako se uradi kako treba – na pola ste puta. Sledeći put kada budete radili na EDA – ponovo razmislite o svom pristupu, kako biste utvrdili da li preskačete korake i radite to sa pola mozga, samo zato što vam je ML zanimljiviji (IMO je neprihvatljiv, temeljna EDA i razumevanje podataka su preduslovi za primenu ML).
Nemanje široke slike. Zapamtite šta je glavna svrha EDA i ciljeve koje želite da ostvarite njome. Neznanje zašto nešto radite će potisnuti vašu kreativnost, inovativnost i kritičko razmišljanje. To dovodi do jednokratnih uvida. EDA je sama po sebi dozvoljena, ali je primenljivija i korisnija ako to uradite kako biste olakšali buduću analizu i korake koji će biti preduzeti.
Kako bih ovaj proces učinio razumljivijim, pokušao sam da predstavim neke glavne korake i smernice koje se nalaze na slici koja sledi (iz perspektive klijenta i dobavljača, ali u suprotnom bi se mogao primeniti analogni pristup).
Ako želite da vaš EDA ima smisla i svrhu, počnite sa problemom. U ovom koraku najvažnije je slušati šta klijent govori. Često se dešava da zna koji su podaci korisni, ali nema stručnost da ih iskoristi. S druge strane, možda je pokušao da izvrši analizu i reši problem koristeći podatke – ručno, a vaš posao je da mu pomognete da ubrza proces. U nekim slučajevima može se čak desiti da nikada nije spojio informacije iz različitih odeljenja, i da nema pregled. Može se desiti mnogo različitih scenarija, i zato je važno da slušate i ne pravite nikakve pretpostavke. Prevođenje u problem analitike znači razumevanje da li i kako analiza podataka može pomoći u rešavanju problema. Definisanje glavnih stubova analize predstavlja identifikaciju perspektiva analize koje bi se mogle primeniti – koji su glavni subjekti/poslovna područja koja bi se mogla analizirati i kako su povezani. Glavni rezultat ovog koraka je da se dođe do problema koji treba bolje razumeti i konačno – rešiti.
Naučene lekcije: nemojte vršiti pretpostavke i pustite klijenta da saopšti najveće probleme.
Ponekad može postojati stotine izvora ulaznih podataka koji dolaze iz različitih sistema i nalaze se na različitim lokacijama – cilj ovog koraka je da se identifikuje koji izvori sadrže podatke koji najbolje opisuju problem koji želite da modelirate i rešite. Nisu svi izvori (jednako) važni. IMO, bolje je početi sa malim – filtrirati neki reprezentativni skup ulaznih podataka koji se nalazi iz nekoliko različitih izvora da biste izvršili prilagođenu analizu, nego da imate ogromnu količinu (neistraženih) podataka, ne znajući odakle tačno da počnete. Posedovanje velikih podataka može biti dobro, moglo bi pomoći u posedovanju podataka koji opisuju različite oblasti poslovanja, ali u isto vreme – može biti vaš najveći neprijatelj ako nemate fokus niti znate kako da filtrirate informacije koje su povremeno potrebne.
Naučene lekcije: nemojte počinjati sa desetinama ili stotinama tabela ne znajući kako da ih objedinite, niti filtrirajte relevantne informacije.
U redu, da razjasnimo jednu stvar – raditi EDA samo radi usklađivanja sa nekom metodologijom je bez veze. EDA je glavni preduslov za plodnu i uspešnu analizu, zasnovanu na podacima, statistici i mašinskom učenju. Sprovesti EDA bez svrhe ili jasno definisanih ciljeva učiniće to bolnim, beskorisnim i prezahtevnim. Postoje ključne tačke koje treba definisati kao osnovu za obavljanje EDA:
Naučene lekcije: uverite se da su svi preduslovi ispunjeni – poslovni problem, svrha i ciljevi, radna infrastruktura i zainteresovane strane.
Budite kreativni i iskoristite sve što ste pokupili od prvog koraka – definisanja poslovnog problema. Razmislite o svemu što ste do sada naučili, iz sopstvenog iskustva. Koristite analogiju – iako postoje različiti poslovi sa sopstvenim mehanizmima funkcionisanja, često se dešava da se neke analize koje ste izvršili u jednom slučaju upotrebe mogu primeniti na drugi.
Postoje dve glavne svrhe istraživačke analize podataka:
Da bi se to postiglo, mora se razumeti da iako su, na primer, izdvajanje korelacija i vizuelizacija obavezna i korisna alatka – klijenti ne smeju da ih analiziraju. Vi kreirate analizu za sebe, ali da biste na osnovu te analize ispričali priču (klijentu). Izveštaj nije samo kontejner sa tabelama i grafikonima, već uslužni program koji vodi čitaoca i priča priču koja otkriva uvide, nepravilnosti i pravce za poboljšanja, karakterišući slučaj upotrebe (poslovni problem) koji se definiše. Dakle – sledeći put kada kreirate EDA izveštaj, zapitajte se – koja je vrednost ovog izveštaja? Beskoristan je ako nemate osnovno razumevanje o tome kako i zašto ste to uradili.
Naučene lekcije: kreirajte priču koja će voditi čitaoca/slušaoca kroz analizu, od postavljanja problema, do metodologije i konačno – uvida.
Ovo je trenutak za vas da zablistate. Kada iznosite uvide EDA – morate da istaknete poentu. Zašto je to korisno, koja su nova saznanja – kako se to može koristiti za buduću analizu i modeliranje. U većini slučajeva, neke stvari koje su vam čudne ili neočekivane – za klijente su sasvim redovna stvar, jer znaju mnogo više o svom poslu. A ponekad se dešava suprotno. Ideja je da se EDA koristi kao smernica za definisanje sledećih aktivnosti i realizaciju slučaja upotrebe. Prikupite povratne informacije o analizi i predstavljenim uvidima – ponekad treba uvesti neka obogaćivanja, dalje čišćenje podataka i modifikacije.
Naučene lekcije: istaknite poentu (ili više njih) svojom analizom i prikupite povratne informacije o analizi koju ste izvršili.
Prava stvar – upućivanje materijala
Ustanovio sam ovu sveobuhvatnu listu automatizovanih EDA biblioteka, i neke od njih sam lično koristio (stalni favoriti: Pandas-profilisanje, Sweetviz i Yellowbrick). Dodatni linkovi se mogu naći na sledećoj listi:
Recite mi nešto o svom iskustvu, voleo bih da čujem koje su vaše najbolje prakse i prevazilaženje izazova sa kojima se često suočavate.
Hvala vam! 🙂
Cover photo taken from: https://unsplash.com/@clarktibbs
Kako se očekivanja potrošača stalno razvijaju, vaši napori za personalizaciju takođe moraju da evoluiraju. Hiperpersonalizacija stupa na scenu — trend…
Read moreKao što verovatno već znate, prodajni levak igra ključnu ulogu u vođenju potencijalnih kupaca od početne svesti do konačne konverzije.…
Read moreU prošlosti smo dobijali preporuke od ljudi koje poznajemo, poput naših prijatelja ili članova porodice. Ponekad čak i od prodavaca.…
Read more