{"id":16935,"date":"2018-01-11T10:23:37","date_gmt":"2018-01-11T09:23:37","guid":{"rendered":"https:\/\/thingsolver.com\/blog\/anomaly-detection\/"},"modified":"2024-11-29T13:15:47","modified_gmt":"2024-11-29T12:15:47","slug":"detekcija-anomalija","status":"publish","type":"post","link":"https:\/\/thingsolver.com\/sr\/blog\/detekcija-anomalija\/","title":{"rendered":"Detekcija anomalija"},"content":{"rendered":"<p>Problem detekcije anomalija je veoma izazovan problem sa kojim se firme \u010desto suo\u010davaju u analizi podataka. Bilo da se radi o grupisanju, klasifikaciji ili nekom drugom problemu ma\u0161inskog u\u010denja, od velike je va\u017enosti identifikovati anomalije i tretirati ih na neki na\u010din kako bi se postigle optimalne performanse modela. Pored toga, anomalije \u010desto mogu uticati na rezultate analize, \u0161to mo\u017ee biti uzrok dono\u0161enja pogre\u0161nih zaklju\u010daka, uti\u010duc\u0301i na dono\u0161enje va\u017enih poslovnih odluka. Dakle, u svakoj analizi podataka potrebno je precizno definisati anomalno pona\u0161anje u odre\u0111enom domenu, primeniti odgovarajuc\u0301i model detekcije anomalija, izdvojiti anomalije iz ostatka podataka i zatim nastaviti sa analizom, primenom modela i izvo\u0111enjem zaklju\u010daka.<\/p>\n<p>Iako se anomalije \u010desto smatraju nekom vrstom nepravilnosti koje unose \u0161um u podatke, one u sebi mogu sadr\u017eati vi\u0161e informacija nego \u0161to se ranije verovalo. Pojam \u201eanomalija\u201c se \u010desto (i rekao bih pogre\u0161no) koristi kao sinonim za pojam \u201eodstupanje\u201c. To nije velika gre\u0161ka, po\u0161to ih ceo svet koristi kao sinonime. Volim da ih razlikujem opisujuc\u0301i njihovu razliku na sledec\u0301i na\u010din:\u00a0 \u201eOdstupanje\u201c je instanca koja se zna\u010dajno razlikuje od ostalih instanci na osnovu svojih vrednosti, ili se de\u0161ava nasumi\u010dno i retko u pore\u0111enju sa ostalim instancama, pa se stoga mo\u017ee smatrati irelevantnom za analizu, dok je \u201e anomalija\u201d pona\u0161anje koje je druga\u010dije od o\u010dekivanog u odnosu na neko prethodno zabele\u017eeno pona\u0161anje i zahteva dublje zaranjanje i analizu uzroka. Na primer, u nekoj telekomunikacionoj mre\u017ei mo\u017eemo da imamo c\u0301eliju koja je preopterec\u0301ena, a u ovom slu\u010daju \u2013 smatra se da je odstupaju\u0107a me\u0111u ostalim c\u0301elijama u mre\u017ei. Ali ako se desi da u istoj mre\u017ei u odre\u0111enom vremenskom periodu nekoliko razli\u010ditih c\u0301elija ima problem preopterec\u0301enja, one kao grupa mogu predstavljati anomaliju do koje je do\u0161lo, na primer, usled kvara nekog linka, ili zagu\u0161enja na linku koji ih povezuje.<\/p>\n<p>Proces detekcije anomalija treba da uklju\u010duje sledec\u0301e korake, kako bi se sproveo na pravi na\u010din:<\/p>\n<ol style=\"text-align: justify;\">\n<li>razumevanje domena istra\u017eivanja\n<ul>\n<li>u\u010denje osnovnih pojmova materije koja se analizira<\/li>\n<li>konsultacije sa stru\u010dnjakom za domen<\/li>\n<li>odre\u0111ivanje i definisanje pojma \u201eanomalija\u201c u datom domenu<\/li>\n<\/ul>\n<\/li>\n<li>Razumevanje podataka\n<ul>\n<li>deskriptivna analiza \u2013 opisivanje podataka i sticanje osnovnih uvida u pona\u0161anje<\/li>\n<li>istra\u017eiva\u010dka analiza \u2013 otkrivanje skrivenih odnosa i zavisnosti izme\u0111u karakteristika i dobijanje detaljnijih uvida u podatke<\/li>\n<\/ul>\n<\/li>\n<li>Odre\u0111ivanje skupa tehnika koje bi se mogle koristiti za proces\n<ul>\n<li>tehnike nadziranog u\u010denja<\/li>\n<li>tehnike nenadziranog u\u010denja<\/li>\n<li>tehnike polunadziranog u\u010denja<\/li>\n<\/ul>\n<\/li>\n<li>Izbor modela<\/li>\n<li>Primena modela<\/li>\n<li>Ocenjivanje modela<\/li>\n<li>Tuma\u010denje otkrivenih anomalija<\/li>\n<li>Izvla\u010denje zaklju\u010daka<\/li>\n<\/ol>\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_72 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Sadr\u017eaj<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Toggle Table of Content\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewBox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewBox=\"0 0 24 24\" version=\"1.2\" baseProfile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1 ' ><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/thingsolver.com\/sr\/blog\/detekcija-anomalija\/#Definisanje_pojma_%E2%80%9Eanomalija%E2%80%9C\" title=\"Definisanje pojma &#8222;anomalija&#8220;\">Definisanje pojma &#8222;anomalija&#8220;<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/thingsolver.com\/sr\/blog\/detekcija-anomalija\/#Tipovi_anomalija\" title=\"Tipovi anomalija\">Tipovi anomalija<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/thingsolver.com\/sr\/blog\/detekcija-anomalija\/#Tehnike_detekcije_anomalija\" title=\"Tehnike detekcije anomalija\">Tehnike detekcije anomalija<\/a><\/li><\/ul><\/nav><\/div>\n<h3><span class=\"ez-toc-section\" id=\"Definisanje_pojma_%E2%80%9Eanomalija%E2%80%9C\"><\/span>Definisanje pojma &#8222;anomalija&#8220;<span class=\"ez-toc-section-end\"><\/span><\/h3>\n<p>Anomalija predstavlja tip pona\u0161anja u podacima koji se razlikuje od nekog o\u010dekivanog pona\u0161anja. Dok se odstupanje mo\u017ee tuma\u010diti kao instanca koja odstupa od ostalih instanci, bez ikakvog zna\u010denja, \u010dije se pona\u0161anje mo\u017ee lako objasniti i na taj na\u010din ignorisati i ukloniti, anomalije predstavljaju grupisane ili korelirane ekstreme, odstupanja koja imaju dublji uzrok razli\u010dit od obi\u010dnih ljudskih gre\u0161aka ili pogre\u0161no \u010ditanje, nepravilnosti koje nije tako lako otkriti i objasniti, jer su obi\u010dno skrivene me\u0111u normalnim slu\u010dajevima.<\/p>\n<h3><span class=\"ez-toc-section\" id=\"Tipovi_anomalija\"><\/span>Tipovi anomalija<span class=\"ez-toc-section-end\"><\/span><\/h3>\n<p>Anomalije se mogu grupisati u tri sledec\u0301e klase:<\/p>\n<ol>\n<li>Anomalije ta\u010daka<\/li>\n<li>Kontekstualne anomalije<\/li>\n<li>Kolektivne anomalije<\/li>\n<\/ol>\n<p>Anomalija ta\u010daka, kao \u0161to pojam ka\u017ee, je instanca koja se mo\u017ee smatrati anomalnom me\u0111u ostalim instancama u skupu podataka. Anomalije ta\u010daka \u010desto predstavljaju neki ekstrem, nepravilnost ili odstupanje koje se de\u0161ava nasumi\u010dno i nemaju posebno zna\u010denje. Volim da to nazivam odstupanjem. Na grafikonu vremenskih serija u nastavku, crvene ta\u010dke predstavljaju izolovane anomalije ta\u010daka.<\/p>\n<p><img decoding=\"async\" class=\"wp-image-11667 aligncenter\" src=\"https:\/\/thingsolver.com\/wp-content\/uploads\/anomaly-detection-v1-1.png\" alt=\"Anomaly detection\" width=\"687\" height=\"359\" title=\"\" srcset=\"https:\/\/thingsolver.com\/wp-content\/uploads\/anomaly-detection-v1-1.png 1446w, https:\/\/thingsolver.com\/wp-content\/uploads\/anomaly-detection-v1-1-768x402.png 768w\" sizes=\"(max-width: 687px) 100vw, 687px\" \/><\/p>\n<p><strong>Kontekstualna anomalija<\/strong> je primer koji bi se mogao smatrati anomalnim u nekom specifi\u010dnom kontekstu. To zna\u010di da nam posmatranje iste ta\u010dke kroz razli\u010dite kontekste nec\u0301e uvek dati indikaciju anomalnog pona\u0161anja.\u00a0 Kontekstualna anomalija je odre\u0111ena kombinovanjem kontekstualnih i bihevioralnih karakteristika. Za kontekstualne karakteristike naj\u010de\u0161c\u0301e se koriste vreme i prostor, dok bihevioralne karakteristike zavise od domena koji se analizira \u2013 utro\u0161enog novca, prose\u010dne temperature ili neke druge kvantitativne mere koja se koristi kao obele\u017eje.<\/p>\n<p>Ako dodamo neku kontekstualnu karakteristiku, kao \u0161to je vremenska dimenzija, ista vremenska serija c\u0301e izgledati kako sledi. Sli\u010dne vrednosti su razli\u010dito ozna\u010dene za razli\u010dite vremenske periode. Ako dolenavedena vremenska serija prikazuje prodaju za svaki mesec, sezonski vrhovi u periodu praznika (decembar) predstavljaju rast prodaje zbog vec\u0301eg broja kupovina, dok vrhunac u julu 2017. predstavlja neo\u010dekivani, anomalan rast, koji zahteva dublju analizu kako bi se objasnio \u2013 uzrok mo\u017ee biti neka prodajna akcija, muzi\u010dki festival ili sportski doga\u0111aj. Postoje baze za otkrivanje anomalija koje imaju moguc\u0301nost da prime vremenske periode za koje se o\u010dekuje da imaju ekstremne vrednosti za neku osobinu koja se analizira.<\/p>\n<p style=\"text-align: justify;\"><img decoding=\"async\" class=\" wp-image-11666 aligncenter\" src=\"https:\/\/thingsolver.com\/wp-content\/uploads\/anomaly-detection-v1-2.png\" alt=\"Anomaly detection\" width=\"714\" height=\"373\" title=\"\" srcset=\"https:\/\/thingsolver.com\/wp-content\/uploads\/anomaly-detection-v1-2.png 1446w, https:\/\/thingsolver.com\/wp-content\/uploads\/anomaly-detection-v1-2-768x402.png 768w\" sizes=\"(max-width: 714px) 100vw, 714px\" \/><\/p>\n<p><strong>Kolektivna anomalija<\/strong> se \u010desto predstavlja kao grupa koreliranih, me\u0111usobno povezanih ili sekvencijalnih instanci. Iako svaka posebna instanca ove grupe ne mora sama po sebi biti anomalna, njihova kolektivna pojava je anomalna.<\/p>\n<p>Vremenska serija u nastavku je prili\u010dno sli\u010dna prethodnoj, osim \u0161to je rast zabele\u017een za ceo jul 2017. Po\u0161to je re\u010d o jednokratnom doga\u0111aju, nema sumnje da je re\u010d o anomalnom pona\u0161anju.<\/p>\n<p style=\"text-align: justify;\"><img decoding=\"async\" class=\" wp-image-11665 aligncenter\" src=\"https:\/\/thingsolver.com\/wp-content\/uploads\/anomaly-detection-v1-3.png\" alt=\"Anomaly detection\" width=\"725\" height=\"379\" title=\"\" srcset=\"https:\/\/thingsolver.com\/wp-content\/uploads\/anomaly-detection-v1-3.png 1446w, https:\/\/thingsolver.com\/wp-content\/uploads\/anomaly-detection-v1-3-768x402.png 768w\" sizes=\"(max-width: 725px) 100vw, 725px\" \/><\/p>\n<p>Veoma je va\u017eno naglasiti da kontekstualne i kolektivne anomalije ne zahtevaju posebno rukovanje, vec\u0301 dublju analizu i identifikaciju uzroka. Ponekad je veoma va\u017eno dati dragoceno obja\u0161njenje osnovnog uzroka kako bi se ove vrste anomalija re\u0161ile i izgladile na odgovarajuc\u0301i na\u010din.<\/p>\n<h3><span class=\"ez-toc-section\" id=\"Tehnike_detekcije_anomalija\"><\/span>Tehnike detekcije anomalija<span class=\"ez-toc-section-end\"><\/span><\/h3>\n<p>Svaka tehnika detekcije anomalija pripada jednom od sledec\u0301ih osnovnih pristupa:<\/p>\n<ol>\n<li><strong>Nadzirana detekcija anomalija<\/strong> \u2013 uklju\u010duje modeliranje normalnog i anomalnog pona\u0161anja. Analogna je nadziranom pristupu za problem klasifikacije i zahteva ozna\u010dene podatke. Model u\u010di na podacima o obuci, poku\u0161avajuc\u0301i da uhvati obrasce za oba tipa pona\u0161anja, na osnovu dostupnih funkcija. Cilj je da se dobije model koji bi mogao da klasifikuje svaku novu instancu kao normalnu ili anomalnu, na osnovu obrazaca koji su prepoznati u fazi obuke i atributa instance koji su dati kao input. Ovaj pristup uklju\u010duje tehnike zasnovane na klasifikaciji.<\/li>\n<li><strong>Detekcija anomalija bez nadzora<\/strong> \u2013 tra\u017eenje anomalija bez prethodnog poznavanja podataka. Analogno je pristupu bez nadzora koji se koristi za grupisanje, gde se sli\u010dne instance grupi\u0161u u klastere, na osnovu neke mere sli\u010dnosti \u2013 bilo da se radi o udaljenosti, gustini ili poziciji dodeljenog \u010dvora u binarnom stablu. Uzimajuc\u0301i u obzir pretpostavku da su anomalije dobro odvojene od ostatka podataka, cilj je da se dobije model koji bi mogao da grupi\u0161e instance koristec\u0301i datu meru sli\u010dnosti u klastere normalnih instanci, kao i anomalije koje bi tako\u0111e mogle da formiraju vi\u0161e od jednog klastera. Ovaj pristup uklju\u010duje tehnike zasnovane na grupisanju i konceptu najbli\u017eeg suseda.<\/li>\n<li><strong>Polunadzirana detekcija anomalija<\/strong> \u2013 me\u0161avina prethodna dva tipa. Ovaj pristup uklju\u010duje modeliranje samo jednog tipa pona\u0161anja, naj\u010de\u0161c\u0301eg \u2013 normalnog. Smatra se da je polunadziran po\u0161to model u\u010di na instancama koje pripadaju samo jednoj klasi. Prednost je u tome \u0161to se model mo\u017ee postepeno obu\u010davati kako se pojavljuju nove instance. Cilj je da se dobije model koji ima pravilno nau\u010dene obrasce normalnog pona\u0161anja i koji je u stanju da defini\u0161e kriterijum ili neku vrstu ograni\u010denja koja c\u0301e se koristiti da bi se utvrdilo da li pona\u0161anje instance odgovara nau\u010denom normalnom pona\u0161anju ili ne. Ovaj pristup uklju\u010duje uglavnom tehnike zasnovane na statisti\u010dkim metodama ili otkrivanju novina.<\/li>\n<\/ol>\n<p>Izbor pravog skupa tehnika zavisi od dostupnih podataka. Sa ozna\u010denim podacima, odluka je prili\u010dno jednostavna. Mo\u017ee se mnogo uraditi kada se daju informacije o normalnom i anomalnom pona\u0161anju. Sa delimi\u010dno ozna\u010denim ili neozna\u010denim podacima, ovaj zadatak je slo\u017eeniji i predstavlja svojevrsnu umetnost. Detaljan opis najpoznatijih tehnika detekcije anomalija se mo\u017ee nac\u0301i <a href=\"http:\/\/cucis.ece.northwestern.edu\/projects\/DMS\/publications\/AnomalyDetection.pdf\" target=\"_blank\" rel=\"noopener\">ovde<\/a>, zajedno sa pretpostavkama koje je potrebno ispuniti za svaku od njih kako bi bile iskori\u0161\u0107ene, kao i prednostima i nedostacima, kao i potrebnom slo\u017eeno\u0161c\u0301u ra\u010dunara.<\/p>\n<p>U svom sledec\u0301em postu, govoric\u0301u o algoritmu Isolation Forest i kako se on mo\u017ee koristiti za detekciju anomalija u podacima.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Problem detekcije anomalija je veoma izazovan problem sa kojim se firme \u010desto suo\u010davaju u analizi podataka. Bilo da se radi o grupisanju, klasifikaciji ili nekom drugom problemu ma\u0161inskog u\u010denja, od velike je va\u017enosti identifikovati anomalije i tretirati ih na neki &#8230; <\/p>\n<p class=\"read-more\"><a class=\"btn small\" href=\"https:\/\/thingsolver.com\/sr\/blog\/detekcija-anomalija\/\">Pro\u010ditaj vi\u0161e<\/a><\/p>\n","protected":false},"author":3,"featured_media":15619,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[189],"tags":[246,247,248,249,250],"acf":[],"_links":{"self":[{"href":"https:\/\/thingsolver.com\/sr\/wp-json\/wp\/v2\/posts\/16935"}],"collection":[{"href":"https:\/\/thingsolver.com\/sr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/thingsolver.com\/sr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/thingsolver.com\/sr\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/thingsolver.com\/sr\/wp-json\/wp\/v2\/comments?post=16935"}],"version-history":[{"count":3,"href":"https:\/\/thingsolver.com\/sr\/wp-json\/wp\/v2\/posts\/16935\/revisions"}],"predecessor-version":[{"id":16939,"href":"https:\/\/thingsolver.com\/sr\/wp-json\/wp\/v2\/posts\/16935\/revisions\/16939"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/thingsolver.com\/sr\/wp-json\/wp\/v2\/media\/15619"}],"wp:attachment":[{"href":"https:\/\/thingsolver.com\/sr\/wp-json\/wp\/v2\/media?parent=16935"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/thingsolver.com\/sr\/wp-json\/wp\/v2\/categories?post=16935"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/thingsolver.com\/sr\/wp-json\/wp\/v2\/tags?post=16935"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}