17.09.2012.

Korelacija i uzročnost

Ovo je treći u seriji članaka o varljivoj statistici.

Pročitajte još:

Kao dijete, proveo sam dosta vremena igrajući "uličnu" košarku. Na ulici nema sudaca niti posebnih autoriteta, pa gruba igra i prekršaji obično postanu fleksibilni pojmovi. Neki od nas su stalno igrali preagresivno i to mi se nije baš sviđalo. No, recimo da jedan dan čujete od starijeg momka kako statistike potvrđuju da agresivni igrači daju više koševa. Čujete za važne pojmove poput "korelacija", ali niste impresionirani. O čemu se tu radi?

Što je korelacija?

Korelaciju ćete najbolje vidjeti na primjeru. Iz sentimentalnih razloga potražio sam NBA statistike iz 90-tih godina prošlog stoljeća. Navedeni podaci su za dva tima, Chicago Bullse i New Jersey Netse, i to u sezonama kad su naši Toni Kukoč i Dražen Petrović bili naročito uspješni.

(graf)

Korelaciju je najlakše uočiti ako podatke prikažete vizualno, kao na grafikonu desno. Svaki igrač predstavlja jednu točku u koordinatnom sustavu, a položaj te točke je određen odabranim varijablama. U prvom grafu, koordinata x je dob igrača te godine, a y koordinata ukupan broj skokova (hvatanja odbijenih lopti) igrača u toj sezoni. Mišem možete doći iznad pojedine točke da bi ste vidjeli o kojem je igraču riječ.

Možemo li iz ovog grafa zaključiti nešto o međuodnosu ova dva svojstva igrača? Ako znamo njegovu dob, da li možemo bolje procijeniti koliko je skokova napravio u sezoni? Pa ne baš. Imamo premalo podataka za ozbiljnije zaključke, ali ovi podaci koje imamo sugeriraju kako stariji igrači skaču jednako dobro kao i mlađi.

(graf)

Drugi graf izgleda drugačije. Na njemu se vidi odnos pokušaja i uspješno izvedenih slobodnih bacanja, i možete primijetiti kako su tu točke grupirane u dijagonalu. Ta dijagonala sugerira linearnu ovisnost dvaju varijabli. Iako daleko od savršene, pokazuje kako uspješnost ovih igrača varira negdje oko 70%.

Kao kvantitativni pokazatelj linearne korelacije obično se koristi Pearsonov koeficijent korelacije r, broj koji varira od +1 (potpuna pozitivna korelacija), preko 0 (nema korelacije), do -1 (potpuna negativna korelacija). Kaže se da je linearna korelacija negativna ako se točke raspoređuju kao opadajuća dijagonala. Vidite kako je kod prvog grafikona r blizu nule, dok je u drugom gotovo 1.

Kako interpretirati korelaciju?

(graf)

OK, sad kad znamo prepoznati korelaciju u podacima, upotrijebimo to znanje da saznamo odgovor na pitanje s početka: da li su agresivniji igrači korisniji timu u smislu postignutih pogodaka. Uzmimo broj osobnih grešaka kao mjerilo agresivnosti igrača. Na grafu desno vidimo u kakvom su odnosu postignuti poeni i broj osobnih grešaka. Što vam se čini?

Pa, ove točke definitivno ne padaju na crtu. Za visok broj osobnih postoji velika varijacija u broju postignutih koševa — na primjer, i Jordan i Rodman su u toj sezoni imali oko 200 osobnih grešaka, a Jordan je postigao sedam puta više poena od Rodmana. Pa ipak, čini se da neke korelacije tu ima. Igrači s malo osobnih grešaka postižu manje poena od ostalih, a i koeficijent r izračunat iz ovih podataka je oko dvije trećine. Da li ovaj graf govori u prilog tvrdnji da agresivnija igra vodi do većeg broja poena za tim?

(graf)

Ne. Naime, broj poena u sezoni nije dobro mjerilo efikasnosti u poentiranju, niti je broj osobnih grešaka znak agresivnosti. Postoje ogromne razlike između igrača koje proističu iz toga koliko je koji stvarno igrao u sezoni. A više vremena na terenu dovodi i do više postignutih poena i do više osobnih grešaka. Ta treća varijabla—broj minuta provedenih na terenu—je faktor koji im je zajednički; kad podijelimo oba broja s brojem minuta koji su igrači proveli na terenu, korelacija nestaje.

Što uzrokuje korelaciju?

Kako bi se moglo reći da jedan događaj uzrokuje drugi, nije dovoljno primijetiti kako se pojavljuju skupa, odnosno kako su u nekoj mjeri povezani (korelirani). Naime, korelacija između A i B može biti rezultat tri različite konfiguracije uzročnosti:

  1. A uzrokuje B (A => B)
  2. B uzrokuje A (B => A)
  3. treći faktor X uzrokuje i A i B (X => A, X => B)

Ako uzročnost A => B stvarno postoji, onda bi slobodno i nasumično mijenjanje varijable A (i samo nje!) imalo zamjetan efekt na varijablu B. Na primjer, osvjetljenje u mojoj sobi je korelirano s položajem prekidača kod vrata. Nasumičnim prebacivanjem prekidača u različitim vremenima u sobi zaključujem da tako stvarno utječem na osvijetljenost sobe. S druge strane, ako sobu osvijetlim tako što otvorim zavjese, to neće utjecati na položaj prekidača. To nam govori kako prebacivanja prekidača na zidu uzrokuje bolje osvjetljenje sobe.

Drugi slučaj možemo ilustrirati ovako: recimo da ste primijetili kako skupe aute (A) vozi natprosječno puno bogataša (B). To ne znači da ćete se obogatiti tako što potrošite svu ušteđevinu na skupi auto! Strelica je obrnuta: ako se obogatite, bit ćete skloniji kupovanju takvih automobila (B => A). Skupoća auta i osobno bogatstvo jesu povezane varijable, ali uzročnost ide od bogatstva prema skupim autima.

Treći slučaj je najčešći, ali i najteži za primijetiti. U primjeru s košarkašima X je bio broj minuta provedenih na terenu: on je utjecao i na broj poena A i na broj osobnih B. A i B su time bile povezane varijable, ali niti jedna nije uzrokovala onu drugu.

Za razliku od korelacije, pravu uzročnost je teško prepoznati. Metode koje u stvarnom svijetu koristimo da bi se uvjerili kako je veza između dva događaja stvarno uzročno-posljedična su komplicirane i nesavršene pa nećemo sad ulaziti u to. Ono što je važno zapamtiti je da korelacija nije isto što i uzročnost. Istina je kako mora postojati nekakva korelacija da bi se mogla primijetiti uzročno-posljedična veza, ali to nikako nije dovoljno.

A sad vi!

Evo nekoliko primjera kod kojih nas korelacija može zavarati. Razmislite malo o alternativnim objašnjenjima prije nego što kliknete na link.

1. Količina prodanog sladoleda u nekom mjesecu je korelirana s brojem utapanja. Zaključak: previše sladoleda vas dovodi u opasnost od utapanja. (vidi objašnjenje)

2. Djeca koja spavaju s upaljenim svjetlom u sobi češće postaju kratkovidni. Zaključak: spavanje u osvijetljenoj sobi dovodi do kratkovidnosti. (vidi objašnjenje)

3. Djeca koja slabije čitaju imaju nepravilnije pokrete očiju (pogled im se vraća na već pročitan tekst, zastajkuju i slično) od djece koja dobro čitaju. Zaključak: vježbe pokreta očiju će pomoći kod problema s čitanjem. (vidi objašnjenje)

4. Povijesni podaci pokazuju kako globalna temperatura raste s opadanjem broja gusara na svijetu. Zaključak: globalno zatopljenje je uzrokovano nedostatkom gusara. (vidi objašnjenje)

Sljedeći članak: Tužni slučaj Sally Clark

blog comments powered by Disqus