Korrelaatiomatriisi LibreOfficella YTL:n datasta

[edit 20.1.20 Lisäsin yo-koematriisikuvan oheen taulukon aineiden lyhennyksistä luettavuuden parantamiseksi.]

GeoGebran Kahden muuttujan analyysi -työkalulla on helppoa tuottaa kahden muuttujan tilastosta korrelaatiokaavio, samalla saa useiden tilastollisten tunnuslukujen arvot, kuten esimerkiksi korrelaatiokertoimen. Valitettavasti GeoGebrassa ei ole mahdollisuutta tuottaa korrelaatiomatriisia. Se kannattaakin tuottaa Abittijärjestelmässä LibreOfficen Calcilla. Tietysti saman voi tehdä myös Excelillä.

pieni esimerkki

Kuvan LibreOffice Calcin taulukossa on pienen opetusryhmän oppilaiden pituus senttimetreinä, kengännumero ja syntymäkuukausi. Tiedosto löytyi koneeni uumenista, joten se voi olla myös jonkin oppikirjan dataa tai sitten ihan oikea kysely omilta oppilailtani. 

Valitaan alue A1:C12, toki otsikot voi jättää poiskin valinnasta. Valitaan Data-valikosta Tilastotiedot -> Korrelaatio… Avautuvaan ikkunaan laitetaan tulosmatriisin vasen ylänurkan paikka ja valitaan OK.

Alkuperäisen taulukon sarakkeet eivät tulostu korrelaatiomatriisiin.

Valitaan alkuperäiset otsikot alueelta A1:C1, kopioidaan ja sijoitetaan ne soluun F1. LibreOffice varoittaa sijoituksesta, ei välitetä siitä. Pystyotsikot saadaan paikoilleen klikkaamalla soluun E2 hiiren oikealla painikkeella. Avautuvassa valikossa valitaan Liitä määräten -> Liitä Määräten. Avautuvassa ikkunassa laitetaan ruksi kohtaan Transponoi.

iso esimerkki ytl:n datasta

Kirjoitin jokin aika sitten Pivot taulukko-komennosta ”Ylioppilasdatan louhimista Pivot-taulukoilla” ja ”Pivot ja Excel YTL:n datasta”. Näissä käytin csv-tiedostoa, jossa on jokaisen keväällä 19 kirjoittaneiden opiskelijoiden ylioppilaskoetulokset. Käytän tässä tässä samaa tiedostoa https://www.ylioppilastutkinto.fi/ext/data/FT2019KD3001.csv

Oheinen linkki lataa tiedoston tietokoneen Lataukset-kansioon. Kun tiedosto avataan LibreOfficella, niin isohkon tietomäärän saa näkyville. Tiedostossa on noin 26000 riviä ja sarakkeita on 51 kappaletta. Tiedoston otsakerivin koodit selkokielisenä löytyvät sivulta https://www.ylioppilastutkinto.fi/ext/data/FT2016KD0010.csv.

Poistin kirjoitetuista aineista sellaiset, joissa oli vähän kirjoittajia < 100, näin sain korrelaatiomatriisin hieman pienemmäksi. Edellä esitetyllä tavalla loin korrelaatiomatriisin eri kirjoitettujen aineiden välille. Väritin ne solut, joissa korrelaatiokerroin r > 0,8 (voimakas) punaiseksi, 0,6 < r ≤ 0,8 (huomattava) keltaiseksi ja r < -0,6 vihreäksi. 

Minua itseäni ihmetyttää eniten se, että äidinkielellä ei ole tuon suurempia korrelaatiokertoimia muiden aineiden kanssa. Sitä vastoin biologialla ja maantieteellä on huomattava tai kohtalainen korrelaatio yhdeksän kirjoitettavan aineen kanssa. Toisaalta pitkällä matematiikalla kohtalainen korrelaatio on vain fysiikan ja kemian kanssa.

Alla kirjoitettavien aineiden tulkinta.

Jätän lukijan ihmettelemään yo-korrelaatiomatriisia ja tekemään syistä ja seurauksista omia tulkintojaan.

Keskiarvo ja keskihajonta-komennot GeoGebrassa

Edellistä tarinaa kirjoittaessani huomasin/muistin, että keskiarvo- ja keskihajontakomentoja on useampia. Osa uusista komennoista liittyy siihen, että mobiililaitteita varten tarvittiin lyhyempiä komentoja. Käytän tässä suomenkielistä käyttöliittymää ja kirjoitan komennot CAS:iin.

[17.1.20. Lisäsin keskihajonnan.]

keskiarvo

Tutkitaan eri komentoja luvut listan avulla.

luvut:= {1,2,3,4,5}
->luvut:={1, 2, 3, 4, 5}

Alkuperäinen englanninkielinen keskiarvo-komento on Mean. Niinpä CAS:iin kirjoitettuna

Mean(luvut) 

tuottaa

Keskiarvo(luvut)
-> 3

Joskus noin vuosi sitten mukaan tuli mobiililaskin Scientific Calculator. Sitä varten tarvittiin lyhyempiä nimiä komennoille. Niinpä mean kääntyi keskar-komennoksi. Tuo keskar ei välttämättä ole kaikkein kaunein vaihtoehto, mutta ainakin tällä hetkellä se on keskiarvon lyhenne GeoGebrassa. Toki myös Keskiarvo-komento toimii.

keskar(luvut)
-> 3

muita keskiarvoja

GeometrinenKeskiarvo(GeometricMean)-komento laskee syötelistan tulon n:nen juuren, missä n on lukujen lukumäärä. Katso Wikipedia. Kaikki lukijat varmaan muistavatkin, että kahden luvun geometrinen keskiarvo eli keskiverto on se luku, joka on vastaa sitä neliön sivun pituutta, joka tuottaa alkuperäisten lukujen tuottaman suorakaiteen pinta-alaa vastaavan neliön alan (meniköhäntuoihanoiken?

NeliöllinenKeskiarvo(RootMeanSquare)-komento laskee syötelistan lukujen neliöiden keskiarvon neliöjuuren. Katso Wikipedia.

HarmoninenKeskiarvo(HarmonicMean)-komento laskee lukujen käänteislukujen keskiarvon käänteisluvun. Katso Wikipedia.

Muita keskiarvomentoja varten luodaan pistelista:

pisteet:=({(1,-1), (2,-2), (3,-3)})
-> pisteet:=({(1,-1), (2,-2), (3,-3)})

KeskiarvoX ja KeskiarvoY laskevat pistelistan x-koordinaattien ja y-koordinaattien keskiarvot.

keskihajonta

Käytän tässä seuraavia määritelmiä keskihajonnalle ja otoskeskihajonnalle.

Kuvankaappaus MAOL/Otavan taulukkokirjasta, tällainen näkyy yo-kokeessa.

Alkuperäinen keskihajonta-komento oli SD. Niinpä jos kirjoittaa CAS:iin
SD(luvut) tai SampleSD(luvut)

GeoGebra tuottaa

Mobiili Scientific calculatorin takia olisi pitänyt keksiä lyhyt käännös sdevp ja sdev -komennoille. Päätin, että noita ei kannata kääntää. Niinpä keskihajonta on myös suomenkielellä

stdevp(luvut)
-> 1.41

ja otoskeskihajonta

stdev( luvut )
-> 1.58

Minä yritän muistaa omissa laskuissani, että keskihajonta (jakoviivan alla on n) sisältää kirjaimen p(opulation) ja otoskeskihajonnassa sitä p:tä ei ole.

luokiteltu aineisto

Kesiarvo- ja keskihajonta komentoihin liittyy myös mahdollisuus käyttää syötteenä luokiteltua aineistoa. Kuvitellaan, että ykkösten lukumäärä on 1, kakkosten 2, kolmosten 3, nelosten 3 ja vitosten 1. Luodaan lista f kuvaamaan frekvenssejä.

f:={1,2,3,2,1}
-> {1, 2, 3, 2, 1}

Luokitellun aineiston keskiarvon, keskihajonnan ja otoskeskihajonnan saa laskettua:

yhden muuttujan analyysi -työkalu

Tässä vaiheessa tietysti pitää muistuttaa arvoisaa lukijaa, että normaalitilanteessa ei kannata käyttää näitä komentoja vaan taulukkolaskentaa ja Yhden muuttujan analyysi -työkalua.

Näihin tilastotieteen funktioihin pitää perehtyä tarkemmin. Palaan aiheeseen joskus. Tai ainakin siinä vaiheessa kun optan aiheeseen liittyviä kursseja.

Ympyrädiagrammi LibreOfficella

Ohessa on LibreOffice taulukko. Siinä on GoogleFormsilla kerätystä datasta kopioitu erään oppilasryhmän oppilaiden silmien väri ja sukupuoli. GeoGebralla on hankala tuottaa ympyrädiagrammeja, niinpä tuotan sen LibreOfficella.

Lataa tiedosto https://drive.google.com/file/d/1-0Q7uiqu98JPCJ_jqJFK8tJ9Y6wyCIOQ/view?usp=sharing omalle koneellesi ja avaa se LibreOfficella.

Simppeli tapa

Tehdään diagrammi ensin mahdollisimman yksinkertaisesti, ilman kummempaa koodaamista.

Ensin pitää päätellä mitä luokkia silmien väri -muuttujassa on. Helpointa on vain katsoa taulukosta, että eri luokat ovat: sininen, ruskea, sinivihreä, vihreä sekä vihreä ja ruskea.

Kirjoitetaan luokat C-sarakkeen soluihin.

Toki nuo silmien värejä vastaavat lukumäärätkin saisi laskettua ihan käsinkin, mutta käytetään tässä LASKE.JOS-funktiota apuna.

Kirjoitetaan soluihin D2, …, D6 kaavat
=LASKE.JOS(A2:A28;”sininen”)

=LASKE.JOS(A2:A28;”vihreä ja ruskea”)

Diagrammi saadaan aikaiseksi valitsemalla alue C1:D6 ja tämän jälkeen Työkalupalkin Lisää kaavio tai Lisää-valikosta Kaavio.

Ohjattu kaavion luonti -ikkunassa valitaan Ympyrä ja sen jälkeen Seuraava.

Toisessa ja kolmannessa ikkunassa Seuraava.

Viimeisessä ikkunassa kirjoitetaan tarvittava tieto otsikoihin ja lopuksi Valmis.

Näin piirakka on valmis.

Monimutkaisempi menetelmä

Jos A-sarakkeen silmien värejä olisi ollut paljon, olisi luokkien päättely voinut olla hankalaa. Tehdään luokkien etsiminen ja frekvenssien laskeminen hieman monimutkaisemmin. Tällainen automatisointi toimii isommissakin taulukoissa.

Tuotetaan ensin silmien värit käyttämällä suodatusta eli filtteröintiä. Avaa alkuperäinen tiedosto silmä.ods. Valitse sarake A klikkaamalla sarakkeen tunnukseen ja Data-valikosta Oletussuodatin…

Oletussuodatin-ikkunassa valitse Arvo kohdassa Ei tyhjä ja klikkaa Asetukset-kolmioon. Klikkaa Alue sisältää sarakeotsikot, Karsi identtiset ja Kopioi tulokset kohteeseen: -ruutuihin ja valitse kohteeksi $Taulukko1.$C$1 (klikkaamalla taulukossa soluun C1).

Näin silmien värit suodattuvat C-sarakkeelle.

Frekvenssien laskemiseksi käytetään edellä esitettyä LASKE.JOS-funktiota, mutta käytetään apuna dollarimerkkiä kiinnittämään viittaukset soluihin siten, että voidaan käyttää apuna kahvaa kaavan monistamiseen. Tätä menetelmää kutsutaan yleensä soluviitteen lukitukseksi tai suoraksi eli absoluuttiseksi soluviittaukseksi.

Kirjoita soluun D2 kaava
=LASKE.JOS(A$2:A$28;C2)

Valitse solu D2 ja vedä kahvasta soluun D6 saakka. Näin dollarimerkki kiinnittää viittauksen riveille 2…28, samalla viittaus silmän väriin sarakkeella C muuttuu suhteellisesti, kun kaavaa kopioidaan kahvasta vetämällä.

Diagrammi syntyy samalla tavalla kuin edellä on esitetty.

Lisätään piirakkaan vielä prosenttiosuudet. Klikkaa ympyrädiagrammiin siten, että saat hiiren oikean painikkeen avulla valittua Lisää arvopisteiden otsikot.

Valitse samalla tavalla piirakka hiiren oikealla painikkeella ja Muotoile arvopisteiden otsikot…

Poista ruksi Näytä arvo lukuina -kohdassa ja lisää ruksi Näytä arvo prosenttiosuutena -ruutuun.

Nyt ympyrädiagrammi on valmis. Toki voit opiskella lisää miten muokata värejä tms.

Tee harjoituksen vuoksi ympyrädiagrammi sukupuolesta.