Tiedonlouhinta (4-5 op)

Ajankohtaista

Aika ja paikka

Luennot: 8.4.-7.5. ma ja ti klo 16-18, paitsi vappuaaton luento, joka pidetään to 2.5. klo 16-18.

Luennot pidetään Kuopiossa (Technopolis F213) ja videoidaan Joensuuhun (Tiedepuisto TB178). Kummallakin kampuksella on oma harjoitusryhmä.
Luennoija ja Kuopion harjoitusten pitäjä Wilhelmiina Hämäläinen. Joensuun harjoitusten pitäjä on Mikko Malinen. Huom! Kaikkien tulee olla läsnä ensimmäisen viikon luennolla ti 8.4. (harjoitustyöryhmien ja aiheiden jako sekä töiden aloitus) sekä viimeisillä kerroilla 20.5. ja 21.5. (loppuesitykset)! Muut luennot vapaaehtoisia.

Harjoitukset viikoilla 15-18 (4 kertaa) to klo 12-14, Kuopiossa sali E26+27 ja Joensuussa TB179, paitsi ensimmäinen kerta, joka pidetään mikroluokassa (Kuopiossa F211, Joensuussa TB247).

Viikoilla 15 tai 16 ja 19 harjoitustöiden ohjauspalaverit (n. 20min) jokaisen ryhmän kanssa (ajat sovitaan erikseen). Huom! Harjoituksissa ja ohjauspalavereissa läsnäolovelvollisuus!

Kuvaus

Tiedonlouhinnan (data mining) tavoitteena on etsiä uutta tietoa suurista datajoukoista. Tyypillisesti tiedonlouhintamenetelmät pyrkivät kuvaamaan datan mahdollisimman läpikotaisin (deskriptiivinen mallinnus). Kuvaavien mallien pohjalta voidaan kuitenkin laatia myös ennustavia malleja (prediktiivinen mallinnus), eikä tiedonlouhinnan ja koneoppimisen (machine learning) raja ole aina selvä.

Kurssin tavoitteena on antaa yleiskuva tiedonlouhinnasta sekä valmiudet omatoimiseen tiedon louhintaan valmiilla työkaluilla. Kurssi toteutetaan osittain ongelmalähtöisesti ja keskeisessä roolissa on 3-4 hengen ryhmissä tehtävä harjoitustyö. Harjoitustyössä analysoidaan mahdollisimman perusteellisesti jokin datajoukko erilaisia tiedonlouhintamenetelmiä käyttäen. Tavoitteena on löytää jokaiselle harjoitustyölle kyseisen datan/ongelma-alueen asiantuntija, joka opastaa louhintaprosessissa ja auttaa tulosten tulkinnassa. Harjoitustyöstä kirjoitetaan raportti, minkä lisäksi tuloksia esitellään toisille viimeisen viikon sessioissa.

Suoritus

Kurssilla ei ole koetta, vaan arvosana määräytyy harjoituspisteiden sekä harjoitustyön arvosanan perusteella. Huomaa, että kurssin suoritus edellyttää aktiivista työskentelyä kurssin aikana. Kaikissa harjoituksissa ja harjoitustöiden ohjauspalavereissa sekä muutamalla (harjoitustöihin liittyvällä) luentokerralla on läsnäolovelvollisuus.

Kurssin työmäärä (4 op = 108 h) jakautuu suurinpiirtein seuraavasti:

Pääsyvaatimukset

Kurssille otetaan korkeintaan 30 Tietojenkäsittelytieteen opiskelijaa. Esitietoina edellytetään kursseja Ohjelmointi I ja II, Tietorakenteet ja algoritmit I sekä ainakin välttävät perustaidot Linuxin käytöstä.

Lisäksi kurssille voidaan ottaa muiden alojen opiskelijoita, mikäli näillä on harjoitustyöhön sopiva datajoukko ja asiantuntemusta sen analysointiin. Muiden alojen opiskelijoilta ei edellytetä ohjelmointitaitoja, mutta sen sijaan heidän tulisi hallita tietokoneen käytön perustaidot ja oppia käyttämään uusia työkaluja. Tilastollisten työkalujen hallinta on kaikille suotavaa.

Kurssille ilmoittaudutaan weboodissa sekä täyttämällä oheinen esitetokysely/ilmoittautumislomake. Huom! Ilmoitathan mikäli olet jo täyttänyt lomakkeen mutta päätätkin perua ilmoittautumisesi? Ryhmäjako tehdään nimittäin lomakkeiden perusteella.

Alustava ohjelma

Ajankohta Aihe
Viikko 15
Luento ma 8.4. Kurssin esittely, johdatus tiedonlouhintaan luentokalvot
Luento ti 9.4. Datan tyypit ja esiprosessointi. luentokalvot Harjoitustöiden jako ja ohjeistus.
MuuMikroharjoitukset. Tapaamiset ohjaajan kanssa
Viikko 16
Luento ma 15.4. Mallinnuksen yleiset periaatteet. Tilastollisten riippuvuuksien haku - Osa 1. luentokalvot
Luento ti 16.4. Riippuvuuksien haku - Osa 2. Ekskursio: Bayes-verkot luentokalvot
MuuHarjoitukset. Loput tapaamiset ohjaajan kanssa
Viikko 17
Luento ma 22.4. Luokittelusäännöistä ja luokittelijoista luentokalvot
Luento ti 23.4. Klusteroinnista. Luentokalvot
MuuHarjoitukset
Viikko 18
Luento ma 29.4. Teksti- ja aikasarjadatan mallinnuksesta eli harjoitustöissä hyödyllisiä tekniikoita. Luentokalvot
Luento to 2.5. Oikean menetelmän valinta. Tulosten järkevyyden ja merkitsevyyden arviointi. Luentokalvot korjattu versio 3.5. klo 14:12
MuuHarjoitukset
Viikko 19
Luento ma 6.5. "Nyyttikestit" eli hyödyllisten työkalujen demoamista. Ohjelmassa ainakin SPSS, R, verkkojen visualisointi Cytospacella,
SOM:it (VisualDatalla), Fourier-analyysi matlabilla, uusia klusterointityökaluja.
Muu Omatoimista työskentelyä. Tapaamisia ohjaajan kanssa
Viikko 20 Omatoimista työskentelyä. Loput tapaamiset ohjaajan kanssa.
Viikko 21
Luento ma 20.5. Loppuesitykset: 1) Rottien hyvinvointiin ja stressiin vaikuttavat tekijät 2) Hiirten ja rottien geenien aktiivisuuden mallinnusta
3) Kyselydatan automaattinen analyysi 4) Lehmien ruokinta-automaattidatasta löytyviä hahmoja
Luento ti 21.5. Loppuesitykset: 1) Lehmien lämpötilan analysointi 2) Piirteitä lehmien kiihtyvyysdatasta
3)Sisäilmamittausten analysointi ja Kurssin tärkein oppimistavoite
MuuLoppuraporttien palautus ke 29.5.

Harjoitukset

Mallivastauksia ja kommentteja Kannattaa katsoa! Vinkkejä harjoitustöihin.

Oppimateriaalia

Kurssilla ei ole mitään tiettyä kurssikirjaa, vaan opiskelijoita rohkaistaan etsimään itse lisätietoja. Suositeltua oppimateriaalia listataan kurssin kuluessa. Esim. seuraavat kirjat sopivat pohjaksi:

Lisätietoa verkossa (listaa täydennetään):

Muuta materiaalia