Anvendt data-mining: Klassifikation af variabler og individer (SOMMER 2018)

Kursusindhold

OBS
Vi forventer, at deltagerne på kurset inden kursusstart har læst pensum og dermed forberedt sig til kurset i omfanget af ca 100 timer.


Deskriptive metoder vinder større og større udbredelse i sociologien. Nogle snakker endda om en ”deskriptiv vending”. I den kvantitative sociologi findes der et hav af deskriptive værktøjer, som giver forskeren mulighed for at overskue relativt komplekse data. Populært taler man om ”data mining”, hvilket kan oversættes til en eksplorativ kortlægning (”mining”) af sine data med henblik på at identificere overordnede, systematiske mønstre i data. Disse mønstre kan i sig selv være informative for sociologen, ligesom de kan være genstand for videregående analyser, der forsøger at forklare, hvorfor mønstrene ser ud, som de gør.

Kurset giver en praktisk introduktion til to udbredte deskriptive metoder: Faktoranalyse (FA) og latent klasseanalyse (LKA). Begge metoder kan motiveres ud fra samme underliggende princip (se nedenfor), men har forskellige indholdsmæssige formål. Hvor FA forsøger at gruppere variable, der ligner hinanden, forsøger LKA at gruppere individer, der ligner hinanden. Det lyder umiddelbart som to meget forskellige tilgange, men i virkeligheden er det to sider af samme sag.
 

Det fælles underliggende princip for de to metoder går ofte under betegnelsen ”målemodeller” eller ”modeller for latente variable” (på engelsk hhv. ”measurement models” eller ”latent variable models”). Princippet går kort sagt ud på at måle et fænomen indirekte gennem en række indikatorer, som vi har i vores data. Med andre ord er fænomenet latent, dvs. det kan ikke observeres direkte (heraf latent variabel). Eksempler kan være solidaritet, grundholdninger eller lykke. Disse størrelser er vigtige teoretiske begreber i samfundsvidenskaben, men man kan ikke gå ud observere dem direkte. Derimod kan man observere dem indirekte gennem en række indikatorer på fx det, at være lykkelig. I en FA anvender man disse indikatorer til at ”måle” det latente fænomen med. Tilsvarende kan man forestille sig, at man gerne vil opdele sin stikprøve (eller den population, som stikprøven er udtrukket fra) i to eller flere grundlæggende typer. Det kan fx være sociale klasser eller forbrugersegmenter. Har man fx indsamlet data på en række indikatorer på personers madforbrug, kan man anvende LKA på disse indikatorer til at gruppere personerne i nogle grundlæggende typer eller segmenter ud fra, hvor meget de ligner hinanden i deres madforbrug (forbrugersegmenter)
 

I både FA og LKA er det latente fænomen en variabel. I FA er variablen kontinuert. I LKA er den diskret. Herudover anvendes FA på kontinuerte eller ordinale indikatorer, mens LKA anvendes på diskrete (ordinale eller nominale) indikatorer. Med andre ord er det metodiske princip (at indirekte måle en latent variabel) det samme i det to metoder, men skalatyperne varierer. Dog findes der udvidelser af metoderne, hvor denne strenge opdeling ikke længere holder (disse berøres overfladisk på kurset).
 

Kursets hovedvægt ligger på det praktiske aspekt af FA og LKA. Med andre ord vil kurset prioterere praktiske øvelser i Stata, ligesom den studerende kan få mulighed for at arbejde på egne data (hvis relevant). Kurset vil dog også præsentere teorien bag målemodeller (latente og manifeste variable), ligesom kurset vil berøre den ophedede debat om den rolle, hhv. beskrivelse og forklaring bør spille i sociologien. Sidst vil kurset berøre, hvordan man kan arbejde videre med de ”beskrivelse”, som enten en FA eller LKA producerer.      

Engelsk titel

Applied Data Mining: Grouping Variables and Individuals (SUMMER 2018)

Uddannelse

BA/KA valgfag

Studerende på BA 2005 studieordningen (10 ECTS)
Studerende på KA 2015 studieordningen (7,5 ECTS)
Kurset er IKKE åbent for studerende på BA 2016 studieordningen.


Fagpakke (KA 2015):

Velfærd, ulighed og mobilitet/Welfare, inequality and mobility
Viden, organisation og politik/Knowledge, organisation and politics
Kultur, livsstil og hverdagsliv/Culture, lifestyle and everyday life

Målbeskrivelse

VIDEN
 

Den studerende skal kunne redegøre for teorien bag målemodeller, hvilket involverer redegørelse for

- data-mining som forskningsstrategi

- latente og manifeste variable

- betinget uafhængighed

- principperne bag faktoranalyse

- principperne bag latent klasseanalyse

Herudover skal den studerende kunne forklare, hvordan ovenstående principper kan anvendes i sociologiske undersøgelser. Sidst skal den studereende kunne reflektere over muligheder og begrænsninger ved anvendelsen af data-mining i sociologisk forskning.
 

FÆRDIGHEDER
 

Faget giver den studerende et praktisk kendskab til brugen af faktoranalyse og latent klasseanalyse i statistikprogrammet Stata. Den studerende skal kunne

 - udføre en faktoranalyse, herunder fortolke de relevante parametre i relation til en given sociologisk problemstilling.

- udføre en latent klasseanalyse, herunder fortolke de relevante parametre i relation til en given sociologisk problemstilling.

- kritisk vurdere sine empiriske resultater i relation til en given problemstilling på en måde, der signalerer forståelse af muligheder og begrænsninger ved anvendelse af data-mining i sociologien.
 

KOMPETENCER
 

Efter endt undervisning skal den studerende kunne

- tilegne sig videregående kvantitative metoder som fx kvasi-eksperimentelle metoder og multilevel-analyse.

- omsætte sin viden og færdigheder i analyser ved fx at kunne planlægge og gennemføre rapporter, der anvender faktoranalyse eller latent klasseanalyse.     

Kombination af klassisk forelæsning og masser af praktiske øvelser.

Kombineret elektronisk og fysisk kompendium.
 

Omfang af pensum:

7,5 ECTS: 600-700 sider.

10 ECTS: 800 sider.

Det anbefales at have gennemført de kvantitative kurser på bachelordelen på Sociologisk Institut, KU, men er ikke et krav. Det er fordel at have kendskab til krydstabulering og regressionsanalyse. Matematiske forkundskaber er ikke et krav (alle matematiske udsagn eller opskrivninger i undervisningen vil altid blive beskrevet med ord).

Bemærk at kurset anvender udelukkende statistikprogrammet Stata til eksempler og øvelser.

Bemærk at man skal have sin egen bærbare computer med (med den nyeste version af Stata installeret).

BEMÆRK:
Kurset har adgangsbegrænsning.
Ordinær tilmeldingsperiode til sommerskole kurser er fra 15. november til 1. december. Bliver kurset fyldt her, vil det IKKE blive udbudt igen ved eftertilmeldingsperioden fra 15. maj - 1. juni.

VEJLEDENDE ARBEJDSBELASTNING
Antallet af undervisningstimer er ens for både 7,5 og 10 ECTS

10 ECTS
Forelæsninger: 28
Undervisningsforberedelse: 130
Øvelser: 104
Projektarbejde: 0 (hvis der er 0 i en fjernes linjen)
Eksamensforberedelse: 11
I alt: 275

Peerfeedback (studerende giver hinanden feedback)

Kursets består af en række praktiske øvelser. Studerende giver feedback til hinanden på deres besvarelser af øvelserne. Feedbacken sker i undervisningen i grupper af tre, hvor en studerende giver feedback, en anden modtager og en tredje noterer feedbackens indhold og modtagerens respons (feedback-triader). Disse roller går på tur, sådan at alle i gruppen påtager sig hver rolle. Aktiviteten afsluttes ved en opsummering i plenum.

ECTS
Se eksamensbeskrivelse
Prøveform
Skriftlig aflevering
Individuel/gruppe. Ved en skriftlig opgave forstås en opgave, der besvarer et eller flere stillede spørgsmål. Der eksamineres her på baggrund af fagets pensum, dvs. den litteratur, der er fastlagt af underviseren. Den skriftlige opgave må maximalt fylde 10 sider. Ved gruppebesvarelser tillægges 5 sider pr. ekstra studerende. Se detaljer for prøveform i studieordningen og den generelle eksamensvejledning på KUnet.
Bedømmelsesform
7-trins skala
Censurform
Ingen ekstern censur
Kriterier for bedømmelse

Se målbeskrivelsen.

ECTS
Se eksamensbeskrivelse
Prøveform
Skriftlig aflevering
Individuel/gruppe. Ved en skriftlig opgave forstås en opgave, der besvarer et eller flere stillede spørgsmål. Der eksamineres her på baggrund af fagets pensum, dvs. den litteratur, der er fastlagt af underviseren. Den skriftlige opgave må maximalt fylde 10 sider. Ved gruppebesvarelser tillægges 5 sider pr. ekstra studerende. Se detaljer for prøveform i studieordningen og den generelle eksamensvejledning på KUnet.
Bedømmelsesform
7-trins skala
Censurform
Ingen ekstern censur
Kriterier for bedømmelse

Se målbeskrivelsen.

 • Kategori
 • Timer
 • Forelæsninger
 • 28
 • Forberedelse
 • 75
 • Undervisningsforberedelse
 • 20
 • Øvelser
 • 9
 • Eksamensforberedelse
 • 74
 • Total
 • 206