Data Science (DS)
Kursusindhold
Dette kursus gennemgår de forskellige komponenter der indgår i en komplet data science pipeline, fra indsamling, processering og oprensning af data, til effektiv lagring i en database, til implementation af statistiske modeller, og udforskning af data gennem visualisering. Kurset vil omhandle håndtering af data fra flere kilder, og der lægges vægt på fundamentelle udfordringer i data science, såsom bias i data, og hvordan dette kan påvirke beslutningstagning på baggrund og trænede modeller.
Data Science (DS)
Bacheloruddannelsen i Datalogi
Bacheloruddannelse i Machine Learning og
Datavidenskab
Viden om
- Indlæsning af struktureret tekst
- Regulære udtryk og endelige automater
- grammatiker og parsning
- Database
- Centrale databasetekniske begreber så som den relationelle model, data-uafhængighed og transaktioner.
- Entitets-relations-modellering (ER-modellering) og relationel datamodellering, herunder transformationer fra ER-modellering til relationel datamodellering.
- Forespørgsler i database-forespørgselssprog, herunder både den relationelle algebra og SQL.
- Teorien om database-normalisering, herunder funktionelle afhængigheder, nøgler og relationelle dekompositioner.
- Indekseringsteknikker og deres rolle ved performance-forbedring af database-forespørgsler.
- ACID (atomicity, consistency, isolation, durability) egenskaberne og brug af transaktioner.
- Data integration
- Strategier for håndtering af heterogen data
- Data oprensning, fejlhåndtering og manglende data
- Ustruktureret til struktureret data
- Model design og implementation
- Basale begreber i modellering
- Struktureret model design
- Model test strategier
- Data udforskning og visualisering
- Eksplorativ data analyse
- Nøglebegreber i visualisering
Færdigheder
- Skrive scripts til indsamling og processering af data, og indlæsning af struktureret tekst
- Opsætning af databasesystemer til at understøtte heterogen data
- Design af modulær pipeline til dataanalyse af et konkret problem
- Design af meningsfulde visualiseringer
Kompetencer
Den studerende forstår de centrale udfordringer i at designe et effektivt data science work-flow der understøtter data fra flere kilder og flere forskellige analyser. Den studerende
- kan bruge SQL forespørgsler til at lave meningsfulde opslag i en database
- kan løse basale dataintegrationsopgaver
- er i stand til at designe og forstå modulære data science pipelines
- kan producere meningsfulde visualiseringer af data
- kan klart og præcist dokumentere data science workflows, metoder og resultater
Forelæsninger, øvelser og projekt
Offentliggøres på kursets Absalon-side ved kursusstart.
Den studerende bør have grundlæggende viden om programmering,
algoritmer, lineær algebra, matematisk analyse og statistik. Denne
viden kan opnås via følgende kurser:
PoP
MASD og MAD eller MatIntro og SS
DMA eller DMFS (DMFS kan følges sideløbende i blok 3)
LinAlgDat (LinAlgDat kan følges sideløbende i blok
4)
Kurset erstatter det nedlagte kursus NDAB18000U Data Science (DS). Du kan altså ikke kan tage NDAB21002U - Data Science (DS), hvis du allerede har bestået NDAB18000U Data Science (DS).
- ECTS
- 15 ECTS
- Prøveform
-
Skriftlig aflevering, i løbet af blok 3Skriftlig prøve, 4 timer efter blok 4 med opsyn.
- Prøveformsdetaljer
- Eksamen består af to dele:
1) en skriftlig projektrapport udarbejdet i grupper med eksplicit definerede individuelle bidrag inden for data science-delen af kurset.
2) en skriftlig stedprøve (4 timer) omhandlende database-delen af kurset, svarende til eksamen på Databases and Information Systems (DIS)
Del 1 og del 2 kan bestås uafhængigt af hinanden, dvs. de behøver ikke blive bestået i den samme eksamenstermin.
Begge delprøver skal bestås individuelt og hver delprøve vægter 50%.
Beståede delprøver kan ikke tages om, og tæller med ved reeksamen med det resultat der blev opnået oprindeligt. - Hjælpemidler
- Kun visse hjælpemidler tilladt
Del 1: alle hjælpemidler godkendt
Del 2 (stedprøven): skriftlige hjælpemidler tilladt, dvs. bøger, noter og printede dokumenter.
- Bedømmelsesform
- 7-trins skala
- Censurform
- Ingen ekstern censur
Flere interne bedømmere.
Kriterier for bedømmelse
Se målbeskrivelsen.
Enkeltfag dagtimer (tompladsordning)
- Kategori
- Timer
- Forelæsninger
- 72
- Forberedelse (anslået)
- 157
- Teoretiske øvelser
- 72
- Projektarbejde
- 91
- Eksamen
- 20
- Total
- 412
Kursusinformation
- Undervisningssprog
- Dansk
- Kursusnummer
- NDAB21002U
- ECTS
- 15 ECTS
- Niveau
- Bachelor
- Varighed
-
2 blokke
- Placering
- Blok 3 og Blok 4
- Skemagruppe
-
A (tirs 8-12 + tors 8-17)
- Kapacitet
- Ingen begrænsning
Der kan være færre pladser i eftertilmeldingsperioden - Studienævn
- Studienævn for Matematik og Datalogi
Udbydende institut
- Datalogisk Institut
Udbydende fakultet
- Det Natur- og Biovidenskabelige Fakultet
Kursusansvarlig
- Desmond Elliott (2-71724d71763b78823b7178)
Are you BA- or KA-student?
Courseinformation of students