Data Science (DS)

Kursusindhold

Dette kursus gennemgår de forskellige komponenter der indgår i en komplet data science pipeline, fra indsamling, processering og oprensning af data, til effektiv lagring i en database, til implementation af statistiske modeller, og udforskning af data gennem visualisering. Kurset vil omhandle håndtering af data fra flere kilder, og der lægges vægt på fundamentelle udfordringer i data science, såsom bias i data, og hvordan dette kan påvirke beslutningstagning på baggrund og trænede modeller.

Engelsk titel

Data Science (DS)

Uddannelse

Bacheloruddannelsen i Datalogi
Bacheloruddannelse i Machine Learning og Datavidenskab

Målbeskrivelse

Viden om

  • Indlæsning af struktureret tekst
    • Regulære udtryk og endelige automater
    • grammatiker og parsning
  • Database
    • Centrale databasetekniske begreber så som den relationelle model, data-uafhængighed og transaktioner.
    • Entitets-relations-modellering (ER-modellering) og relationel datamodellering, herunder transformationer fra ER-modellering til relationel datamodellering.
    • Forespørgsler i database-forespørgselssprog, herunder både den relationelle algebra og SQL.
    • Teorien om database-normalisering, herunder funktionelle afhængigheder, nøgler og relationelle dekompositioner.
    • Indekseringsteknikker og deres rolle ved performance-forbedring af database-forespørgsler.
    • ACID (atomicity, consistency, isolation, durability) egenskaberne og brug af transaktioner.
  • Data integration
    • Strategier for håndtering af heterogen data
    • Data oprensning, fejlhåndtering og manglende data
    • Ustruktureret til struktureret data
  • Model design og implementation
    • Basale begreber i modellering
    • Struktureret model design
    • Model test strategier
  • Data udforskning og visualisering
    • Eksplorativ data analyse
    • Nøglebegreber i visualisering

 

Færdigheder

  • Skrive scripts til indsamling og processering af data, og indlæsning af struktureret tekst
  • Opsætning af databasesystemer til at understøtte heterogen data
  • Design af modulær pipeline til dataanalyse af et konkret problem
  • Design af meningsfulde visualiseringer

 

Kompetencer

Den studerende forstår de centrale udfordringer i at designe et effektivt data science work-flow der understøtter data fra flere kilder og flere forskellige analyser. Den studerende

  • kan bruge SQL forespørgsler til at lave meningsfulde opslag i en database
  • kan løse basale dataintegrationsopgaver
  • er i stand til at designe og forstå modulære data science pipelines
  • kan producere meningsfulde visualiseringer af data
  • kan klart og præcist dokumentere data science workflows, metoder og resultater

Forelæsninger, øvelser og projekt

Offentliggøres på kursets Absalon-side ved kursusstart.

Den studerende bør have grundlæggende viden om programmering, algoritmer, lineær algebra, matematisk analyse og statistik. Denne viden kan opnås via følgende kurser:
PoP
MASD og MAD eller MatIntro og SS
DMA eller DMFS (DMFS kan følges sideløbende i blok 3)
LinAlgDat (LinAlgDat kan følges sideløbende i blok 4)

Kurset erstatter det nedlagte kursus NDAB18000U Data Science (DS). Du kan altså ikke kan tage NDAB21002U - Data Science (DS), hvis du allerede har bestået NDAB18000U Data Science (DS).

Skriftlig
Kollektiv
Løbende feedback i undervisningsforløbet
ECTS
15 ECTS
Prøveform
Skriftlig aflevering, i løbet af blok 3
Skriftlig prøve, 4 timer efter blok 4 med opsyn.
Prøveformsdetaljer
Eksamen består af to dele:

1) en skriftlig projektrapport udarbejdet i grupper med eksplicit definerede individuelle bidrag inden for data science-delen af kurset.

2) en skriftlig stedprøve (4 timer) omhandlende database-delen af kurset, svarende til eksamen på Databases and Information Systems (DIS)

Del 1 og del 2 kan bestås uafhængigt af hinanden, dvs. de behøver ikke blive bestået i den samme eksamenstermin.

Begge delprøver skal bestås individuelt og hver delprøve vægter 50%.

Beståede delprøver kan ikke tages om, og tæller med ved reeksamen med det resultat der blev opnået oprindeligt.
Hjælpemidler
Kun visse hjælpemidler tilladt

Del 1: alle hjælpemidler godkendt

 

Del 2 (stedprøven): skriftlige hjælpemidler tilladt, dvs. bøger, noter og printede dokumenter.

Bedømmelsesform
7-trins skala
Censurform
Ingen ekstern censur
Flere interne bedømmere.
Kriterier for bedømmelse

Se målbeskrivelsen.

Enkeltfag dagtimer (tompladsordning)

  • Kategori
  • Timer
  • Forelæsninger
  • 72
  • Forberedelse (anslået)
  • 157
  • Teoretiske øvelser
  • 72
  • Projektarbejde
  • 91
  • Eksamen
  • 20
  • Total
  • 412

Kursusinformation

Undervisningssprog
Dansk
Kursusnummer
NDAB21002U
ECTS
15 ECTS
Niveau
Bachelor
Varighed

2 blokke

Placering
Blok 3 og Blok 4
Skemagruppe
A (tirs 8-12 + tors 8-17)
Kapacitet
Ingen begrænsning
Der kan være færre pladser i eftertilmeldingsperioden
Studienævn
Studienævn for Matematik og Datalogi
Udbydende institut
  • Datalogisk Institut
Udbydende fakultet
  • Det Natur- og Biovidenskabelige Fakultet
Kursusansvarlig
  • Desmond Elliott   (2-71724d71763b78823b7178)
Gemt den 13-01-2023

Are you BA- or KA-student?

Are you bachelor- or kandidat-student, then find the course in the course catalog for students:

Courseinformation of students