Data Science (DS)

Kursusindhold

Dette kursus gennemgår de forskellige komponenter der indgår i en komplet data science pipeline, fra indsamling, processering og oprensning af data, til effektiv lagring i en database, til implementation af statistiske modeller, og udforskning af data gennem visualisering. Kurset vil omhandle håndtering af data fra flere kilder, og der lægges vægt på fundamentelle udfordringer i data science, såsom bias i data, og hvordan dette kan påvirke beslutningstagning på baggrund og trænede modeller.

Engelsk titel

Data Science (DS)

Uddannelse

Bacheloruddannelsen i datalogi
Bacheloruddannelse i Machine Learning og Datavidenskab

Målbeskrivelse

Viden om

  • Indlæsning af struktureret tekst
    • Regulære udtryk og endelige automater
    • grammatiker og parsning
  • Database
    • Centrale databasetekniske begreber så som den relationelle model, data-uafhængighed og transaktioner.
    • Entitets-relations-modellering (ER-modellering) og relationel datamodellering, herunder transformationer fra ER-modellering til relationel datamodellering.
    • Forespørgsler i database-forespørgselssprog, herunder både den relationelle algebra og SQL.
    • Teorien om database-normalisering, herunder funktionelle afhængigheder, nøgler og relationelle dekompositioner.
    • Indekseringsteknikker og deres rolle ved performance-forbedring af database-forespørgsler.
    • ACID (atomicity, consistency, isolation, durability) egenskaberne og brug af transaktioner.
  • Data integration
    • Strategier for håndtering af heterogen data
    • Data oprensning, fejlhåndtering og manglende data
    • Ustruktureret til struktureret data
  • Model design og implementation
    • Basale begreber i modellering
    • Struktureret model design
    • Model test strategier
  • Data udforskning og visualisering
    • Eksplorativ data analyse
    • Nøglebegreber i visualisering

 

Færdigheder

  • Skrive scripts til indsamling og processering af data, og indlæsning af struktureret tekst
  • Opsætning af databasesystemer til at understøtte heterogen data
  • Design af modulær pipeline til dataanalyse af et konkret problem
  • Design af meningsfulde visualiseringer

 

Kompetencer

Den studerende forstår de centrale udfordringer i at designe et effektivt data science work-flow der understøtter data fra flere kilder og flere forskellige analyser. Den studerende

  • kan bruge SQL forespørgsler til at lave meningsfulde opslag i en database
  • kan løse basale dataintegrationsopgaver
  • er i stand til at designe og forstå modulære data science pipelines
  • kan producere meningsfulde visualiseringer af data
  • kan klart og præcist dokumentere data science workflows, metoder og resultater

Forelæsninger, øvelser og projekt

Den studerende bør have grundlæggende viden om programmering, algoritme lineær algebra, matematisk analyse og statistik. Denne viden kan opnås via følgende kurser:
PoP
MASD og MAD eller MatIntro og SS
DMA eller DMFS (DMFS kan følges sideløbende i blok 3)
LinAlgDat (LinAlgDat kan følges sideløbende i blok 4)

Kurset erstatter det nedlagte kursus NDAB18000U Data Science (DS). Du kan altså ikke kan tage NDAB21002U - Data Science (DS), hvis du allerede har bestået NDAB18000U Data Science (DS).

Skriftlig
Kollektiv
Løbende feedback i undervisningsforløbet
ECTS
15 ECTS
Prøveform
Skriftlig aflevering, i løbet af kurset
Skriftlig aflevering, 24-timers
Eksamen består af 2 dele:

1) Et gruppeprojekt, der afleveres som en rapport med individuelle bidrag i løbet af kurset

2) En afsluttende 24-timers individuel skriftlig hjemmeopgave

Projektet vægter 60% af karakteren og den afsluttende skriftlig hjemmeopgave vægter de resterende 40%. Begge dele af eksamen skal dog bestås for at kurset kan bestås, dvs. hver del skal som minimum opnå karakteren 02.

Begge eksamensdele skal bestås i den samme termin.
Hjælpemidler
Alle hjælpemidler tilladt
Bedømmelsesform
7-trins skala
Censurform
Ingen ekstern censur
Flere interne bedømmere.
Kriterier for bedømmelse

Se målbeskrivelsen.

Enkeltfag dagtimer (tompladsordning)

  • Kategori
  • Timer
  • Forelæsninger
  • 72
  • Forberedelse (anslået)
  • 166
  • Teoretiske øvelser
  • 72
  • Projektarbejde
  • 100
  • Eksamen
  • 2
  • Total
  • 412

Kursusinformation

Undervisningssprog
Dansk
Kursusnummer
NDAB21002U
ECTS
15 ECTS
Niveau
Bachelor
Varighed

2 blokke

Placering
Blok 3 og Blok 4
Skemagruppe
A (tirs 8-12 + tors 8-17)
Kapacitet
Ingen begrænsning
Der kan være færre pladser i eftertilmeldingsperioden
Studienævn
Studienævn for Matematik og Datalogi
Udbydende institut
  • Datalogisk Institut
Udbydende fakultet
  • Det Natur- og Biovidenskabelige Fakultet
Kursusansvarlig
  • Desmond Elliott   (2-71724d71763b78823b7178)
Gemt den 22-12-2021

Are you BA- or KA-student?

Are you bachelor- or kandidat-student, then find the course in the course catalog for students:

Courseinformation of students