Data Science (DS)

Kursusindhold

Dette kursus gennemgår de forskellige komponenter der indgår i en komplet data science pipeline, fra indsamling, processering og oprensning af data, til effektiv lagring i en database, til implementation af statistiske modeller, og udforskning af data gennem visualisering. Kurset vil omhandle håndtering af data fra flere kilder, og der lægges vægt på fundamentelle udfordringer i data science, såsom bias i data, og hvordan dette kan påvirke beslutningstagning på baggrund og trænede modeller.

Engelsk titel

Data Science (DS)

Uddannelse

Bacheloruddannelsen i datalogi
Bacheloruddannelse i Machine Learning og Datavidenskab

Målbeskrivelse

Viden om

  • Indlæsning af struktureret tekst
    • Regulære udtryk og endelige automater
    • grammatiker og parsning
  • Database
    • Centrale databasetekniske begreber så som den relationelle model, data-uafhængighed og transaktioner.
    • Entitets-relations-modellering (ER-modellering) og relationel datamodellering, herunder transformationer fra ER-modellering til relationel datamodellering.
    • Forespørgsler i database-forespørgselssprog, herunder både den relationelle algebra og SQL.
    • Teorien om database-normalisering, herunder funktionelle afhængigheder, nøgler og relationelle dekompositioner.
    • Indekseringsteknikker og deres rolle ved performance-forbedring af database-forespørgsler.
    • ACID (atomicity, consistency, isolation, durability) egenskaberne og brug af transaktioner.
  • Data integration
    • Strategier for håndtering af heterogen data
    • Data oprensning, fejlhåndtering og manglende data
    • Ustruktureret til struktureret data
  • Model design og implementation
    • Basale begreber i modellering
    • Struktureret model design
    • Model test strategier
  • Data udforskning og visualisering
    • Eksplorativ data analyse
    • Nøglebegreber i visualisering

 

Færdigheder

  • Skrive scripts til indsamling og processering af data, og indlæsning af struktureret tekst
  • Opsætning af databasesystemer til at understøtte heterogen data
  • Design af modulær pipeline til dataanalyse af et konkret problem
  • Design af meningsfulde visualiseringer

 

Kompetencer

Den studerende forstår de centrale udfordringer i at designe et effektivt data science work-flow der understøtter data fra flere kilder og flere forskellige analyser. Den studerende

  • kan bruge SQL forespørgsler til at lave meningsfulde opslag i en database
  • kan løse basale dataintegrationsopgaver
  • er i stand til at designe og forstå modulære data science pipelines
  • kan producere meningsfulde visualiseringer af data
  • kan klart og præcist dokumentere data science workflows, metoder og resultater

Forelæsninger, øvelser og projekt

Offentliggøres på kursets Absalon-side ved kursusstart.

Den studerende bør have grundlæggende viden om programmering, algoritmer, lineær algebra, matematisk analyse og statistik. Denne viden kan opnås via følgende kurser:
PoP
MASD og MAD eller MatIntro og SS
DMA eller DMFS (DMFS kan følges sideløbende i blok 3)
LinAlgDat (LinAlgDat kan følges sideløbende i blok 4)

Kurset erstatter det nedlagte kursus NDAB18000U Data Science (DS). Du kan altså ikke kan tage NDAB21002U - Data Science (DS), hvis du allerede har bestået NDAB18000U Data Science (DS).

Skriftlig
Kollektiv
Løbende feedback i undervisningsforløbet
ECTS
15 ECTS
Prøveform
Skriftlig aflevering, i løbet af kurset
Skriftlig aflevering, 24-timers
Prøveformsdetaljer
Eksamen består af 2 dele:

1) Et gruppeprojekt, der afleveres som en rapport med individuelle bidrag i løbet af kurset

2) En afsluttende 24-timers individuel skriftlig hjemmeopgave

Projektet vægter 60% af karakteren og den afsluttende skriftlig hjemmeopgave vægter de resterende 40%. Begge dele af eksamen skal dog bestås for at kurset kan bestås, dvs. hver del skal som minimum opnå karakteren 02.

Begge eksamensdele skal bestås i den samme termin.
Hjælpemidler
Alle hjælpemidler tilladt
Bedømmelsesform
7-trins skala
Censurform
Ingen ekstern censur
Flere interne bedømmere.
Kriterier for bedømmelse

Se målbeskrivelsen.

Enkeltfag dagtimer (tompladsordning)

  • Kategori
  • Timer
  • Forelæsninger
  • 72
  • Forberedelse (anslået)
  • 157
  • Teoretiske øvelser
  • 72
  • Projektarbejde
  • 91
  • Eksamen
  • 20
  • Total
  • 412

Kursusinformation

Undervisningssprog
Dansk
Kursusnummer
NDAB21002U
ECTS
15 ECTS
Niveau
Bachelor
Varighed

2 blokke

Placering
Blok 3 og Blok 4
Skemagruppe
A (tirs 8-12 + tors 8-17)
Kapacitet
Ingen begrænsning
Der kan være færre pladser i eftertilmeldingsperioden
Studienævn
Studienævn for Matematik og Datalogi
Udbydende institut
  • Datalogisk Institut
Udbydende fakultet
  • Det Natur- og Biovidenskabelige Fakultet
Kursusansvarlig
  • Desmond Elliott   (2-6a6b466a6f34717b346a71)
Gemt den 28-02-2022

Are you BA- or KA-student?

Are you bachelor- or kandidat-student, then find the course in the course catalog for students:

Courseinformation of students