Analyse og visualisering af biologiske datasæt

Kursusindhold

Dette kursus fokuserer på praktiske og effektive anvendelser af R til at løse virkelige problemstillinger inden for det biologiske område. Kurset er blandt andet målrettet håndteringen af den stigende mængde af molekylære data, og vil således give de studerende redskaber til dataanalyse projekter indenfor bioinformatik og molekylær biologi samt adgang til mere avancerede emner indenfor statistik eller data science-området. 

De studerende vil lære nye metoder til at lave skalerbare analyser af datasæt med særlig fokus på at kunne fremstille hensigtsmæssige grafer og visualiseringer af deres data, som kan støtte dataanalysen og bidrage til effektiv formidling af biologiske resultater.

De fleste studerende forudsættes at have et basalt kendskab til R fra deres tidligere kurser, men der afsættes tid i den første uge til at samle alle op til et nogenlunde niveau. Hvis man er ivrig efter at lære at kode og ikke brugt R før, så skal man forvente at yde en større indsats i denne uge. 

I dette kursus bygges oven på denne viden af "basis R" gennem brug af R-pakkerne, der udgør Tidyverse (https://www.tidyverse.org/). Tidyverse (herunder ggplot2 til at lave plots) er en samling af R-pakker, der implementer en intuitiv ramme for opbygning af kommandoer til bearbejdning og plotning af data. Vi fastholder denne med fordel derefter, når vi takler de øvrige emner, som menes at være især relevant for de biologiske fag.  

Undervisningen består af videoer med forelæsninger og demonstration af analyser, samt kursusnoter, quizzer og øvelser. I undervisningstimerne lægges der meget vægt på praktiske øvelser og når der introduceres nye emner, tages der som regel udgangspunkt i små datasæt, som er nemme at importere og gode til at demonstrere de forskellige principper.

Derudover er der en længere workshop opgave hver uge med hovedfokus på en mere sammenhængende analyse af relevante datasæt fra studier omhandlende gen ekspression, genomiske data og forskellige biologisk temaer. Målet er således at de studerende får opbygget et fundament, der vil gøre det muligt at arbejde uafhængigt på egne datasæt og projekter.

OBS: For studerende med interesse for økologiske datasæt anbefales kurset ”Økologisk dataanalyse med R”. Det anbefales ikke, at man tager begge kurser.


Dette kursus indeholder bl.a.:

  • Import, oprydning og klargøring af biologiske datasæt vha. R-pakkerne fra Tidyverse.
  • Fremstilling af figurer vha. Tidyverse-pakken ggplot2, med henblik på publicering og/eller præsentation.
  • Brug af R Markdown til at skrive, gemme og køre R-kode, samt fremstilling af rapporter som kan deles med andre.
  • Anvendelse af statistiske metoder for at støtte analyseringsprocessen og drage hensigtsmæssige konklusioner ud fra resultaterne.
  • Implementering af reproducerbar dataanalyse vha. funktioner og iteration (Tidyverse pakke purrr)
  • Tidyverse baseret implementering af statistiske analysemetoder til bl.a. visualisering af trends og testning af hypoteser.
  • Brug af clustering metoder og algoritmer, samt principal component analyse (PCA) til at lave effektiv visualisering af genomisk data.
  • Brug af plots som metode til at vurdere eksperimental design og mulige artefakter
  • Forståelse af baserende begreber fra maskinlæring og anvendelse af krydsvalidering indenfor den Tidyverse ramme til at evaluere en simpel klassificeringsmodel
  • Afhængig af tid: præsentation af datasæt i en app vha. Tidyverse pakken Shiny
Engelsk titel

Data Analysis and Visualization for Biological Datasets

Uddannelse

Bacheloruddannelsen i biokemi

Bacheloruddannelsen i bioinformatik
Bacheloruddannelsen i biologi

Bacheloruddannelsen i molekylær biomedicin

Målbeskrivelse

Kursets læringsmål er at give de studerende viden og færdigheder til at analysere biologiske datasæt og visualisere resultaterne af analyserne samt at kunne dokumentere analysen og gøre den producerbar.
 

Viden:

Ved afslutningen af kurset, er de studerende i stand til at:

  • Kende og benytte relevante statistiske analysemetoder for biologiske datasæt.
  • Kende og benytte god praksis for reproducerbar dataanalyse.
  • Kende og benytte basale regler til effektiv data visualisering.

 

rdigheder:

Ved afslutningen af kurset, er de studerende i stand til at:

  • Anvende R og R pakker til dataanalyser.
  • Kode enkle R funktioner og anvende iteration til at gøre dataanalyse reproducerbar.
  • Benytte R Markdown til at dokumentere deres dataanalyser.
  • Benytte R til at plotte og visualisere data.

 

Kompetencer:

Ved afslutningen af kurset, er de studerende i stand til at:

  • Udføre en statistisk korrekt, reproducerbar og veldokumenteret analyse af et biologisk datasæt.
  • Visualisere resultater af dataanalyse så disse effektivt gengiver de vigtigste resultater.

Hybrid mellem forelæsninger og computer øvelser. Kurset har en ’learning-by-doing’ tilgang. Online video tutorials og kursus-notater (gennem kursets hjemmeside) vil introducere teori og praktik, mens at der i, selve undervisningstimerne vil være fokus på at lave øvelser, helst indenfor små arbejdsgrupper, og få gennemgået øvelserne efterfølgende. I løbet af kurset vil der også være quizzes, der sørger for at de studerende har forstået emnerne fra uge til uge.

Det fortrækkes at de studerende har bestået et kursus i statistik og har basalt kendskab til R, svarende til enten Matematik/Statistik for biologer, Statistik for biokemikere (StatBK) eller lignende.
Hvis man er ivrigt efter at lære at kode og ikke har brugt R før, eller i kun begrænset omfang, forventes det, at man skal yde mere indsats end de andre i kurset for at komme op på niveauet i forhold til base R. Der forventes dog ikke, at man har tidligere erfaring med Tidyverse pakker (herunder ggplot2).
Indholdet af dette kursus overlapper til dels med pensum i kurset ”Økologisk dataanalyse med R” og det anbefales ikke for studerende at tage begge kurser.

Kurset er identisk med det nedlagte kursus NBIB20001U Visualisering af biologiske datasæt. Du kan altså ikke kan tage NBIB21000U - Analyse og visualisering af biologiske datasæt, hvis du allerede har bestået NBIB20001U Visualisering af biologiske datasæt.
Hvis du er registreret med eksamensforsøg i NBIB20001U Visualisering af biologiske datasætuden at bestå, skal du bruge dine sidste eksamensforsøg på at bestå eksamen i NBIB21000U - Analyse og visualisering af biologiske datasæt. Du har i alt tre eksamensforsøg.

Skriftlig
Individuel

Individuel feedback på pre-tests.

ECTS
7,5 ECTS
Prøveform
Skriftlig stedprøve, 4 timer
Løbende bedømmelse, Workshops, hvor der skal afleveres fire ud af fem opgaver
Prøveformsdetaljer
Eksamen består af en praktisk analyse af et datasæt, som den studerende vil lave i Rmarkdown og aflevere i html form. Karaktergivning er baseret på analysens reproducerbarhed, relevans og kvaliteten af præsentationen af analysen. De studerende vil få forskellige delmængder af et større datasæt at analysere.

Instituttet afholder selv denne eksamen og stiller ikke computer til rådighed.

Derudover vil løbende bedømmelse udgøre 15% af den samlede karakter. For at få den fulde 15% skal den studerende deltage i peerfeedback-systemet i forbindelse med nogle af workshop opgaver.

Løbende bedømmelse tæller 15%, af den samlede karakter
Den skriftlige prøve tæller 85%, af den samlede karakter
Hjælpemidler
Alle hjælpemidler tilladt
Bedømmelsesform
7-trins skala
Censurform
Ingen ekstern censur
Flere interne bedømmere.
Reeksamen

Samme som ordinær eksamen.

Kriterier for bedømmelse

For at opnå karakteren 12, skal den studerende overbevisende og præcist kunne demonstrere viden, færdigheder og kompetencer som beskrevet under målbeskrivelsen.

 

Enkeltfag dagtimer (tompladsordning)

  • Kategori
  • Timer
  • Forelæsninger
  • 32
  • Forberedelse (anslået)
  • 129
  • Praktiske øvelser
  • 32
  • Eksamensforberedelse
  • 9
  • Eksamen
  • 4
  • Total
  • 206

Kursusinformation

Undervisningssprog
Dansk
Kursusnummer
NBIB21000U
ECTS
7,5 ECTS
Niveau
Bachelor
Varighed

1 blok

Placering
Blok 2
Skemagruppe
B
Kapacitet
Ingen begrænsning – medmindre du tilmelder dig i eftertilmeldingsperioden (BA og KA) eller som merit- eller enkeltfagsstuderende.
Studienævn
Studienævn for det Biologiske Område
Udbydende institut
  • Biologisk Institut
Udbydende fakultet
  • Det Natur- og Biovidenskabelige Fakultet
Kursusansvarlige
  • Sarah Rennie   (12-796778676e34786b74746f6b46686f7534717b346a71)
  • Jeppe Vinther   (8-6c786b70766a677442646b71306d7730666d)
Gemt den 24-02-2025

Er du BA- eller KA-studerende?

Er du bachelor- eller kandidat-studerende, så find dette kursus i kursusbasen for studerende:

Kursusinformation for indskrevne studerende