Analyse og visualisering af biologiske datasæt
Kursusindhold
Dette kursus fokuserer på praktiske og effektive
anvendelser af R til at løse virkelige problemstillinger inden for
det biologiske område. Kurset er blandt andet
målrettet håndteringen af den stigende mængde af molekylære
data, og vil således give de studerende redskaber til dataanalyse
projekter indenfor bioinformatik og molekylær biologi samt adgang
til mere avancerede emner indenfor statistik eller data
science-området.
De studerende vil lære nye metoder til at lave skalerbare analyser
af datasæt med særlig fokus på at kunne
fremstille hensigtsmæssige grafer og visualiseringer af deres
data, som kan støtte dataanalysen og bidrage til effektiv
formidling af biologiske resultater.
De fleste studerende forudsættes at have et basalt kendskab til R fra deres tidligere kurser, men der afsættes tid i den første uge til at samle alle op til et nogenlunde niveau. Hvis man er ivrig efter at lære at kode og ikke brugt R før, så skal man forvente at yde en større indsats i denne uge.
I dette kursus bygges oven på denne viden af "basis R" gennem brug af R-pakkerne, der udgør Tidyverse (https://www.tidyverse.org/). Tidyverse (herunder ggplot2 til at lave plots) er en samling af R-pakker, der implementer en intuitiv ramme for opbygning af kommandoer til bearbejdning og plotning af data. Vi fastholder denne med fordel derefter, når vi takler de øvrige emner, som menes at være især relevant for de biologiske fag.
Undervisningen består af videoer med forelæsninger og demonstration af analyser, samt kursusnoter, quizzer og øvelser. I undervisningstimerne lægges der meget vægt på praktiske øvelser og når der introduceres nye emner, tages der som regel udgangspunkt i små datasæt, som er nemme at importere og gode til at demonstrere de forskellige principper.
Derudover er der en længere workshop opgave hver uge med hovedfokus på en mere sammenhængende analyse af relevante datasæt fra studier omhandlende gen ekspression, genomiske data og forskellige biologisk temaer. Målet er således at de studerende får opbygget et fundament, der vil gøre det muligt at arbejde uafhængigt på egne datasæt og projekter.
OBS: For studerende med interesse for økologiske datasæt anbefales kurset ”Økologisk dataanalyse med R”. Det anbefales ikke, at man tager begge kurser.
Dette kursus indeholder bl.a.:
- Import, oprydning og klargøring af biologiske datasæt vha. R-pakkerne fra Tidyverse.
- Fremstilling af figurer vha. Tidyverse-pakken ggplot2, med henblik på publicering og/eller præsentation.
- Brug af R Markdown til at skrive, gemme og køre R-kode, samt fremstilling af rapporter som kan deles med andre.
- Anvendelse af statistiske metoder for at støtte analyseringsprocessen og drage hensigtsmæssige konklusioner ud fra resultaterne.
- Implementering af reproducerbar dataanalyse vha. funktioner og iteration (Tidyverse pakke purrr)
- Tidyverse baseret implementering af statistiske analysemetoder til bl.a. visualisering af trends og testning af hypoteser.
- Brug af clustering metoder og algoritmer, samt principal component analyse (PCA) til at lave effektiv visualisering af genomisk data.
- Brug af plots som metode til at vurdere eksperimental design og mulige artefakter
- Forståelse af baserende begreber fra maskinlæring og anvendelse af krydsvalidering indenfor den Tidyverse ramme til at evaluere en simpel klassificeringsmodel
- Afhængig af tid: præsentation af datasæt i en app vha. Tidyverse pakken Shiny
Data Analysis and Visualization for Biological Datasets
Bacheloruddannelsen i biokemi
Bacheloruddannelsen i bioinformatik
Bacheloruddannelsen i biologi
Bacheloruddannelsen i molekylær biomedicin
Kursets læringsmål er at give de studerende viden og færdigheder
til at analysere biologiske datasæt og visualisere resultaterne af
analyserne samt at kunne dokumentere analysen og gøre den
producerbar.
Viden:
Ved afslutningen af kurset, er de studerende i stand til at:
- Kende og benytte relevante statistiske analysemetoder for biologiske datasæt.
- Kende og benytte god praksis for reproducerbar dataanalyse.
- Kende og benytte basale regler til effektiv data visualisering.
Færdigheder:
Ved afslutningen af kurset, er de studerende i stand til at:
- Anvende R og R pakker til dataanalyser.
- Kode enkle R funktioner og anvende iteration til at gøre dataanalyse reproducerbar.
- Benytte R Markdown til at dokumentere deres dataanalyser.
- Benytte R til at plotte og visualisere data.
Kompetencer:
Ved afslutningen af kurset, er de studerende i stand til at:
- Udføre en statistisk korrekt, reproducerbar og veldokumenteret analyse af et biologisk datasæt.
- Visualisere resultater af dataanalyse så disse effektivt gengiver de vigtigste resultater.
Hybrid mellem forelæsninger og computer øvelser. Kurset har en ’learning-by-doing’ tilgang. Online video tutorials og kursus-notater (gennem kursets hjemmeside) vil introducere teori og praktik, mens at der i, selve undervisningstimerne vil være fokus på at lave øvelser, helst indenfor små arbejdsgrupper, og få gennemgået øvelserne efterfølgende. I løbet af kurset vil der også være quizzes, der sørger for at de studerende har forstået emnerne fra uge til uge.
Se Absalon.
Det fortrækkes at de studerende har bestået et kursus i
statistik og har basalt kendskab til R, svarende til enten
Matematik/Statistik for biologer, Statistik for biokemikere
(StatBK) eller lignende.
Hvis man er ivrigt efter at lære at kode og ikke har brugt R før,
eller i kun begrænset omfang, forventes det, at man skal yde mere
indsats end de andre i kurset for at komme op på niveauet i forhold
til base R. Der forventes dog ikke, at man har tidligere erfaring
med Tidyverse pakker (herunder ggplot2).
Indholdet af dette kursus overlapper til dels med pensum i kurset
”Økologisk dataanalyse med R” og det anbefales ikke for studerende
at tage begge kurser.
Kurset er identisk med det nedlagte kursus NBIB20001U
Visualisering af biologiske datasæt. Du kan altså ikke kan tage
NBIB21000U - Analyse og visualisering af biologiske datasæt, hvis
du allerede har bestået NBIB20001U Visualisering af biologiske
datasæt.
Hvis du er registreret med eksamensforsøg i NBIB20001U
Visualisering af biologiske datasætuden at bestå, skal du bruge
dine sidste eksamensforsøg på at bestå eksamen i NBIB21000U -
Analyse og visualisering af biologiske datasæt. Du har i alt tre
eksamensforsøg.
Individuel feedback på pre-tests.
- ECTS
- 7,5 ECTS
- Prøveform
-
Skriftlig stedprøve, 4 timerLøbende bedømmelse, Workshops, hvor der skal afleveres fire ud af fem opgaver
- Prøveformsdetaljer
- Eksamen består af en praktisk analyse af et datasæt, som den
studerende vil lave i Rmarkdown og aflevere i html form.
Karaktergivning er baseret på analysens reproducerbarhed, relevans
og kvaliteten af præsentationen af analysen. De studerende vil få
forskellige delmængder af et større datasæt at analysere.
Instituttet afholder selv denne eksamen og stiller ikke computer til rådighed.
Derudover vil løbende bedømmelse udgøre 15% af den samlede karakter. For at få den fulde 15% skal den studerende deltage i peerfeedback-systemet i forbindelse med nogle af workshop opgaver.
Løbende bedømmelse tæller 15%, af den samlede karakter
Den skriftlige prøve tæller 85%, af den samlede karakter - Hjælpemidler
- Alle hjælpemidler tilladt
- Bedømmelsesform
- 7-trins skala
- Censurform
- Ingen ekstern censur
Flere interne bedømmere.
- Reeksamen
-
Samme som ordinær eksamen.
Kriterier for bedømmelse
For at opnå karakteren 12, skal den studerende overbevisende og præcist kunne demonstrere viden, færdigheder og kompetencer som beskrevet under målbeskrivelsen.
Enkeltfag dagtimer (tompladsordning)
- Kategori
- Timer
- Forelæsninger
- 32
- Forberedelse (anslået)
- 129
- Praktiske øvelser
- 32
- Eksamensforberedelse
- 9
- Eksamen
- 4
- Total
- 206
Kursusinformation
- Undervisningssprog
- Dansk
- Kursusnummer
- NBIB21000U
- ECTS
- 7,5 ECTS
- Niveau
- Bachelor
- Varighed
-
1 blok
- Placering
- Blok 2
- Skemagruppe
-
B
- Kapacitet
- Ingen begrænsning – medmindre du tilmelder dig i eftertilmeldingsperioden (BA og KA) eller som merit- eller enkeltfagsstuderende.
- Studienævn
- Studienævn for det Biologiske Område
Udbydende institut
- Biologisk Institut
Udbydende fakultet
- Det Natur- og Biovidenskabelige Fakultet
Kursusansvarlige
- Sarah Rennie (12-796778676e34786b74746f6b46686f7534717b346a71)
- Jeppe Vinther (8-6c786b70766a677442646b71306d7730666d)
Er du BA- eller KA-studerende?
Kursusinformation for indskrevne studerende