Analyse og visualisering af biologiske datasæt
Kursusindhold
Dette kursus bygger på de grundlæggende principper fra
statistik, og fokuserer hovedsageligt på praktiske og effektive
anvendelser af R til at løse virkelige problemstillinger inden for
det biologiske område. Kurset er blandt andet
målrettet håndteringen af den stigende mængde af molekylære
data, og vil således give de studerende redskaber til dataanalyse
projekter indenfor bioinformatik og molekylær biologi.
De studerende vil lære nye metoder til at lave skalerbare analyser
af datasæt med speciel fokus på at kunne
fremstille hensigtsmæssige grafer og visualiseringer af deres
data, som kan støtte dataanalysen og bidrage til effektiv
formidling af biologiske resultater. De studerende forudsættes at
have et basalt kendskab til R fra deres tidligere kurser og vil i
dette kursus bygge oven på denne viden gennem brug af R-pakkerne,
der udgør Tidyverse
(https://www.tidyverse.org/).
Tidyverse (herunder ggplot2 til at lave plots) er en samling af
R-pakker, der implementer en intuitiv strategi for opbygning af
kommandoer til bearbejdning og plotning af data.
Undervisningen består af videoer med forelæsninger og demonstration af analyser, samt kursusnoter, quizzer og øvelser. I undervisningstimerne lægges der meget vægt på praktiske øvelser, der tages udgangspunkt i små datasæt, som er nemme at importere og gode til at demonstrere de forskellige principper. Derudover er der en opgave hver uge med hovedfokus på en mere sammenhængende analyse af relevante datasæt fra studier omhandlende gen-ekspression, genomisk data og fra forskellige ”high through-put” metoder. Målet er således at de studerende får opbygget et fundament, der vil gøre det muligt at arbejde uafhængigt på egne datasæt og projekter.
OBS: For studerende med interesse for økologiske datasæt anbefales kurset ”Økologisk dataanalyse med R”. Det anbefales ikke, at man tager begge kurser.
Dette kursus indeholder bl.a.:
- Import, oprydning og klargøring af biologiske datasæt vha. R-pakkerne fra Tidyverse.
- Fremstilling af figurer vha. Tidyverse-pakken ggplot2, med henblik på publicering og/eller præsentation.
- Brug af R-markdown til at skrive, gemme og køre R-kode, samt fremstilling af rapporter som kan deles med andre.
- Anvendelse af statiske metoder for at støtte analyseringsprocessen og drage hensigtsmæssige konklusioner ud fra resultaterne.
- Implementering af reproducerbar dataanalyse vha. funktioner og iteration (Tidyverse pakke purrr)
- Tidyverse baseret implementering af statistiske analysemetoder til bl.a. visualisering af trends og testning af hypoteser.
- Brug af clustering metoder og algoritmer, samt principal component analyse (PCA) til at lave effektiv visualisering af genomisk data.
- Brug af plots som metode til at vurdere eksperimental design og mulige artefakter
- Forståelse af baserende begreber fra maskinlæring og anvendelse af krydsvalidering indenfor den Tidyverse ramme til at evaluere en simpel klassificeringsmodel
- Afhængig af tid: præsentation af datasæt i en app vha. Tidyverse pakken Shiny
Data Analysis and Visualization for Biological Datasets
Bacheloruddannelsen i biokemi
Bacheloruddannelsen i biologi
Kursets læringsmål er at give de studerende viden og færdigheder
til at analysere biologiske datasæt og visualisere resultaterne af
analyserne samt at kunne dokumentere analysen og gøre den
producerbar.
Viden:
Ved afslutningen af kurset, er de studerende i stand til at:
- Kende og benytte relevante statistiske analysemetoder for biologiske datasæt.
- Kende og benytte god praksis for reproducerbar dataanalyse.
- Kende og benytte basale regler til effektiv data visualisering.
Færdigheder:
Ved afslutningen af kurset, er de studerende i stand til at:
- Anvende R og R pakker til dataanalyser.
- Kode enkle R funktioner og anvende iteration til at gøre dataanalyse reproducerbar.
- Benytte R markdown til at dokumentere deres dataanalyser.
- Benytte R til at plotte og visualisere data.
Kompetencer:
Ved afslutningen af kurset, er de studerende i stand til at:
- Udføre en statistisk korrekt, reproducerbar og veldokumenteret analyse af et biologisk datasæt.
- Visualisere resultater af dataanalyse så disse effektivt gengiver de vigtigste resultater.
Hybrid mellem forelæsninger og computer øvelser. Kurset har en ’learning-by-doing’ tilgang. Online video tutorials og kursus notater vil introducere teori og praktik, mens at der i, selve undervisningstimerne vil være fokus på at lave øvelser, helst indenfor små arbejdsgrupper, og få gennemgået øvelserne efterfølgende. I løbet af kurset vil der også være quizzes, der sørger for at de studerende har forstået emnerne fra uge til uge.
Se Absalon.
Det forventes at de studerende har bestået et kursus i statistik og har basalt kendskab til R, svarende til enten Matematik/Statistik for biologer, Statistik for biokemikere (StatBK) eller lignende. Indholdet af dette kursus overlapper til dels med pensum i kurset ”Økologisk dataanalyse med R” og det anbefales ikke for studerende at tage begge kurser.
Kurset er identisk med det nedlagte kursus NBIB20001U
Visualisering af biologiske datasæt. Du kan altså ikke kan tage
NBIB21000U - Analyse og visualisering af biologiske datasæt, hvis
du allerede har bestået NBIB20001U Visualisering af biologiske
datasæt.
Hvis du er registreret med eksamensforsøg i NBIB20001U
Visualisering af biologiske datasætuden at bestå, skal du bruge
dine sidste eksamensforsøg på at bestå eksamen i NBIB21000U -
Analyse og visualisering af biologiske datasæt. Du har i alt tre
eksamensforsøg.
Individuel feedback på pre-tests.
- ECTS
- 7,5 ECTS
- Prøveform
-
Skriftlig stedprøve, 4 timerLøbende bedømmelse, Quizzer på Absalon
- Prøveformsdetaljer
- Eksamen består af en praktisk analyse af et datasæt, som den
studerende vil lave i Rmarkdown og aflevere i html form.
Karaktergivning er baseret på analysens reproducerbarhed, relevans
og kvaliteten af præsentationen af analysen. De studerende vil få
forskellige delmængder af et større datasæt at analysere.
Instituttet afholder selv denne eksamen og stiller ikke computer til rådighed.
Derudover vil løbende bedømmelse udgøre 15% af den samlede karakter. For at få den fulde 15% skal den studerende demonstrere, at de laver et forsøg på de fleste af quizzerne, samt at de deltager i peerfeedback-systemet i forbindelse med nogle af workshop opgaver.
Løbende bedømmelse tæller 15%, af den samlede karakter
Den skriftlige prøve tæller 85%, af den samlede karakter - Hjælpemidler
- Alle hjælpemidler tilladt
- Bedømmelsesform
- 7-trins skala
- Censurform
- Ingen ekstern censur
Flere interne bedømmere.
- Reeksamen
-
Samme som ordinær eksamen.
Kriterier for bedømmelse
For at opnå karakteren 12, skal den studerende overbevisende og præcist kunne demonstrere viden, færdigheder og kompetencer som beskrevet under målbeskrivelsen.
Enkeltfag dagtimer (tompladsordning)
- Kategori
- Timer
- Forelæsninger
- 32
- Forberedelse (anslået)
- 129
- Praktiske øvelser
- 32
- Eksamensforberedelse
- 9
- Eksamen
- 4
- Total
- 206
Kursusinformation
- Undervisningssprog
- Dansk
- Kursusnummer
- NBIB21000U
- ECTS
- 7,5 ECTS
- Niveau
- Bachelor
- Varighed
-
1 blok
- Placering
- Blok 4
- Skemagruppe
-
B
- Kapacitet
- Ingen begrænsning – medmindre du tilmelder dig i eftertilmeldingsperioden (BA og KA) eller som merit- eller enkeltfagsstuderende.
- Studienævn
- Studienævn for det Biologiske Område
Udbydende institut
- Biologisk Institut
Udbydende fakultet
- Det Natur- og Biovidenskabelige Fakultet
Kursusansvarlig
- Jeppe Vinther (8-707c6f747a6e6b7846686f7534717b346a71)
Er du BA- eller KA-studerende?
Kursusinformation for indskrevne studerende