Max Planck Institute for Molecular Genetics
Max Planck Institute for Molecular Genetics - Ihnestraße 73 - 14195 Berlin - Germany - Phone: (+49 30) 8413 0 - Fax: (+49 30) 8413 1388

[home] [contact]
[search]

  Computational Molecular Biology    Computational Diagnostics Group

Genomische Datenanalyse SoSe2003

19 701 Einführung in die Statistik für Bioinformatiker

Vorlesung Übungen
SWS 4 2
Credits 4 4
Raum Takustr.9
SR 005
MPI-MG
Ihnestrasse 63
PC Pool 3. Stock
Dozent Rainer Spang Stefanie Scheid
Dennis Kostka
Florian Markowetz

Neu + wichtig

>> Musterlösung der Klausur

>> Noten für den Vorlesungs- und den Übungsschein

Beschreibung

Die Vorlesung gibt eine Einführung in die statistische Analyse genomischer Daten. Neben der Entwicklung theoretischer Grundlagen steht vor allem der praktische Umgang mit realen Daten im Vordergrund. Hierzu wird von Beginn an das Auswerten von Datensätzen aus der Bioinformatik mit der statistischen Software R demonstriert und geübt.

Termine

Vorlesung   
  DI8:30 - 10:00
DO8:30 - 10:00
Präsenzübungen 
MI10:30 - 12:00
MI12:15 - 13:45
FR10:30 - 12:00

Programm der Vorlesung

Kapitel Thema Statistik
0 Vorbesprechung
1 Shakespeare, Goethe und das Genom Relative Häufigkeiten
2 Der vierseitige DNA-Würfel I Zufallsexperimente
3 G-Protein gekoppelte Rezeptoren Mittelwert und Streuung
4 Computerproteine Zufallsvariablen
5 Splice-Stellen Likelihood
6 Globine in Menschen und Ratten Bedingte Wahrscheinlichkeit
7 Mehr über konservierte Sequenzen Diskrete Verteilungen
8 Genexpressionsmessungen Kontinuierliche Verteilungen
9 Korrelation und Lineare Regression Lineare Regression
10 Lokale Sequenzähnlichkeit Extremwertverteilung
11 Datenbanksuche mit BLAST Signifikanz
12 Von den Genen zu den Modellen Schätzen
13 Diagnostische Markergene Klassifikation
14 Diagnostische Signaturen Lineare Diskriminanzanalyse
15 Microarrays Variablenselektion
16 Klassifikation mit Support Vector Machines Large-margin hyperplanes, Kernel trick
17 Differentielle Genexpression Statistisches Testen

>> Liste mit Verständnisfragen zu den einzelnen Vorlesungen.

Übungen und Projekte

Die Übungen gliedern sich in zwei Bereiche:

>> Projekte

>> Übungen

>> Einteilung der Übungs- und Projektgruppen

Programmieren in R

Wir werden sowohl in der Vorlesung als auch in den Übungen und Hausaufgaben die Programmiersprache R verwenden. R ist sowohl Programmiersprache als auch ein statistisches Programmpaket inklusive vieler Routinen zur Datenvisualisierung.  Sie können R kostenlos von http://www.r-project.org/ erhalten und auf Ihrem Rechner installieren.

Nicht nur die Software, auch die Handbücher und Tutorials sind umsonst: An Introduction to R ist auf 100 Seiten die offizielle Einführung in die Sprache R. Wer lieber auf deutsch liest, sollte in Günther Sawitzkis Einführung in S schauen (R = Gnu S). Bücher zu R gibt es auch, besonders empfehlenswert ist: Peter Dalgaard, Introductory Statistics with R, Springer 2002.

Scheinkriterien
Projekte:
Die klassischen wöchentlichen Hausaufgaben wird es nicht geben. Sie sollen nach dem Besuch dieser Vorlesung in der Lage sein, selbst praktisch Daten auszuwerten. Wir geben deshalb insgesamt 4 Blätter mit praktischen Projekten aus. In diesen Projekten werten Sie jeweils einen genomischen Datensatz mit Hilfe von R aus. Ein Großteil der Arbeit wird in selbstständigem Programmieren bestehen. Die Projekte werden in Gruppen von jeweils drei Studenten bearbeitet. Am Ende fertigen Sie ein ausführliches Protokoll an. Für den Übungsschein brauchen Sie in allen Projekten mindestens die Hälfte der zu erreichenden Punktzahl. Die Gesamtnote wird aus der Summe der Punkte ermittelt. Es sind zwar nur 4 Projekte, aber die sind relativ arbeitsintensiv. Fangen Sie also frühzeitig mit der Bearbeitung der Projekte an.
Klausur:
Termin: Dienstag 29. Juli, 10:00 bis 12:00. Ort: Hörsaal 001, Arnimallee 3. Voraussetzung ist der Übungsschein. Wer die Klausur besteht, erhält den Vorlesungsschein.
Literatur

Die Folien aus der Vorlesung werden auf dieser Webseite abgelegt. Ein Skript gibt es nicht.

Allgemeine Lehrbücher der Statistik sind viele geschrieben worden, aber keines, das der Ausrichtung dieser Vorlesung entspricht. Trotzdem gibt es natürlich viel Literatur, die Sie begleitend zur Vorlesung lesen können und so Statistik noch einmal aus einem anderen Blickwinkel erklärt zu bekommen. Sie sollten selbst in die Bibliothek stöbern gehen und sehen was Ihnen am besten gefällt. Trotzdem einige Empfehlungen:

- Motivation -

Martin Vingron
Bioinformatics needs to adopt statistical thinking
Bioinformatics, Vol.17 Nr.5 2001, pages 389-390 [PDF]

- Einführende Literatur -

Werner A. Stahel
Statistische Datenanalyse - Eine Einführung für Naturwissenschaftler
Vieweg

Empfehlenswertes deutschsprachiges Lehrbuch. Deckt den Großteil der Vorlesungsinhalte gut ab.

Freedman, Pisani, Purves
Statistics
W.W. Norton

Ein Klassiker. Dieses Buch ist auf elementarsten mathematischen Niveau und gibt trotzdem eine sehr tief gehende Einführung in statistisches Denken. Für jeden verständlich und für niemanden langweilig. Wer sich vor englischen Büchern nicht scheut, sollte dieses lesen.

Donald A  Berry
Statistics. A Bayesian Perspective
Wadsworth

Genauso elementar wie Freedman, Pisani, Purves aber aus einem völlig anderen Blickwinkel geschrieben gibt dieses Buch eine leicht verständliche Einführung in die Statistik der Bayesschen Schule.

- Weiterführende Literatur -

Deborah Nolan, Terry Speed
Stat Labs
Springer Texts in Statistics

Dieses englische Buch ist ähnlich aufgebaut wie die Vorlesung. Jedes Thema wird anhand eines praktischen Datenanalyseproblems eingeführt. Die Beispiele stammen meist nicht aus der Bioinformatik. Die Auswahl der statistischen Inhalte ist auch nicht auf einen Bioinformatikstudiengang ausgerichtet und sind im Durchschnitt schwieriger als in der Vorlesung. Trotzdem eines der schönsten Statistikbücher auf dem Markt.

Warren J. Ewens, Gregory R. Grant
Statistical Methods in Bioinformatics
Springer

Das unseres Wissens einzige Statistikbuch, das sich direkt an Bioinformatiker richtet. Setzt aber weit mehr Mathematik voraus als die Vorlesung. Ideal für alle, die sich in der Vorlesung unterfordert fühlen.

Bernard W. Lindgren
Statistical Theory
Chapman and Hall

Ein klassisches Statistik-Buch für Statistiker. Wer immer noch Langeweile hat ...
Links

Homepage der Gruppe Computational Diagnostics der Abteilung Computational Molecular Biology am Max-Plack-Institut für Molekulare Genetik.

Der Studiengang Bioinformatik an der FU Berlin.

 

Anmerkungen und Fragen zu dieser Seite bitte an Dennis Kostka.

Valid HTML 4.0! Valid CSS!