Lectures by the Computational Molecular Biology Department at the Max Planck Institute for Molecular Genetics

Analyse von DNA-Microarrays SoSe2004

Praktikum und Seminar für Masters-StudentInnen


Microarrays haben sich in den letzten Jahren zu einem der wichtigsten Technologien in der Molekularbiologie entwickelt. Die Datenanalyse für solche Experimente bleibt weiterhin eine Herausforderung für die Bioinformatik. Die hohe Komplexität des untersuchten Materials (mRNA-Populationen) und der Microarray-Technologie bieten viel Raum für Verbesserungen und Neuentwicklungen von Methoden. Darüber hinaus findet die Arraytechnologie auch breitere Anwendung in Gebieten jenseits der Genexpressionsanalyse. Hierzu zählen unter anderem die Untersuchung alternativer Spleißformen von Genen, die Suche nach chromosomalen Abberationen und die Identifikation von Transkriptionsfaktorbindungsstellen.

Speichern der Vorträge (pdf, ppt) auf dem Server






Praktikum
Seminar
Nr. 19718
19 719
SWS 4
2
Credits 9
3
Termine nach Absprache
der Teilnehmer
Mi. 16:15-17:45
Betreuer Martin Vingron,
Stefan Röpcke, Holger Klein (Seminar)

Praktikum


Thema: Entwicklung eines Verfahrens zur Identifikation chromosomaler Aberrationen in Tumorzellen


Voraussetzungen: Microarray-Vorlesung oder vergleichbare Leistungen

Daten (Input)

  • Genexpressionsstudien von Tumorzellen (Vorschlag: Datensatz des St. Judes Childrens Hospital)
  • Chromosomale Lokalisation der Gene
  • Studiendesign (paarweise, Gruppen, ...)

Output

  • Visualisierung der mittleren Genexpression entlang chromosomaler Regionen
  • Liste von interessanten Regionen (potenziell trunkiert bzw. amplifiziert)
  • Statistische Absicherung der Resultate

Vorgehen

  1. Die Expressionswerte werden mit Hilfe des Statistikpackets R vorverarbeitet und normiert. Um eine breite Einsetzbarkeit zu gewährleisten, sollte das Laden von und Verarbeiten von Daten unterschiedlicher Formate möglich sein.
  2. Anschliessend werden die Expressionsdaten für eine Tumorentität auf die Chromosomen abgebildet und entsprechend des Studiendesigns visualisiert.
  3. Chromosomale Regionen auffälliger Expression sollen identifiziert und statistisch bewertet werden. Im Prinzip betrachten wir das Genom als Sequenz von Expressionswerten (anstelle von Basenpaaren) und versuchen zusammenhängende Bereiche hoher bzw. niedriger Expression zu identifizieren.
  4. Mit Hilfe der HMM-Bibliothek der Gruppe von Alexander Schliep lassen sich chromosomalen Regionen mit erhöhter bzw. verringerter Genexpression modellieren. 
  5. Methodisch interessanter als die Suche nach z.B. CpG-Inseln, wird das Ganze durch die Abhängigkeit des HMMs von den Abständen zwischen Genen (Stichwort: inhomogene Markovkette).
Wichtige Teilaufgaben
  1. Laden von Daten unterschiedlicher Formate.
  2. Normalisierung
  3. Visualisierung, dem Design entsprechend (Was genau sollte man darstellen?)
  4. Statistische Bewertung, dem Design entsprechend (Was genau will man zeigen?)
  5. Modellierung des Problems als HMM
  6. Integration der Software


Abgabe bei Stefan Röpcke
Seminar
  • Das Seminar findet im Max-Plank-Institut für molekulare Genetik (Ihnestrasse 63), mittwochs 16 Uhr c.t. statt.
  • Anwesenheit gebietet die Höflichkeit (siehe Scheinkriterien).
  • Die Seminare sollen vorallem dazu dienen, das Vortragen zu lernen. Es besteht die Möglichkeit, den Vortrag mit einer Videokamera aufzunehmen.

Seminarplan

Datum Thema Vortragende(r)
14.4. Vorbesprechung  
22.4. Zellzyklus in Hefe
Mathias Maneck
28.4. Analyse von alternativem Spleißen mit Hilfe von Microarrays Kawe Yoocef
5.5. Bayesian Decomposition (Chapter 17)
Ole Schulz-Trieglaf
12.5. GeneClust (Chapter 15)
Mathias Maneck
19.5. Xin Lu et al., Statistical resynchronization an Bayesian detection of periodically expressed genes.
Sebastian Schmeier
26.5. 18 Uhr: Vorstellung der Projekte
Bachelor-Studenten
2.6. BCB-Meeting (no seminar)

9.6. Adaptive Gene Picking (Chapter 13)
Sven Mielord
16.6. Parametric Empirical Bayes Methods for Microarrays (Chapter 11)
Jörn Tödling
23.6. topic still open
Matthias Heinig
30.6. POE - Statistical Methods for Qualitative Analysis of Gene Expression (Chapter 16)
Benjamin Rich
7.7. SAM thresholding and False Discovery Rates for Detecting Differential Gene Expression in DNA Microarrays
David Rozado
14.7. topic open / Bair E, Tibshirani R.: Semi-Supervised Methods to Predict Patient Survival from Gene Expression Data
Petko Fiziev / Benjamin Georgi

Scheinkriterien

Praktikum
  • Lauffähiges (am MPI), ausgetestetes Programm
  • Präsentation der Arbeit
  • Ausarbeitung inklusive der Dokumentation des Programms

Seminar

  • Anwesenheit
  • 45 minütiger Vortrag

Literatur and Materialien

Zum Praktikum

  • Datensatz (vorläufig: ALL-Daten vom St. Judes Kinderkrankenhaus)
    • Projektverzeichnis: /project/sopra04/genome_sentinel
    • Web-Seite: http://www.stjuderesearch.org/data/ALL1/
    • Die vorverarbeitete Datenmatrix ist bis zum 15. 5. hier zur Verfügung.
    • Die Annotation für das verwendete Microarray ist in Bioconductor zu finden.
    • ? Eine schwerwiegende Frage ist noch das Hintergrundmodell (Normalproben, ...)
  • Softwarebibliothek ghmm Wiki-Seite
  • Python-Frontend für ghmm (Umgebung)
  • W. N. Venables, B. D. Ripley: S Programming, Springer 2000
  • Statistical software package R homepage
  • Erstellung neuer Packete, Integration von R und C Dokumentation
  • Beispielprogramm in dem der Zugriff aus R über ein C-Programm auf die ghmm-Bibliothek demonstriert ist.
  • Bioconductor homepage (Sammlung spezieller Funktionen zur Microarrayanalyse)

Zum Thema

Links

Homepage der Abteilung Computational Molecular Biology am Max-Plack-Institut für Molekulare Genetik.

Zum Studiengang Bioinformatik an der FU Berlin.

 

Anmerkungen und Fragen zu dieser Seite bitte an Stefan Röpcke. Letzte Änderung: 25. 3. 2004