
Genomische Datenanalyse SoSe2003
Verständnisfragen zu den einzelnen Kapiteln der Vorlesung
Diese Fragen werden nicht bewertet und auch nicht offiziell abgefragt, aber Sie können hier ihr Verständnis der Vorlesung testen. Vielleicht kommen einige der Fragen ja auch mal in den Übungen dran ...
Kapitel: 1 - 2 - 3 - 4 - 5 - 6 - 7 - 8 - 9 - 10 - 11 - 12 - 13 - 14 - 15 - 16 - 17
| Kapitel 1 - Shakespeare, Goethe und das Genom |
- Erklären Sie die Begriffe: Häufigkeit, Relative Häufigkeit, Barplot, Scatterplot, Korrelation, Scheinkorrelation, Trenngerade.
- Nennen Sie Unterschiede zwischen zufälligen Buchstabenreihen ("der Affe auf der Schreibmaschine") und literarischen Texten oder genomischen Sequenzen.
- Was ist der Unterschied zwischen relativen und absoluten Häufigkeiten? Was müssen Sie bei der Verwendung absoluter Häufigkeiten beachten?
- Wie bringen Sie einem Computer bei, Shakespeare-Sonette von Goethe-Gedichten zu unterscheiden? Beschreiben Sie ein Verfahren in drei Schritten.
- In der Vorlesung hieß es: "Die Anzahl von A und E korreliert mit der Länge des Gedichts". Kann man aus Korrelation auf einen kausalen Zusammenhang schließen?
| Kapitel 2 - Der vierseitige DNA-Würfel I |
- Erklären Sie die Begriffe: Wahrscheinlichkeit, Zufallsexperiment (Wahrscheinlichkeitsmodell), Ereignis, Elementarereignis, Laplace Modell, Wahrscheinlichkeitsvektor, Likelihood, Signifikanz, Likelihood Ratio, Histogram, Log-Plot.
- Früher war man der Meinung, daß die DNA mit ihren nur vier Bausteinen nicht komplex genug sein kann, um Lebewesen wie den Menschen beschreiben zu können. Kommentieren Sie das.
- Wieviele verschiedene DNA Sequenzen der Länge 10 kann es geben? Wenn Sie zwei Sequenzen der Länge 10 auswürfeln, was ist die Wahrscheinlichkeit, daß beide identisch sind?
- Welche der folgenden Vektoren sind Wahrscheinlichkeitsvektoren: a = (0, 1, 0, 0), b = (.4, .4, .5, -.3), c = (32/36, 1/36, 2/36, 1/36), d = (1/4, 3/8, 2/12, 4/24).
- Welche Wahrscheinlichkeit hat die Sequenz AAATTGCTGG, wenn der Wahrscheinlichkeitsvektor für (A,C,G,T) gegeben ist durch (.25, .25, .25, .25) oder (.1, .5, .2, .2)?
- Wie beschreibt man eine Gerade im Log-Plot?
| Kapitel 3 - G-Protein gekoppelte Rezeptoren |
- Erklären Sie die Begriffe: Mittelwert, Median, Modus, Streuung, Varianz, Standardabweichung, Ausreißer, robust, Quartil, Quantil, Boxplot, Fn-Plot, Fenster, Moving Average.
- Wann stimmen Median, Mittelwert und Modus überein? Wie verhalten sich die drei Werte in einer unimodalen und unsymmetrischen Verteilung?
- Der Boxplot beschreibt Eigenschaften der Verteilung, aber nicht wieviele Beobachtungen zugrunde liegen. Wie kann man die Darstellung verändern, um auf unterschiedliche Anzahl der Beobachtungen aufmerksam zu machen?
- Beim Moving Average wird der Mittelwert innerhalb eines "gleitenden Fensters" berechnet. Welche Probleme treten an den Rändern der Beobachtungsreihe auf? Schlagen Sie eine Lösung vor.
- Sie haben die Varianz als Maß für die Streuung um den Mittelwert kennengelernt. Schlagen Sie ein anderes sinnvolles Streuungsmaß vor.
| Kapitel 4 - Computerproteine |
- Erklären Sie die Begriffe: Zufallsvariable, Realisierung, Verteilung (Daten, Zufallsvariable), Dichteplot, Verteilungsfunktion, Erwartungswert, Varianz (Daten, Zufallsvariable), Signifikanz.
- Die Begriffe Median und Quantil kennen Sie für beobachtete Werte. Wie lautet die äquivalente Definition für Zufallsvariablen?
- Beim Berechnen der Varianz braucht man oft folgende Formel: var(X) = E(X^2) - (EX)^2. Leiten Sie das aus der Definition der Varianz ab.
- Wenn die Zufallsvariable X die Varianz sigma^2 hat, welche Varianz hat dann Y = aX + b?
- Was ist der Unterschied zwischen einer Zufallsvariable X und ihrer Realisation x?
| Kapitel 5 - Splice Stellen |
- Erklären Sie die Begriffe: Likelihood, Likelihood-Ratio, Score, Lemma von Borel-Cantelli, Statistische Inferenz, Hypothesengenerierung.
- Sie sollen entscheiden, ob eine kurze DNA Sequenz eine Splice Stelle enthält oder nicht. Welche vier Situationen sind in bezug auf ihre Entscheidung und die biologische "Wahrheit" möglich?
- Welche dieser Situationen sind im Beispiel in der Vorlesung vorgekommen? Überlegen Sie sich, wie in diesem Kontext die anderen Situationen aussehen müssten.
- In der Vorlesung wurde der Übergang von der LR zur LLR numerisch begründet. Welche Eigenschaft der Logarithmusfunktion ist (unabhängig davon) für dieses Vorgehen unerlässlich?
- Welches Vorzeichen hat der Score einer Beobachtung, wenn diese Beobachtung unter dem Nullmodell wahrscheinlicher ist als unter der Alternative?
| Kapitel 6 - Globine in Menschen und Ratten |
- Erklären Sie die Begriffe: abhängige Zufallsvariablen, unabhängige Zufallsvariablen, bedingte Wahrscheinlichkeit, gemeinsame Verteilung, Randverteilung, Übergangsmatrix.
- Rechne nach: P(X=x|Y=y) = P(Y=y|X=x)P(X=x)/P(Y=y)
- Rechne die gemeinsame Verteilung der ZV X und Y auf Folie 24 (unten) nach.
- Rechne die gemeinsame Verteilung der ZV X , Y und Z sowie die Randverteilung von Z auf Folie 38 nach.
- Kapitel 6, Folie 35: Die Verteilung q der Zufallsvariable Y ergibt sich als Produkt der Übergangsmatrix T und des Vektors p (Verteilung der Zufallsvariable X). Beweisen Sie diese Behauptung durch Nachrechnen.
| Kapitel 7 - Mehr über konservierte Sequenzen |
- Erklären Sie die Begriffe: Bernoulliverteilung, Erfolgsparameter, Binomialverteilung, geometrische Verteilung, Randeffekte, Poissonverteilung, Intensität, seltene Ereignisse, Poissonapproximation, Headruns, Declumping, Large scale Effekt
- Zeige: Für eine bernoulliverteilte ZV X mit Parameter p gilt: E[X] = p und Var[X] = p(1-p)
- Rechnen Sie den Erwartungswert und Varianz der Länge eines Startruns nach (Folie 19 der Vorlesung). Hilfreich dabei: Übungsblatt zu Erwartungswerten und Varianzen.
- Berechne Erwartungswert und Varianz der Poissonverteilung. Erklären Sie den Zusammenhang zur Binomial- und Bernoulliverteilung.
- Den Binomialkoeffizienten (n über k) liest man auch als (k aus n). Erklären Sie, warum er gerade die Anzahl der Möglichkeiten angibt, k Objekte aus n Objekten auszuwählen.
| Kapitel 8 - Genexpressionsmessungen |
- Erklären Sie die Begriffe: kontinuierliche Zufallsvariablen und deren Verteilungsfunktion, Dichte, Erwartungswert und Varianz, Standardisierung, Standardeinheiten, Normalverteilung, Überlagerungen von Zufallsgrößen, Normalapproximation, Zentrale Grenzwertsätze, Normal-QQ-Plot, parametrisierte Familie von Verteilungen, Normalverteilung , Gleichverteilung
- Erläutern Sie schematisch den Weg von der Gewebeprobe bis zum numerischen Expressionsprofil in einem Microarray-Experiment.
- Wie verhält sich die Verteilungsfunktion zur Dichte einer Zufallsvariablen?
- Warum erwartet man beim Normal-Q-Q-Plot eine Gerade, wenn man aus einer beliebigen Normalverteilung gezogen hat? Unter welchen Bedingungen ist diese Gerade die Hauptdiagonale?
- Schreiben Sie die Dichte der approximativen Verteilung einer Summe von iid Zufallsvariablen auf. Erläutern Sie die Parameter.
| Kapitel 9 - Korrelation und lineare Regression |
- Erklären Sie die Begriffe: Korrelation, Regression, Regressionsgerade, Residuen, Konfidenzintervall, Prognoseintervall, Störgrößen.
- Zeigen Sie: unabhängige Zufallsvariablen sind auch unkorreliert.
- Was ist der Unterschied zwischen der empirischen Kovarianz und dem Pearsonschen Korrelations-Koeffizienten?
- Was ist das "Einfache" an der einfachen linearen Regression?
- Wie benutzt man die Residuen zur Beurteilung/Diagnose des Regressionsmodells?
| Kapitel 10 - Lokale Sequenzähnlichkeit |
- Erklären Sie den Begriff: Extremwertverteilung
- Erklären Sie die Analogie zwischen dem Score für Sequenzähnlichkeit und dem Score für Splicestellen aus Kapitel 5.
- Veranschaulichen Sie sich die Bedeutung der beiden Parameter der Extremwertverteilung.
- Sei W die Anzahl von Scores größer als ein bestimmter Threshold t. Welche Verteilung hat W? Wie simulieren Sie diese Verteilung?
- Sei F(t) die Verteilungsfunktion der Extremwertverteilung. Warum ergibt sich eine Gerade, wenn man t gegen log(log F(t)) aufträgt? Welche Steigung und welchen Achsenabschnitt hat sie? (Seite 39)
| Kapitel 11 - Datenbanksuche mit BLAST |
- Erklären Sie die Begriffe: Large scale Effekte in Datenbanksuchen, Nullmodelle, p-Value, bedingter p-Value, stochastischer Score, Mischung von Verteilungen
- Erklären Sie den Unterschied zwischen dem Range (der Spannweite) von Daten und ihrer Streuung.
- Rechnen Sie die Verteilungsfunktion für die längenkorrigierten Scores A_i aus.
- Warum ist die Verteilung von H^max abhängig von der Länge der Datenbank in Basen L, während die von A^max von der Anzahl der Sequenzen N abhängig ist?
- Der p-value bei einer BLAST-Suche ist eine Wahrscheinlichkeit. Welches Ereignis hat diese Wahrscheinlichkeit und welches Ereignis hat die Wahrscheinlichkeit 1-p ?
| Kapitel 12 - Von den Genen zu den Modellen |
- Erklären Sie die Begriffe: Schätzer, Gesetz der großen Zahlen, Sample (Stichprobe), Population, Standardfehler, Mean Squared Error des Schätzers, Varianz des Schätzers, Bias, erwartungstreu, Effizienz, Assymptotische Varianz, n-tes Moment einer Zufallsvariablen, Momentenschätzer, Likelihoodfunktion, Maximum-Likelihood-Schätzer
- Welchen Unterschied gibt es zwischen Theta mit und ohne Hut? Wie messen Sie den Abstand zwischen einem Parameter und seinem Schätzer?
- Begründen Sie: Wiederholtes Messen erhöht die Präzision im Vergleich zu Einzelmessungen. Wie verhält sich der Standardfehler zur Standardabweichung einer Einzelmessung? Rechnen Sie das nach!
- Gegeben seien 11 Beobachtungen. Wieviele davon müssen Ausreisser sein, um den Mittelwert der Beobachtungen zu verzerren? Wie ist das beim Median? (Man nennt diese Anzahl den break-down point.)
- Sei F(t) die Verteilungsfunktion der Extremwertverteilung. Wie gewinnen Sie aus dem Graphen t gegen log(log(F(t))) Schätzer für die Parameter der Extremwertverteilung?
| Kapitel 13 - Diagnostische Markergene |
- Erklären Sie die Begriffe: Klassifikation, Entscheidungsfunktion, kritischer Wert, Trainingsdaten, Testdaten, Trainingsfehler, Testfehler, Generalisierung, Overfitting, Bayesklassifikator, Bayesfehler
- Warum kann eine höhere diagnostische Auflösung zu einem höheren Therapieerfolg führen? Wann tut sie das nicht?
- Motivieren Sie die Normalverteilungsannahme für die Expression eines Gens.
- Rechnen Sie die Formel für den kritischen Wert x0 auf Folie 21 nach. Gegeben ein kritischer Wert, schreiben Sie die Entscheidungsfunktion zur Diagnose zukünftiger Patienten auf.
- Beeinflusst die Wahl von Test und Trainingsdaten (1.) den Trainingsfehler, (2.) den Testfehler und (3.) den Bayesfehler?
| Kapitel 14 - Diagnostische Signaturen |
- Erklären Sie die Begriffe: Trenngerade, Normalenvektor, Offset, diagnostische Signatur, Zentroid, nearest centroid classifier, Diagonal Linear Discriminant Analyis (DLDA), Kovarianzmatrix (empirisch + theoretisch), to sphere the data, multivariate Normalverteilung, Höhenlinien, Linear discriminant Analysis (LDA)
- Schreiben Sie die Entscheidungsfunktion des Nearest Centroid Classifiers (Folie 16) in einer Formel auf.
- LDA ist flexibler als DLDA ist flexibler als Nearest Centroid. Trotzdem kann Nearest Centroid eine höhere Generalisierungsfähigkeit haben als LDA. Warum?
- Für alle drei Klassifikationsmethoden berechnet sich der Likelihood-ratio nach der gleichen Formel (Folie 46). Worin unterscheiden sich die drei Methoden?
- Wie sieht der Likelihood-ratio auf Folie 46 aus, wenn die Wechselwirkungen zwischen den Genen in den beiden Klassen unterschiedlich sind?
- Erklären Sie die Begriffe: Regularisierung, Variablenselektion, baseline correction, centroid shrinkage, Devianz, model selection, selection data, 10-fold Cross Validation, Leave-one-out CV, Model assessment
- Welchen Trainingsfehler erwarten Sie bei der linearen Trennung von Microarray-Daten?
- PAM implementiert eine sanfte Form der Variablenselektion. Wie wählen Sie einen geeigneten Shrinkage-Parameter?
- Beschreiben Sie die Graphik auf Folie 50 in eigenen Worten.
- Ein Problem aus der Praxis: Sie als Bioinformatiker haben ein gut generalisierendes Modell mit 4 Genen gefunden. Ihr Kooperationspartner aus einem biologischen Labor argumentiert, dass vier Gene viel zu wenig sind. Er wisse aus der Fachliteratur, dass mindestens 42 Gene eine wichtige Rolle spielen. Er schlägt vor, ein Modell mit 40-50 Genen zu wählen. Wie reagieren Sie?
| Kapitel 16 - Klassifikation mit Support Vector Machines |
- Erklären Sie die Begriffe: Generalisierungsfähigkeit, trennende Hyperebene, Trennspanne, Lagrange-Ansatz, Support Vector (Stützvektor), Kernel-Funktion.
- Geben Sie eine intuitive Begründung, warum eine größere Trennspanne auf eine höhere Generalisierungsfähigkeit hoffen läßt.
- Man kann sich Kernel-Funktionen als "nichtlineares Ähnlichkeitsmaß" vorstellen. Erklären Sie, was das bedeutet.
- Stellen Sie sich folgende Situation vor: die Anzahl der Punkte aus der positiven Klasse ist viel, viel größer als die Anzahl der negativen Punkte. Welches Problem tritt auf? Schlagen Sie eine Lösung vor.(Tip: Denken Sie an das Fehlergewicht C.)
- SVM trennen zwei Klassen voneinander. In der Praxis zerfallen die Daten aber oft in mehr als zwei Klassen. Wie kann man einen binären Klassifikator für Probleme mit vielen Klassen verwenden?
| Kapitel 17 - Differentielle Genexpression |
- Erklären Sie die Begriffe: t-Test, t-Verteilung, Nullhypothese, Alternative, Teststatistik, p-value, Signifikanzniveau, Fehler 1. Art
- Was ist der Unterschied zwischen einem t-Test und der Variablenselektion mit der t-Statistik im Rahmen der Klassifikation?
- Welche Voraussetzungen macht der t-Test? Was bedeutet das für seine Anwendung in der Praxis?
- Zeigen Sie: bei der Welch-Approximation (Folie 30) ist es für die Anzahl der Freiheitsgrade egal, wie die Klassen A und B gewählt werden.
- Wir testen auf dem 5%-Niveau gleichzeitig 1000 Gene auf differentielle Expression und lehnen 50 mal die Nullhypothese ab. Überrascht Sie dieser Ausgang? Erläutern Sie!