Der Likelihood-Quotienten-Test (kurz LQT), auch Plausibilitätsquotiententest (englisch likelihood-ratio test), ist ein statistischer Test, der zu den typischen Hypothesentests in parametrischen Modellen gehört. Viele klassische Tests wie der F-Test für den Varianzenquotienten oder der Zwei-Stichproben-t-Test lassen sich als Beispiele für Likelihood-Quotienten-Tests interpretieren. Einfachstes Beispiel eines Likelihood-Quotienten-Tests ist der Neyman-Pearson-Test.

Definition

Formal betrachtet man das typische parametrische Testproblem: Gegeben ist eine Grundmenge von Wahrscheinlichkeitsverteilungen P θ {\displaystyle P_{\theta }} , abhängig von einem unbekannten Parameter θ {\displaystyle \theta } , der aus einer bekannten Grundmenge Θ {\displaystyle \Theta } stammt. Als Nullhypothese H 0 {\displaystyle H_{0}} soll getestet werden, ob der Parameter zu einer echten Teilmenge Θ 0 {\displaystyle \Theta _{0}} gehört. Also:

H 0 : θ Θ 0 {\displaystyle H_{0}\colon \theta \in \Theta _{0}} .

Die Alternative H 1 {\displaystyle H_{1}} lautet entsprechend:

H 1 : θ Θ 1 {\displaystyle H_{1}\colon \theta \in \Theta _{1}} ,

wobei Θ 1 {\displaystyle \Theta _{1}} das Komplement zu Θ 0 {\displaystyle \Theta _{0}} in Θ {\displaystyle \Theta } bezeichnet.

Die beobachteten Daten sind Realisierungen von Zufallsvariablen X 1 , , X n {\displaystyle X_{1},\dotsc ,X_{n}} , die jeweils die (unbekannte) Verteilung P θ {\displaystyle P_{\theta }} besitzen und stochastisch unabhängig sind.

Der Begriff des Likelihood-Quotienten-Tests suggeriert bereits, dass die Entscheidung des Tests auf der Bildung eines Likelihood-Quotienten bzw. Plausibilitätsquotienten (Quotient zweier Likelihood-Funktionen bzw. Plausibilitätsfunktionen) beruht. Man geht dabei so vor, dass man ausgehend von den Daten x = ( x 1 , , x n ) {\displaystyle x=(x_{1},\dotsc ,x_{n})\;} und den zu den einzelnen Parametern gehörenden Dichtefunktionen f X 1 , , X n ( ; θ ) {\displaystyle f^{X_{1},\dotsc ,X_{n}}(\cdot ;\theta )} den folgenden Ausdruck berechnet:

Λ ( x ) := sup θ Θ 0 f X 1 , , X n ( x 1 , , x n ; θ ) sup θ Θ f X 1 , , X n ( x 1 , , x n ; θ ) {\displaystyle \Lambda (x):={\frac {\sup _{\theta \in \Theta _{0}}f^{X_{1},\dotsc ,X_{n}}(x_{1},\dotsc ,x_{n};\theta )}{\sup _{\theta \in \Theta }f^{X_{1},\dotsc ,X_{n}}(x_{1},\dotsc ,x_{n};\theta )}}} .

Heuristisch gesprochen: Man bestimmt anhand der Daten zunächst den Parameter aus der gegebenen Grundmenge, der die größte Wahrscheinlichkeit dafür liefert, dass die gefundenen Daten gemäß der Verteilung P θ {\displaystyle P_{\theta }} realisiert worden sind. Der Wert der Dichtefunktion bezüglich dieses Parameters wird dann als repräsentativ für die gesamte Menge gesetzt. Im Zähler betrachtet man als Grundmenge den Raum der Nullhypothese, also Θ 0 {\displaystyle \Theta _{0}} ; für den Nenner betrachtet man die gesamte Grundmenge Θ {\displaystyle \Theta } .

Es lässt sich intuitiv schließen: Je größer der Quotient ist, desto schwächer ist die Evidenz gegen H 0 {\displaystyle H_{0}} . Ein Wert von Λ ( x ) {\displaystyle \Lambda (x)} in der Nähe von Eins bedeutet, dass anhand der Daten kein großer Unterschied zwischen den beiden Parametermengen Θ {\displaystyle \Theta } und Θ 0 {\displaystyle \Theta _{0}} zu erkennen ist. Die Nullhypothese sollte in solchen Fällen also nicht verworfen werden.

Demnach wird bei einem Likelihood-Quotienten-Test die Hypothese H 0 {\displaystyle H_{0}} zum Niveau α {\displaystyle \alpha } abgelehnt, falls

Λ ( x ) < k α {\displaystyle \Lambda (x)

gilt. Hierbei ist der kritische Wert k α {\displaystyle k_{\alpha }^{*}} so zu wählen, dass sup θ Θ 0 P θ ( Λ ( X ) < k α ) = α {\displaystyle \sup _{\theta \in \Theta _{0}}P_{\theta }(\Lambda (X) gilt.

Die konkrete Bestimmung dieses kritischen Werts ist in der Regel problematisch.

Beispiel 1

Für unabhängige Zufallsvariablen X 1 , , X n {\displaystyle X_{1},\dotsc ,X_{n}} , die jeweils eine Normalverteilung mit bekannter Varianz σ 2 {\displaystyle \sigma ^{2}} und unbekanntem Erwartungswert μ {\displaystyle \mu } besitzen, ergibt sich für das Testproblem H 0 : μ = μ 0 {\displaystyle H_{0}\colon \mu =\mu _{0}} gegen H 1 : μ = μ 1 {\displaystyle H_{1}\colon \mu =\mu _{1}} mit μ 0 < μ 1 {\displaystyle \mu _{0}<\mu _{1}} der folgende Likelihood-Quotient:

Λ ( X ) = exp ( 1 σ 2 l = 1 n X l ( μ 1 μ 0 ) ) k ( μ 0 , μ 1 , σ 2 ) {\displaystyle \Lambda (X)=\exp \left({\frac {1}{\sigma ^{2}}}\sum _{l=1}^{n}X_{l}\left(\mu _{1}-\mu _{0}\right)\right)k\left(\mu _{0},\mu _{1},\sigma ^{2}\right)}

mit der von den konkreten Daten unabhängigen Konstanten k ( μ 0 , μ 1 , σ 2 ) = exp ( n 2 σ 2 ( μ 1 2 μ 0 2 ) ) {\displaystyle k(\mu _{0},\mu _{1},\sigma ^{2})=\exp \left(-{\frac {n}{2\sigma ^{2}}}(\mu _{1}^{2}-\mu _{0}^{2})\right)} . Man erhält dann, dass Λ ( X ) > c ~ {\displaystyle \Lambda (X)>{\tilde {c}}} äquivalent zur Ungleichung

1 n i = 1 n X i > c {\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}X_{i}>c}

ist. Dies liefert als Resultat den bekannten Gauß-Test; man wählt c = μ 0 σ n u 1 a {\displaystyle c=\mu _{0} {\frac {\sigma }{\sqrt {n}}}u_{1-a}} , wobei u 1 a {\displaystyle u_{1-a}} das ( 1 α ) {\displaystyle (1-\alpha )} -Quantil einer Standardnormalverteilung bezeichnet.

Approximation der Likelihood-Quotienten-Funktion durch eine Chi-Quadrat-Verteilung

Unter bestimmten Voraussetzungen lässt sich die im Allgemeinen schwierig zu betrachtende Teststatistik Λ ( X ) {\displaystyle \Lambda (X)} durch Chi-Quadrat-verteilte Zufallsvariablen annähern, so dass sich vergleichsweise leicht asymptotische Tests herleiten lassen. In der Regel ist das möglich, wenn die Nullhypothese sich durch eine lineare Parameter-Transformation als ein Spezialfall der Alternativ-Hypothese darstellen lässt, wie im unten genannten Beispiel des Münzwurfes. Präzise formuliert ist neben eher technischen Annahmen an die Verteilungsfamilie P θ {\displaystyle P_{\theta }} die folgende Annahme einer „Parametrisierbarkeit der Nullhypothese“ fundamental:

Es seien der Parameterraum der Alternative Θ R d {\displaystyle \Theta \subset \mathbb {R} ^{d}} und der Nullhypothese Δ R c {\displaystyle \Delta \subset \mathbb {R} ^{c}} gegeben, beide Mengen seien offen und es gelte: c < d {\displaystyle c . Zudem existiere eine zweimal stetig differenzierbare Abbildung h : Δ Θ {\displaystyle h\colon \Delta \rightarrow \Theta } mit h ( Δ ) = Θ 0 {\displaystyle h(\Delta )=\Theta _{0}} , deren Jacobi-Matrix h ( η ) {\displaystyle h'(\eta )} für jedes η Δ {\displaystyle \eta \in \Delta } vollen Rang besitzt.

Dann gilt:

T n := 2 log Λ ( X ) χ d c 2 {\displaystyle T_{n}:=-2\log \Lambda (X)\rightarrow \chi _{d-c}^{2}} ,

wobei die Zufallsvariablen in Verteilung konvergieren.

Die Beweisidee beruht auf einer Aussage über die Existenz von Maximum-Likelihood-Schätzern in allgemeinen parametrischen Familien und ihrer Konvergenz gegen eine normalverteilte Zufallsvariable, deren Varianz das Inverse der Fisher-Information ist.

Beispiel 2: Münzwurf

Ein Beispiel ist der Vergleich, ob zwei Münzen die gleiche Wahrscheinlichkeit haben, Kopf als Ergebnis zu erhalten (Nullhypothese). Wird die erste Münze N {\displaystyle N} -mal geworfen mit n {\displaystyle n} Kopfwürfen und die zweite Münze M {\displaystyle M} -mal geworfen mit m {\displaystyle m} Kopfwürfen, dann ergibt sich die Kontingenztabelle unter Beobachtungen. Unter Gültigkeit der Nullhypothese ( p = q {\displaystyle p=q} ) und der Alternativhypothese ( p q {\displaystyle p\neq q} ) ergeben sich die Wahrscheinlichkeiten wie unter Alternativhypothese und Nullhypothese.

Unter Gültigkeit der Nullhypothese ergibt sich die Likelihood-Funktion als

L H 0 ( n , m ) = r n ( 1 r ) N n r m ( 1 r ) M m = r n m ( 1 r ) N n M m {\displaystyle L_{H0}(n,m)=r^{n}(1-r)^{N-n}r^{m}(1-r)^{M-m}=r^{n m}(1-r)^{N-n M-m}}

und es folgt mit Hilfe der Log-Likelihood-Funktion die Schätzung r ^ = ( n m ) / ( N M ) {\displaystyle {\hat {r}}=(n m)/(N M)} .

Unter Gültigkeit der Alternativhypothese ergibt sich die Likelihood-Funktion als

L H 1 ( n , m ) = p n ( 1 p ) N n q m ( 1 q ) M m {\displaystyle L_{H1}(n,m)=p^{n}(1-p)^{N-n}q^{m}(1-q)^{M-m}}

und es folgt mit Hilfe der Log-Likelihood-Funktion die Schätzungen p ^ = n / N {\displaystyle {\hat {p}}=n/N} bzw. q ^ = m / M {\displaystyle {\hat {q}}=m/M} .

Damit ergibt sich Λ {\displaystyle \Lambda } als

Λ ( n , m ) = ( n m N M ) n m ( 1 n m N M ) N n M m ( n N ) n ( 1 n N ) N n ( m M ) m ( 1 m M ) M m {\displaystyle \Lambda (n,m)={\frac {\left({\frac {n m}{N M}}\right)^{n m}\left(1-{\frac {n m}{N M}}\right)^{N-n M-m}}{\left({\frac {n}{N}}\right)^{n}\left(1-{\frac {n}{N}}\right)^{N-n}\left({\frac {m}{M}}\right)^{m}\left(1-{\frac {m}{M}}\right)^{M-m}}}}

und als Prüfwert

2 log ( Λ ( m , n ) ) {\displaystyle -2\log(\Lambda (m,n))} ,

der mit einem vorgegebenen kritischen Wert aus der χ 1 2 {\displaystyle \chi _{1}^{2}} -Verteilung verglichen wird. Da wir in der Alternativhypothese zwei Parameter ( p {\displaystyle p} , q {\displaystyle q} ) und in der Nullhypothese einen Parameter ( r {\displaystyle r} ) haben, ergibt sich die Anzahl der Freiheitsgrade als 2 1 = 1 {\displaystyle 2-1=1} .

Literatur

P. J. Bickel, K. Doksum: Mathematical statistics. Holden-Day.


MaximumLikelihoodMethode • Definition Gabler Wirtschaftslexikon

SOLVEDFTest als LikelihoodQuotientenTest. Betrachten Sie im

Likelihood ratio test of hypotheses Download Scientific Diagram

Likelihood comparison. Data likelihood for maximum likelihood fits of

Monotone Likelihood Quotienten Mathelounge