Forum "Wahrscheinlichkeitstheorie" - T-Test Beispiel - Vorkurse

Ein Projekt von vorhilfe.de

Die Online-Kurse der Vorhilfe E-Learning leicht gemacht.
	Hallo Gast! [ einloggen \| registrieren ]
	Startseite · Mitglieder · Teams · Forum · Wissen · Kurse · Impressum

Forenbaum

Schule

VK 37: Kurvendiskussionen

VK 59: Lineare Algebra

VK 60: Analysis

Wahrscheinlichkeitst

Gezeigt werden alle Foren bis zur Tiefe 2

Navigation

Startseite...
Neuerdings beta neu
Forum...
vorwissen...
vorkurse...
Werkzeuge...
Nachhilfevermittlung beta...
Online-Spiele beta
Suchen
Verein...
Impressum

Das Projekt

Server und Internetanbindung werden durch Spenden finanziert.

Organisiert wird das Projekt von unserem Koordinatorenteam.

Hunderte Mitglieder helfen ehrenamtlich in unseren moderierten Foren.

Anbieter der Seite ist der gemeinnützige Verein "Vorhilfe.de e.V.".

Partnerseiten

Weitere Fächer:

Vorhilfe.de

FunkyPlot: Kostenloser und quelloffener Funktionenplotter für Linux und andere Betriebssysteme

Forum "Wahrscheinlichkeitstheorie" - T-Test Beispiel

T-Test Beispiel < Wahrscheinlichkeitstheorie < Stochastik < Hochschule < Mathe < Vorhilfe

Ansicht:

[ geschachtelt ]

Forum "Wahrscheinlichkeitstheorie" |

Alle Foren |

Forenbaum | Materialien

T-Test Beispiel: bitte um eine schnelle Antwort

Status:	(Frage) überfällig
Datum:	13:18 So 21.05.2006
Autor:	Katya

Aufgabe

 5.3.2 Übertragung auf Assoziationspaare

Wie wenden wir nun den T-Test auf Assoziationspaare an?

Nehmen wir an, wir haben aus einem Korpus 1 Million Wortpaare der Form <w1 w2> extrahiert.

Wir interessieren uns nun für das Wortpaar <wi wj>

· Die Häufigkeit f(wi) ist 100

· Die Häufigkeit f(wj) ist 100

· Die Häufigkeit f(<wi;wj>) ist 10.

· N = 1 Million

Unsere Hypothese: das Wortpaar <wi,wj> hat eine Häufigkeit, die signifikant höher ist, als der

Erwartungswert, falls alle Wörter zufällig über das Korpus verteilt wären.

Statistische Vorannahmen

Die durchgeführte Zählung ist ein Bernoulli-Experiment (ein Experiment mit den Ausgängen 0 oder 1).

1 steht für: ein Wortpaar ist das untersuchte Wortpaar <wi,wj>

0 steht für: ein Wortpaar ist nicht das gesuchte Wortpaar.

Was ist nun der Mittelwert für die tatsächliche Verteilung, also x?

Dieser ist f(<wi,wj>) (Häufigkeit des Wortpaars) geteilt durch die Menge der Wortpaare N.

f(<wi,wj>) / N = 10/1 Million = 1/100 000

(Dieser Wert ist also einfach die relative Häufigkeit h(<wi,wj>); bzw. die Wahrscheinlichkeit, dass ein

zufällig herausgegriffenes Wortpaar genau das untersuchte Wortpaar ist)

Was wäre nun der Mittelwert bei einer zufälligen Verteilung? Ganz einfach. Wenn Wort wi 100 mal im

Korpus vorkommt, und wj ebenfalls, dann ist die Wahrscheinlichkeit, bzw. h(w) jeweils 1/10 000. Die

Wahrscheinlichkeit, dass ein Wortpaar aus w1, w2 besteht ist also 1/10 000 * 1/10 000, das ist 1/100

Millionen. Die erwartete Häufigkeit in allen Bigrammen (1 Million) wäre also 1/100 - der erwartete

Mittelwert somit 1/ 100 Millionen.

Was ist nun die Varianz der Stichprobe?

Die Varianz ist bekanntlich die Summe der Quadrate aller Abweichungen vom Mittelwert /

Stichprobengröße, in unserem Fall:

f(<wi,wj>)*(1-h(<wi,wj>))2) + (N-f(<wi,wj>))*(h(<wi,wj>))2) / N

Dies lässt sich umformen zu h(<wi,wj>)*(1- h(<wi,wj>)). Da (1- h(<wi,wj>) in etwa etwa 1 ist, ist dies

ungefähr h(<wi,wj>) - diesen Wert setzen wir also als Varianz ein.

Ich habe diese Frage in keinem Forum auf anderen Internetseiten gestellt.

Hallo.

Das war ein Beispiel aus unserem Vorlesungsskript, wo T-Test Formel erklärt wurde. Ich verstehe alles mehr oder weniger bis zu dem Punkt, wo Varianz berechnet wird. Von mir aus, sieht die Formel ganz anders aus, als des, was wir vorher immer verwendet haben. Könnte mir bitte jemand die Formel erklären, die jetzt im Skript verwendet wurde, also
f(<wi,wj>)*(1-h(<wi,wj>))2) + (N-f(<wi,wj>))*(h(<wi,wj>))2) / N

Ich verstehe absolut nicht, warum da auch multiplikation benutzt wird, wo kommt die komische 1 her usw.

Ich würde mich auf eine möglichst detaillierte Antwort wahrsinnig freuen( am liebsten kommentar zu jedem Zeichen:))

Danke

Bezug

T-Test Beispiel: Fälligkeit abgelaufen

Status:	(Mitteilung) Reaktion unnötig
Datum:	13:20 Mi 31.05.2006
Autor:	matux