In welchem Maße gibt es Verstärkerklang?!

Autor

Beitrag

kammerklang
Stammgast

#14820 erstellt: 03. Feb 2013, 01:16

Noch eine Abschätzung zum Pegelabgleich. Von Raumtemperatur aus dürfte der Onix etwa 40 Minuten brauchen, bis er vielleicht 50 Grad Betriebstemperatur hat. Wenn der Abgleich kalt bei 10 Grad gemessen wurde, wird es geschätzt gut doppelt so lange gedauert haben. Schon die ersten Versuche dürften also mit vielleicht 0,1 oder 0,2dB Pegeldifferenz abgelaufen sein, das ist für empfindliche Ohren schon statistisch signifikant hörbar, die späteren 0,3dB erst recht - und bampas Klangbeschreibung (AVR irgendwie dumpfer) geht auch in diese Richtung... Weil das jedoch einen Bias bedeuten dürfte, kann man nicht mehr von einem einseitigen Testdesign ausgehen.

Man muß wohl doch eher einen zweiseitigen Test annehmen, und das verschärft leider die Bedingungen, es gelten die Zahlen der Tabelle dann wie angegeben mit 10%iger Irrtumswahrscheinlichkeit. Sprich, selbst wenn er volle 10 mal richtig gelegen hätte wäre auch dieses Volltreffer-Ergebnis immer noch mit 10% Irrtum behaftet gewesen. Und da er nur 9 geschafft hat, ist das Resultat leider noch unsicherer und die Wahrscheinlichkeit, dass er einfach Glück hatte, liegt mit über 10% gemessen an üblichen Standards - auch bei gutem Willen- etwas zu hoch. Leider.

Von Mutmaßungen, die an Kaffesatzleserei grenzen, kann man sich eben nur mit höheren Durchgangszahlen befreien, samt besserer Biaskontrolle . Die war hier leider zu schwach, denn je weniger Durchgänge es sind, um so besser muß für ausreichende Signifikanz die Biaskontrolle sein.
Also scope und bampa, beim nächsten Mal...

[Beitrag von kammerklang am 03. Feb 2013, 01:58 bearbeitet]

kammerklang
Stammgast

#14821 erstellt: 03. Feb 2013, 06:38

Moin, noch was zur amüsanten Verwirrung um das Pasalsche Dreieck:

Wie hifi-angel schon versucht hat klarzumachen, kommt es nicht auf die Wahrscheinlichkeitsverhältnisse innerhalb ein und desselben Pascal-Dreiecks an (hier einem aus 10 Ebenen unterhalb der Spitze, mit elf Endpunkten in der untersten zehnten Ebene, zu denen jeweils 1 (10 richtige), 10 (9), 45(8), 120(7), 210(6), 252(5), 210, 120 usw. Wege führen. Denn die Tatsache, dass zu den ersten beiden Endpunkten (10 plus 9 richtige) insgesamt 11 von 1024 möglichen Wegen führen, also ca 1%, charakterisiert nur die rein zufallsbedingte sog. Normalverteilung. Die immer eintritt, auch wenn es überhaupt keinen Unterschied zwischen beiden Verstärkern gäbe: selbst dann käme es rein aus Zufall in 1% der Tests zu bampas Ergebnis. (Dabei muß man bedenken, dass die Normalverteilung nicht streng den Pascalschen Zahlenwerten entsprechen muß, sie tut es aber umso besser, je mehr Ebenen/Durchgänge vorliegen)

Was man dagegen vergleichend prüfen/testen muß, ist diese Normalverteilung im Unterschied zu einer anderen Verteilung, die erst dann einträte, wenn die Verstärker einen hörbaren Unterschied hätten. Man muß sich also zum Vergleich ein zweites Pascalsches Dreieck vorstellen, in dem die Verzweigungspunkte nicht fifty fifty (also rein zufällig) wirken, sondern einer der Zweige jeweils etwas wahrscheinlicher wird als der andere. (Könnte man bei dem bekannten Galton-Brett mit den Kugeln durch entsprechende seitliche Verschiebung der dann nicht mehr mittigen Hindenisse erreichen).

Für jeden Grad an Verschiedenheit der beiden Zweige, (je nachdem wie unterschiedlich die Verstärker wären) muß man sich in Gedanken also ein neues Pascal-Dreieck konstruieren, und auf dessen unterster Ebene dann jeweils die im Vergleich zur Normalverteilung veränderten Zahlenverhältnisse betrachten. Der Grad dieser Veränderung auf der untersten Ebene, die Veränderung der Verteilung, ist natürlich abhängig von der Größe des hörbaren Unterschieds (und von der Zahl der Durchgänge).

Wenn man nun die Normalverteilung mit davon verschiedenen anderen Dreiecken/Verteilungen vergleicht, muß man sich fragen, wie groß die Veränderungen der Zahlen an den unteren Endpunkten ausfallen sollen, damit man von einer signifikant von der Normalverteilung abweichenden neuen Verteilung überhaupt reden kann. Denn, wie gesagt, auch die Normalverteilungswerte schwanken ja etwas. Dazu kann man z.B. fordern, die Übergangswahrscheinlichkeit von einer zur anderen Verteilung möge sich zwischen den untersten Endpunkten so ändern, dass nicht mehr wie im Zufalls-Fall 0,1% aller 1024 Wege 10 Treffer, 1% aller Wege zusammen 9 oder mehr Treffer ausmachen (oder etwa 5,6% aller Wege 8 oder mehr Treffer, usw.), sondern mehr: Z.B dass nun 10% aller Wege 8 oder mehr Treffern, oder 5% aller Wege 10 Treffern entsprechen sollen und dann berechnen, welchen Trefferzahlen dass bei mehr als 10 Durchgängen entspräche.

Diese nötigen Trefferquoten bei einer definierten Zahl an Durchgängen und für ein signifikant, d.h. um mehr als z.B. 5%, von der zufälligen Normalverteilung abweichendes Verteilungsverhalten - und damit einen entsprechend wahrscheinlich hörbaren Unterschied - liefern dann die Tabellenwerte. Und wie man sieht, je mehr Durchgänge, desto feinere Verteilungs- (bzw. Klang-) Unterschiede kann man detektieren.

Langer Rede kurzer Sinn: Es geht hier um das Ausmaß von Unterschieden zwischen verschiedenen Verteilungen, und nicht um die Wahrscheinlichkeit von Einzelfällen innerhalb nur einer (hier der Zufalls-) Verteilung.

[Beitrag von kammerklang am 03. Feb 2013, 07:18 bearbeitet]

Zim81
Hat sich gelöscht

#14822 erstellt: 03. Feb 2013, 07:31

Können wir denn jetzt mal wieder zurück zum Thema kommen, das nicht Wahrscheinlichkeitsrechnung lautet?
Danke.

tomtiger
Administrator

#14823 erstellt: 03. Feb 2013, 08:07

Hi,

-scope- (Beitrag #14798) schrieb:

Eigentlich gehe ich nicht davon aus, nennenswerte Eigenarten zu finden.....Aber das muss man halt -trotzdem- überprüfen.

ich habe nur kurz nach den Onix gegoogelt, die werden immer wider in die Nähe des damals neu aufkommenden britischen Hifis, wie NAD oder Musical Fidelity gerückt. Denen wurde immer nachgesagt, sie würden "warm" klingen, und man könne dies an einem Buckel im Frequenzgang auch erkennen. Den MF wurde auch nachgesagt, sie würden mehr Klirr haben als üblich.

LG Tom

K._K._Lacke
Inventar

#14824 erstellt: 03. Feb 2013, 09:42

guten morgen!

das war dann wohl der größte Fehler meines Lebens, mich hier einzumischen!
Jetzt wird aus "Bampa" ein Würfelbecher gemacht!
Rechnet doch bitte mal "Kammerklangs" Zitat von Bertrand Russels hoch: das ärgerliche ist, daß die Dummen so selbstsicher sind und die Intelligenten an alles Zweifeln!
Für mich ist das ne fifty/fifty Entscheidung, wer da Recht haben könnte!
mfg

ingo74
Inventar

#14825 erstellt: 03. Feb 2013, 09:57

ohoh warbabe und mathematik

K._K._Lacke
Inventar

#14826 erstellt: 03. Feb 2013, 10:26

tja ingo, man kann nicht alles haben, dafür kann ich Klavier spielen.
mfg

Janus525
Hat sich gelöscht

#14827 erstellt: 03. Feb 2013, 10:58

tomtiger (Beitrag #14823) schrieb:

...und man könne dies an einem Buckel im Frequenzgang auch erkennen... LG Tom

Guten Morgen Tom,

Buckel im Frequenzgang, soso, ist ja interessant...! Wo hast Du das gelesen...? Würde mich mal interessieren...

Viele Grüße: Janus...

pelmazo
Hat sich gelöscht

#14828 erstellt: 03. Feb 2013, 11:05

hifi_angel (Beitrag #14818) schrieb:

Der Begriff "Erfolg" gibt es in der Wahrscheinlichkeitsrechnung nicht.

Oh, come on! Jetzt stellst Du Dich gerade unnötig dickschädlig. Wir reden von einem Blindtest, und als Erfolg werten wir hier wohl allgemein die Bestätigung der Hypothese.

Die Frage war, ob 9 von 10 richtige Zuordnungen der Verstärker eine ausreichende Sicherheit bieten, daß bampa die Geräte tatsächlich am Klang unterscheiden konnte, und nicht bloß geraten hat. Und die Antwort lautet, daß das mit fast 99%iger Wahrscheinlichkeit der Fall ist.

Alle Ergebnisse sind gleich wahrscheinlich und nicht beeinflussbar, d.h. nur durch den Zufall bestimmt (wenn geraten wird). Man könnte zwar sagen wenn man richtig geraten hat Glück gehabt und wenn man wenige Treffer hatte Pech gehabt. Ist es ein Erfolg (im Sinne von Fähigkeit) wenn ich sechs Richtige im Lotto habe oder war es Glück.

Ich kenne wenige Leute, die da nicht von Erfolg reden würden, auch wenn es nichts mit einer Fähigkeit zu tun hat und letztlich bloß Glück war. Aber das ist nicht der gleiche Fall, denn da zweifelt normalerweise keiner daran, daß die Zahlen zufällig gewählt werden.

Wie kannst du sagen, bzw. davon ableiten (wenn alles gleich wahrscheinlich ist), dass wenn ich zufällig oft richtig geraten haben, dass dies ein Indiz für irgendwas wäre.

Wenn die Wahrscheinlichkeit, daß bampa aus reinem Zufall das Ergebnis erzielt, das er erzielt hat (mindestens 9 von 10 richtigen), nur gut 1% ist (11 von 1024 gleich wahrscheinlichen Fällen), dann ist die Wahrscheinlichkeit für das Gegenteil, nämlich daß er den Unterschied tatsächlich gehört hat, fast 99%. Ich werte das als Indiz, denn die Signifikanz dafür reicht mir. Aber klar: Letztlich muß man eine bewußte Entscheidung fällen, wohin man die Latte setzt, denn absolute Sicherheit kann man niemals kriegen.

Hier hilft nur die Statistik die Spreu (Zufall) vom Weizen (real gehörter Unterschied) zu trennen. Und dafür sind 10 Versuche noch zu wenig.

Mir nicht. Ich halte die Wahrscheinlichkeit für völlig ausreichend, um das als Indiz zu werten. Ich wüßte keinen guten Grund für eine höher gelegte Latte.

Hannes2k2
Stammgast

#14829 erstellt: 03. Feb 2013, 11:13

Warnung: Es geht noch einmal um Stochastik und Statistik. Vermutlich wäre es in der Tat angebracht, diesen Thread aufzuteilen. Wer macht sowas? Die Moderation?

hifi_angel (Beitrag #14819) schrieb:

Hannes2k2 (Beitrag #14816) schrieb:

Hab ich soeben gemacht. Es gibt insgesamt 1024 Pfade, davon einen mit 10 richtigen Antworten, 10 mit einer richtigen Antwort, 41 mit zwei richtigen Antworten und 252 Pfade mit 5 richtigen Antworten.

Wie sieht denn Dein Baum aus?

Und? Erscheint dir ein Ast wahrscheinlicher als die anderen, oder siehst du da Gruppen von Ästen die wahrscheinlicher sind als andere?

Ja, einen Ast der Gruppe "5 Richtige" zufällig zu erwischen, ist exakt 252 mal so wahrscheinlich wie den einen Ast "10 Richtige" zu treffen.

@kammerklang

Du beschreibst hier (vollkommen richtig) die Methoden zur statistischen Auswertung mehrerer Versuchsreihen. Wie Du schon selbst schreibst, braucht man dafür zwingend zwei verschiedene Verteilungen. Zunächst bräuchte man also eine Versuchsreihe mit zwei Verstärkern, die sich sicher nicht unterscheiden (also am besten einfach eine Versuchsreihe ganz ohne Umschalten), und kann dann eine andere Versuchsreihe mit dieser vergleichen und feststellen, ob sich die beiden Versuchsreihen Siginfikant von einander Unterscheiden eben nicht.

pelmazo und ich haben aber den Hörtest nicht als Versuchreihe sondern als einzelnen Test bewertet, und a-priori abgeschätzt, wie hoch die Wahrscheinlichkeit wäre, ein solches oder besseres Testergebnis nur durch raten zu erzielen.

Wenn es darum ginge, eine wissenschaftliche Studie zum Thema Verstärkerklang auszuwerten, wäre Deine Vorgehensweise sicher die einzig richtige. Wobei man dann eben auch eine "Placebo"-Versuchsreihe (also ohen umschalten, oder mit umschalten zwischen zwei sicher identischen Signalen) durchführen müsste, und nicht einfach gegen die Normalverteilung aus dem fiftyfifty-Dreieck rechnen sollte, wie ich glaube, dass Du es in der Tabelle getan hast.

Um einfach nur das Ergebnis dieses einen Tests einordnen zu können, ohne eine allgemein gültige Aussage treffen zu wollen, halte ich "unser" Vorgehen aber für durchaus legitim und keineswegs sinnlos oder sogar "falsch", wie es die hifi-angel versucht darzustellen, ohne überhaupt zu begreifen, was da berechnet wurde.

ingo74
Inventar

#14830 erstellt: 03. Feb 2013, 11:19

*gääääähn - eigentlich reichts doch langsam mal, jetzt sollte sich jeder schon zig mal seine meinung bilden können bzgl wahrscheinlichkeit.
ändert nichts daran, dass bampa es gehört hat

-scope-
Hat sich gelöscht

#14831 erstellt: 03. Feb 2013, 11:48

Ein paar "Dinge" mochte ich noch kurz und knapp kommentieren, damit die Sache zumindest einen Hauch von Praxis und weniger "brainstorming" behält

Von Raumtemperatur aus dürfte der Onix etwa 40 Minuten brauchen, bis er vielleicht 50 Grad Betriebstemperatur hat

Fünfzig (!) Grad KK-Temperatur, Lufttemperatur im Gehäuse, oder "sonstige Temperatur" gibt es bei diesem AB Verstärker im Westentaschenformat nicht. Dazu muss man das Gerät längere Zeit an seinen Grenzen , bzw darüberhinaus betreiben. Mit entsprechendem Einsatz -könnte - man so auf 50 Grad C kommen.
Der Grund für die -in der Praxis uninteressanten- "Pegelveränderung" ist mir noch nicht bekannt. Die Temperatur wäre aber die erste Ursache, die mir dazu einfällt.

Wenn der Abgleich kalt bei 10 Grad gemessen wurde, wird es geschätzt gut doppelt so lange gedauert haben. Schon die ersten Versuche dürften also mit vielleicht 0,1 oder 0,2dB Pegeldifferenz abgelaufen sein, das ist für empfindliche Ohren schon statistisch signifikant hörbar, die späteren 0,3dB erst recht

Diese Schätzungen sind "überflüssig". Wann und wieviel Pegeldifferenz während der Hörzeit entstand steht in den Sternen. Fakt ist, dass man das "hätte wissen sollen", um es zu vermeiden, oder zumindest in kleinere Bereiche zu bewegen.

Also scope und bampa, beim nächsten Mal...

Ich hoffe dass es einen weiteren Test geben wird, in dem die bekannten Fehler durch "mehr Zeit" beseitigt werden können.
Fakt ist aber, dass Bampa m.E. ein hohes Potenzial mitbringt, dass ich so noch nicht erlebt habe. Besonders nicht bei einem Hörer, der das zum ersten mal macht.

[Beitrag von -scope- am 03. Feb 2013, 11:58 bearbeitet]

ingo74
Inventar

#14832 erstellt: 03. Feb 2013, 11:49

wie alt ist bampa eigentlich..?

bampa
Stammgast

#14833 erstellt: 03. Feb 2013, 11:56

Wir werden noch einen Test machen Scope gerne Nächste Woche wir schließen uns mal kurz wegen einem Termin. Mal schauen ob wir es dann untermauern oder die ganze Sache noch kritischer wird, nur von wegen so ein schwachsinn von ins Blaue tippen und statistiken mit welcher Wahrscheinlichkeit ich 9 richtige tippen könnte will ich dann nicht mehr hören, wie gesagt Scope tut "immer" alles dafür das ich keine unterschiede erkenne! Gelingt es dieses mal nicht habe ich pech gehabt ich mache das alles nur für mein Erbstück den ONIX und nicht um Euch hier Glücklich zu machen ich mache da grade meine ganz eigenen Erfahrungen, und es war auch schön Scope erstaunt zu sehen!

Gruß
Ingo (35)

[Beitrag von bampa am 03. Feb 2013, 12:00 bearbeitet]

-scope-
Hat sich gelöscht

#14834 erstellt: 03. Feb 2013, 12:04

Wir werden noch einen Test machen Scope gerne Nächste Woche wir schließen uns mal kurz wegen einem Termin.

Gerne!

Aber dann müssten wir uns etwas mehr Zeit nehmen, um das Gerät aufzuheizen ;-) , und einige Messungen zwischen beiden Geräten aufzulisten.

wie gesagt Scope tut "immer" alles dafür das ich keine unterschiede erkenne!

Sowas "darfst"

du hier garnicht schreiben. Es könnte den Eindruck erwecken, dass ich dich ablenken, oder unfair handeln würde.

und es war auch schön Scope erstaunt zu sehen!

Das erste was ich "dachte" .....Wie hat der geschummelt?

...Nein, ernsthaft....Wenn du nochmal einen weiteren Durchgang möchtest, bin ich gerne dabei....Es interessiert mich ebenso.

Gruß
Scope (24)

[Beitrag von -scope- am 03. Feb 2013, 12:07 bearbeitet]

cornflakes
Ist häufiger hier

#14835 erstellt: 03. Feb 2013, 12:12

Zum ursprünglichen Thema muss ich auch nochmal was sagen:

Audio Agile Joker an T+A TAL X2.1 ganz ok
Audio Agile Step+Power Amp an T+A TAL X2.1: Hammer was an Bass und Bühne plötzlich mehr da war
Audio Agile Step+Power Amp an Gamut Phi 7: naja
Symphonic Line RG14 an Gamut Phi 7: Der absolute Wahnsinn, in der Preisklasse habe ich nichts besseres gehört.

Also, Ich werde immer Verstärke und Boxen zusammen austauschen oder zumindest immer im Paar probieren....

Janus525
Hat sich gelöscht

#14836 erstellt: 03. Feb 2013, 12:17

-scope- (Beitrag #14834) schrieb:

Nein, ernsthaft....Wenn du nochmal einen weiteren Durchgang möchtest, bin ich gerne dabei....Es interessiert mich ebenso. Gruß Scope (24)

Ich jedenfalls freue mich schon jetzt darauf, ganz gleich wie es ausgeht, endlich mal wieder etwas Konkretes...!

Viele Grüße: Janus (19)

[Beitrag von Janus525 am 03. Feb 2013, 12:19 bearbeitet]

hifi_angel
Inventar

#14837 erstellt: 03. Feb 2013, 12:21

pelmazo (Beitrag #14828) schrieb:

Hier hilft nur die Statistik die Spreu (Zufall) vom Weizen (real gehörter Unterschied) zu trennen. Und dafür sind 10 Versuche noch zu wenig.

Mir nicht. Ich halte die Wahrscheinlichkeit für völlig ausreichend, um das als Indiz zu werten. Ich wüßte keinen guten Grund für eine höher gelegte Latte.

Und auch @ Hannes2K2,

Jetzt hatte ihr Zeit noch einmal darüber zu schlafen.

Aber alleine der Satz, "Ich halte die Wahrscheinlichkeit für völlig ausreichend, um das als Indiz zu werten." zeigt mir, dass wie ich schon mal erwähnte, dass viele einfach die Wahrscheinlichkeitsrechnung mit einer statistischen Auswertung verwechseln. Der Begriff Wahrscheinlichkeit wird (auch von euch) immer im umgangssprachlichen Sinne verwendet und verstanden.

Daher noch mal ein letztes Beispiel. Egal welche 6 Zahlen ich im Lotto ankreuze, für jede mögliche Kombination besteht die gleiche Wahrscheinlichkeit gezogen zu werden. Soweit werdet ihr mir auch sicherlich zustimmen. Nun komme ich und sage, dann gilt das auch für die Zahlenreihe 1,2,3,4,5,6. Doch nun kommt das Bauchgefühl bei vielen, die dann spontan sagen, dass ist aber sehr "unwahrscheinlich", "unwahrscheinlicher" als eine ungeordnete Zahlenreihe. Wie schon gesagt, die Wahrscheinlichkeitsrechnung und somit der Zufall nimmt keine Rücksicht auf Konstellationen, die der Mensch als "Extrem-Werte" empfindet.
Und dann wird versucht irgendwie die Wahrscheinlichkeitsrechnung dem menschlichen Gefühl anzupassen, da werden Wahrscheinlichkeiten zusammenaddiert, relative Wahrscheinlichkeitsgruppen gebildet, andere Verfahren z.b. die Anwendung des Pascalsche Dreieck erwägt, usw.

Zurück zu unserem Fall. Die Wahrscheinlichkeit bei 10 Durchgängen X Treffer zu landen (wenn geraten wird) ist immer gleich 0,097%. (für X=0 bis 10). Aber jetzt kommt wieder das Bauchgefühl, 9 Treffer bei 10 Durchgängen?, und das soll die gleiche Wahrscheinlichkeit haben wie beispielsweise 5 Treffer bei 10 Durchgängen? Niemals, das kann doch kein Zufall mehr sein wenn man 9 Treffer landet, das ist doch ein Indiz dafür, dass es ebnen kein Zufall mehr ist. Ebenso streubt sich das Bauchgefühl, das andere Extrem, 0 Treffer als Zufall zu werten, dass ist doch ein Indiz dafür, dass da nichts gehört werden kann

Daher nochmal den Rat verlasst das Gebiet der Wahrscheinlichkeitsrechnung, sie ist auch nicht geeignet einen wie auch immer gearteten Nachweis abzuleiten, dafür ist die Statistik da und versucht nicht statistische Nachweismethoden in die Wahrscheinlichkeitsberechnung "rückwirkend" hinein zu interpretieren und irgendwas Plausibles daraus ableiten zu wollen.

Die von Hörschnecke / Kammerklang vorgestellte Statistik (Tabelle) ist der einzig richtige Weg.

Noch ein Wort zu bampa's Versuch. Ich unterstelle in kleinster Weise, dass er geraten hat. Auch für mich hat er Unterschiede hören können, die aber ggf. auch durch die techn. Versuchsanordnung begründet sein könnte. Daher möchte scope es ja nochmals verifizieren.
Aber das Ergebnis 9/10 gibt aber auch Anlass für Dritte, das als reinen Zufall abzutun und das sogar mit zu recht begründet. Daher müssen noch weitere Durchgänge gemacht werden um eben genau die statistische Sicherheit zu haben, dass es kein Zufall war.

Wenn schon nur subjektiv gehört werden kann, sollte man nicht auch noch zur objektiven Auswertung das "Bauchgefühl" zu rate ziehen.

[Beitrag von hifi_angel am 03. Feb 2013, 12:49 bearbeitet]

Rufus49
Stammgast

#14838 erstellt: 03. Feb 2013, 12:29

Wenn bei dem Hörvergleich in 9 von 10 Testdurchgängen klangliche Unterschiede zwischen den Verstärkern erkannt wurden, habe ich kein Zweifel, dass diese beiden geprüften Verstärker sich im Klangcharakter eindeutig unterscheiden. Ich habe auch keine Zweifel an der korrekten Testdurchführung.

Dass es klangliche Unterschiede geben kann, habe ich selbst schon x-mal in praktischen Versuchen festgestellt.

Das soll aber keineswegs bedeuten, dass es bei allen Verstärkern deutliche Unterschiede gibt.
Es kann durchaus sein, dass 2 Verstärker auch eine nahezu identische Klangcharakteristik haben und somit nicht unterscheidbar sind - ich habe damit überhaupt kein Problem -

Diese ständigen Absolutbehauptungen

"Es gibt nie und niemals Klangunterschiede, egal welche Verstärker ich vergleiche" und
"ich höre immer Klangunterschiede"

sind also beide viel zu pauschal und unrichtig.

Insofern ist mir jeder Praxistest 100x lieber, als das endlose Geplänkel über statistische Relevanzen.

Rufus

[Beitrag von Rufus49 am 03. Feb 2013, 12:39 bearbeitet]

kölsche_jung
Moderator

#14839 erstellt: 03. Feb 2013, 12:45

Rufus49 (Beitrag #14838) schrieb:

... Ich habe auch keine Zweifel an der korrekten Testdurchführung.
...

Daran können auch keinerlei Zweifel bestehen ... -scope- schrieb ja selber, dass ein Pegelunterschied von 0,3 dB vorlag, insoweit muss man da auch keine Zweifel haben, es lag eindeutig keine korrekte Testdurchführung vor (war ja nach meinem Verständnis auch gar nicht das Ziel)

wobei ich die "Leistung" von bampa, (mindestens) die 0,3 dB zu erhören (vielleicht auch was anderes?) schon wirklich beachtenswert finde (ich gehe von "erkennen", nicht von "Zufall" aus) ...

AndreasHelke
Stammgast

#14840 erstellt: 03. Feb 2013, 12:56

Ich finde es interessant, für wie viel Verwirrung das nicht ausreichende Verständnis von Statistik und Wahrscheinlichkeitsrechnung hier in der Diskussion gesorgt hat.

QSC hat ein ABX Blindtestgerät konstruiert und von von 1998 bis 2004 kommerziell vertrieben. Aus dessen Bedienungsanleitung stammt folgende Tabelle.

We won’t be quite as picky with the listening tests; a 95% minimum level of confidence will be good enough. That is, there should be less than a 5% chance that the results can be attributable to chance.
minimum correct/number of Trials

8/10 8/11 9/12 9/13 10/14 11/15 11/16 12/17 12/18 13/19 14/20 14/21 15/22 15/23 16/24 17/25

The table on this page lists a recommended range of trials, and the minimum number of correct responses necessary to reach a 95% or better level of confide

8/10 hat die 5% Hürde knapp verfehlt. Der echte Wert liegt bei 5.078125%. Aber 8/10 liegt wesentlich näher an 5% als der in manchen publizierten Tabellen geforderte 9/10 Wert. Der Verfehlt die 1% Hürde ähnlich knapp wie die 8/10 die 5%. Für die 5% Hürde ist 9/10 aber meiner Meinung nach eine zu strenge Forderung.

pelmazo
Hat sich gelöscht

#14841 erstellt: 03. Feb 2013, 13:18

hifi_angel (Beitrag #14837) schrieb:

Jetzt hatte ihr Zeit noch einmal darüber zu schlafen.

Es ist nun einmal eine mehr oder weniger willkürliche Entscheidung, wo man das Limit für die Fehlerwahrscheinlichkeit setzt. Üblich ist in der Literatur ein Grenzwert von 5% für die Wahrscheinlichkeit von Typ 1 Fehlern (also daß man fälschlicherweise aus dem Ergebnis schließt, daß der Tester einen Unterschied gehört hat, obwohl es eigentlich bloß Zufall war). In unserem Fall liegt diese Wahrscheinlichkeit bei gut 1%, und das ist mir gut genug, denn es ist komfortabel unter 5%. Daran ändert auch schlafen nichts, und es sind auch keine umgangssprachlichen Bewertungen oder gar ein Bauchgefühl, sondern es handelt sich um eine bewußte Entscheidung. Du kannst natürlich andere Grenzen ansetzen, aber ich habe bisher nicht verstanden warum das hier sinnvoll sein soll.

Und dann wird versucht irgendwie die Wahrscheinlichkeitsrechnung dem menschlichen Gefühl anzupassen, da werden Wahrscheinlichkeiten zusammenaddiert, relative Wahrscheinlichkeitsgruppen gebildet, andere Verfahren z.b. die Anwendung des Pascalsche Dreieck erwägt, usw.

Ich verstehe nicht wie Du dazu kommst daß ich da was nach Gefühl zusammenaddieren würde. Die Wahrscheinlichkeitsrechnung, die ich mache, drückt die Wahrscheinlichkeiten für den angenommenen Fall aus, daß zehn Mal hintereinander eine Zufallsentscheidung zwischen zwei Alternativen getroffen wurde. Dieses Szenario entspricht der "Nullhypothese", und der Zweck des Hörtests war es, diese Nullhypothese mit genügend großer Sicherheit zu entkräften. Das hat mit Gefühl nichts zu tun, einzig die Festlegung der Schwelle für " genügend groß" enthält eine gewisse Willkür, und selbst da halte ich mich an etablierte Werte und nicht etwa an mein Gefühl.

Zurück zu unserem Fall. Die Wahrscheinlichkeit bei 10 Durchgängen X Treffer zu landen (wenn geraten wird) ist immer gleich 0,097%. (für X=0 bis 10). Aber jetzt kommt wieder das Bauchgefühl, 9 Treffer bei 10 Durchgängen?, und das soll die gleiche Wahrscheinlichkeit haben wie beispielsweise 5 Treffer bei 10 Durchgängen? Niemals, das kann doch kein Zufall mehr sein wenn man 9 Treffer landet, das ist doch ein Indiz dafür, dass es ebnen kein Zufall mehr ist. Ebenso streubt sich das Bauchgefühl, das andere Extrem, 0 Treffer als Zufall zu werten, dass ist doch ein Indiz dafür, dass da nichts gehört werden kann

9 Treffer bei 10 Durchgängen hat auch nicht die gleiche Wahrscheinlichkeit wie 5 Treffer bei 10 Durchgängen. Das ist recht einfache Mathematik und läßt sich direkt aus dem Pascal'schen Dreieck ablesen. Das hat wieder nichts mit Gefühl zu tun. Die Wahrscheinlichkeit für 5 Treffer ist mehr als 25 Mal so groß wie die für 9 Treffer. Ich kann gar nicht glauben daß Du ernsthaft meinst, alle Trefferzahlen seien gleich wahrscheinlich, so eindeutig falsch ist das! Gleich wahrscheinlich sind die 1024 verschiedenen Versuchsergebnisse, aber die sind nicht gleich verteilt auf die Trefferzahlen von 0 bis 10. Von den 1024 verschiedenen Versuchsergebnissen liefert nur ein einziges eine Trefferzahl von 10, aber 252 davon (also beinahe ein Viertel der möglichen Ergebnisse!) liefern 5 Treffer.

Ich hätte nicht erwartet, daß die Schwierigkeiten schon bei solchen Basics anfangen.

Die von Hörschnecke / Kammerklang vorgestellte Statistik (Tabelle) ist der einzig richtige Weg.

Das kann ich auch nicht nachvollziehen. Kammerklang erklärt das, was man durch den Test herausfinden wollte, zum Bias, also zum Störfaktor. Das kommt mir ziemlich unsinnig vor.

tomtiger
Administrator

#14842 erstellt: 03. Feb 2013, 13:23

Hi Janus,

Janus525 (Beitrag #14827) schrieb:

Buckel im Frequenzgang, soso, ist ja interessant...! Wo hast Du das gelesen...? Würde mich mal interessieren...

wie Du von "wird nachgesagt" auf "gelesen" schließt, weiß ich jetzt nicht.

Ich habe die Aussage des "Baucherls im Frequenzgang" unter anderem vom österreichischen Generalimporteur von Musical Fidelity gehört, ich habe lange Zeit mit dem MF David gehört, und wollte den damals mal gegen eine MF 3A/MA50 Kombi "aufrüsten". Diese hier:

http://ftbw.de/files/musical_fidelity_3A_MA50.html

Dass man bei diesen MF Geräten nach einiger Betriebszeit am Deckel Speigeleier braten kann will ich nur mal so am Rande erwähnen, wenn sie jemand nicht kennt.

Dass diese alten Briten "warm" klingen sollen, kannst Du dagegen nahezu überall nachlesen.

Nachdem das Ergebnis statistisch bei gleichklingenden Geräten äusserst unwahrscheinlich ist, würde ich persönlich den Frequenzgang als erstes prüfen (soferne nicht schon gemacht).

LG Tom

Hannes2k2
Stammgast

#14843 erstellt: 03. Feb 2013, 13:26

hifi_angel (Beitrag #14837) schrieb:

Und auch @ Hannes2K2,

Daher noch mal ein letztes Beispiel. Egal welche 6 Zahlen ich im Lotto ankreuze, für jede mögliche Kombination besteht die gleiche Wahrscheinlichkeit gezogen zu werden. Soweit werdet ihr mir auch sicherlich zustimmen. Nun komme ich und sage, dann gilt das auch für die Zahlenreihe 1,2,3,4,5,6. Doch nun kommt das Bauchgefühl bei vielen, die dann spontan sagen, dass ist aber sehr "unwahrscheinlich", "unwahrscheinlicher" als eine ungeordnete Zahlenreihe. Wie schon gesagt, die Wahrscheinlichkeitsrechnung und somit der Zufall nimmt keine Rücksicht auf Konstellationen, die der Mensch als "Extrem-Werte" empfindet.
Und dann wird versucht irgendwie die Wahrscheinlichkeitsrechnung dem menschlichen Gefühl anzupassen, da werden Wahrscheinlichkeiten zusammenaddiert, relative Wahrscheinlichkeitsgruppen gebildet, andere Verfahren z.b. die Anwendung des Pascalsche Dreieck erwägt, usw.

Der Ziehung 6 aus 49 ist nunmal ein völlig andere Versuch, und kannb daher nicht als Beispielt herhalten.
Aber da es Dir scheinbar leichter fällt, Dir auch unseren Versuch als eine Art Lotterie vorzustellen, denk mal über folgendes nach:

In unserem Fall sähe nach 10 Durchgängen, die Los-Urne wie folgt aus: Es gäbe 1024 Kugeln, durchnumeriert von 1 bis 1024.
Diese Kugeln wären aber zusätzlich in Gruppen unterteilt, z.B. durch Farben gekennzeichnet. es gibt z.B. eine blaue Kugeln (stellvertretend für 10 oder 0 richtige Tipps), 10 grüne Kugeln,...., 252 rote Kugeln.

Wie würdest Du nun die Wahrscheinlichkeit einschätzen, dass eine rote Kugel gezogen wird? Oder anders ausgedrückt: auf welche Farbe würdest Du Dein Geld setzen?

Janus525
Hat sich gelöscht

#14844 erstellt: 03. Feb 2013, 13:45

tomtiger (Beitrag #14842) schrieb:

...wie Du von "wird nachgesagt" auf "gelesen" schließt, weiß ich jetzt nicht.

LG Tom

Hi Tom,

ich hatte es so verstanden, weil Du die Informationen in zwei aufeinander folgenden Sätzen untergebracht hattest, deshalb der Bezug zueinander und die Annahme, Du hättest das, was man den Geräten nachsagt, in Deinen Google - Ergebnissen gelesen. Hier die beiden Sätze, die ich offensichtlich falsch interpretiert habe, noch einmal ungekürzt:

ZITAT: ...ich habe nur kurz nach den Onix gegoogelt, die werden immer wider in die Nähe des damals neu aufkommenden britischen Hifis, wie NAD oder Musical Fidelity gerückt. Denen wurde immer nachgesagt, sie würden "warm" klingen, und man könne dies an einem Buckel im Frequenzgang auch erkennen. ZITAT ENDE

So ganz nebenbei: Ich habe noch nie irgendwo gehört oder gelesen, (einige) britische Verstärker hätten einen "Buckel" im Frequenzgang, deshalb meine interessierte Nachfrage...

Viele Grüße: Janus...

Aurumer
Stammgast

#14845 erstellt: 03. Feb 2013, 14:48

hifi_angel (Beitrag #14837) schrieb:

Zurück zu unserem Fall. Die Wahrscheinlichkeit bei 10 Durchgängen X Treffer zu landen (wenn geraten wird) ist immer gleich 0,097%.

Mach doch bitte erst einmal Deine Hausaufgaben und hör' auf Leute wie Pelmazo, die das Thema Stochastik verstanden haben.

Die Wahrscheinlichkeit für jeden einzelnen Treffer ist immer gleich, soweit richtig. Die Wahrscheinlichkeit in Folge immer wieder den richtigen Treffer zu haben, sinkt mit jedem neuen Versuch bis sich am Ende nach 10 Versuchen die genannten ca. 1 % ergeben. So schwer ist das eigentlich nicht (wenn man es mathematisch verstanden hat).

Mathematik hat jetzt wirklich nichts mehr Gauben und Denken zu tun und man sollte nur diskutieren und mitreden, wenn man die Theorie auch verstanden hat.

Hörschnecke
Inventar

#14846 erstellt: 03. Feb 2013, 14:51

pelmazo schrieb:

Die Frage war, ob 9 von 10 richtige Zuordnungen der Verstärker eine ausreichende Sicherheit bieten, daß bampa die Geräte tatsächlich am Klang unterscheiden konnte, und nicht bloß geraten hat. Und die Antwort lautet, daß das mit fast 99%iger Wahrscheinlichkeit der Fall ist.

pelmazo, Du stehst immer noch völlig auf dem Schlauch. Mit der gleichen Wahrscheinlichkeit von rund 1% wäre auch ein gegenteiliges Ergebnis von nur 1 Treffer und 9 Falschen zu erwarten gewesen, wenn die Unterschiede nur eingebildet waren. Wenn Du dann wieder Deinem Bauchgefühl folgst, hätte es Dich zum genauen Gegenteil Deines Fazits geführt "daß mit fast 99%iger Wahrscheinlichkeit" die beiden Verstärker gleich klingen. Du kommst also zu zwei völlig gegensätzlichen Aussagen über die zwei Verstärker, obwohl ein Proband einfach nur geraten haben könnte.

Dein Grundproblem ist anscheined, das "Gesetz der großen Zahlen" noch nicht zu verstehen, daß die 1% Wahrscheinlichkeit der Quote (9/10) erst bei sehr vielen Wiederholungen des Versuchs (stelle Dir meinetwegen undendliche vor) im Mittel zu erwarten sind. Die Wahrscheinlichkeit bezieht sich also auf sehr viele Versuche und nicht nur auf einen. In Ansätzen drückt das selbst schon die Angabe "1%" aus: 1 von 100 Versuchen.

Du darfst aber nicht mehr Versuchsdurchgänge in Dein Bauchgefühl miteinbeziehen, als uns real vorliegen, und da haben wir nunmal nur das Ergebnis eines einzigen Versuchs mit 10 Durchgängen. Du darfst auch keine Annahmen über die Gleichheit der Verstärker und die Detektionsfähigkeit des Hörers a priori "hineinstecken", diese Schlüsse bilden sich ja gerade erst dann heraus, wenn man man genügend Versuche durchgeführt hat, um die häufig vereinbarte Signifikanzschwelle α = 5% oder α = 10% zu überschreiten. Du verwechselst offenbar regelmäßig und fälschlich das Signifikanzniveau α = 5% mit der Wahrscheinlichkeit einer Trefferquote (1%) bei sehr vielen Versuchen (wir haben haben nur einen einzigen!).

Mal nebenbei: Diese ganze Episode ist deshalb so länglich geworden, weil viele hier nur ihrem Bauchgefühl folgen und jegliche halbwegs wissenschaftliche Neutralität sofort fahren lassen, wenn ein Ergebnis in ihren Augen einen (persönlichen?) "Erfolg" darstellt. Und, last but not least, weil scope hier wieder so unausgegorene Daten eingestellt hat und auch noch stolz darauf ist, das immer wieder als seine vorherige Absicht zu erklären.

Amperlite
Inventar

#14847 erstellt: 03. Feb 2013, 14:57

Edit: Flame entfernt.

[Beitrag von Amperlite am 03. Feb 2013, 15:29 bearbeitet]

tomtiger
Administrator

#14848 erstellt: 03. Feb 2013, 15:06

Hi,

Hörschnecke (Beitrag #14846) schrieb:

Mal nebenbei: Diese ganze Episode ist deshalb so länglich geworden, weil viele hier nur ihrem Bauchgefühl folgen und jegliche halbwegs wissenschaftliche Neutralität sofort fahren lassen, wenn ein Ergebnis in ihren Augen einen (persönlichen?) "Erfolg" darstellt. Und, last but not least, weil scope hier wieder so unausgegorene Daten eingestellt hat und auch noch stolz darauf ist, das immer wieder als seine vorherige Absicht zu erklären.

Zum einen hat die Mehrheit hier den Versuch nicht als Erfolg betrachtet, zum anderen hat Scope exakt erklärt, was er gemacht hat, Deine Interpretation der Daten ist Dein Problem, wie auch die der anderen.

LG Tom

-scope-
Hat sich gelöscht

#14849 erstellt: 03. Feb 2013, 15:20

Da das Thema unter besonderer Beobachtung der Moderation steht, sollte man sich durch Mehrfachaccount-Provozierer nicht aus der Reserve locken lassen. Das ist nicht immer einfach.
Am eigentlichen Thema haben solche Leute kaum Interesse.

pelmazo
Hat sich gelöscht

#14850 erstellt: 03. Feb 2013, 15:21

Hörschnecke (Beitrag #14846) schrieb:

Mit der gleichen Wahrscheinlichkeit von rund 1% wäre auch ein gegenteiliges Ergebnis von nur 1 Treffer und 9 Falschen zu erwarten gewesen, wenn die Unterschiede nur eingebildet waren.

So weit stimmt's noch. Die Wahrscheinlichkeit, daß durch reinen Zufall 1 Treffer von 10 heraus kommt ist genauso groß wie bei 9 von 10.

Wenn Du dann wieder Deinem Bauchgefühl folgst, hätte es Dich zum genauen Gegenteil Deines Fazits geführt "daß mit fast 99%iger Wahrscheinlichkeit" die beiden Verstärker gleich klingen. Du kommst also zu zwei völlig gegensätzlichen Aussagen über die zwei Verstärker, obwohl ein Proband einfach nur geraten haben könnte.

Nein, das hätte ich nicht, das spekulierst Du Dir zusammen. Ich hätte daraus geschlossen (ohne Bauchgefühl!) daß ein Unterschied nicht mit der nötigen Sicherheit gefunden wurde, und man demzufolge legitimerweise weiterhin an der Annahme festhalten kann, daß die Verstärker gleich klingen.

Dein Grundproblem ist anscheined, das "Gesetz der großen Zahlen" noch nicht zu verstehen, daß die 1% Wahrscheinlichkeit der Quote (9/10) erst bei sehr vielen Wiederholungen des Versuchs (stelle Dir meinetwegen undendliche vor) im Mittel zu erwarten sind. Die Wahrscheinlichkeit bezieht sich also auf sehr viele Versuche und nicht nur auf einen. In Ansätzen drückt das selbst schon die Angabe "1%" aus: 1 von 100 Versuchen.

Das ist überhaupt nicht mein Problem, sondern das ist im Wahrscheinlichkeitsbegriff schon mit drin. Mir ist sehr wohl bewußt, daß die Wahrscheinlichkeit letztlich der Grenzwert ist, dem man sich bei immer mehr Versuchen immer weiter annähern wird. Trotzdem ist das gleichzeitig der Erwartungswert für jeden einzelnen Versuch.

Du darfst aber nicht mehr Versuchsdurchgänge in Dein Bauchgefühl miteinbeziehen, als uns real vorliegen, und da haben wir nunmal nur das Ergebnis eines einzigen Versuchs mit 10 Durchgängen. Du darfst auch keine Annahmen über die Gleichheit der Verstärker und die Detektionsfähigkeit des Hörers a priori "hineinstecken", diese Schlüsse bilden sich ja gerade erst dann heraus, wenn man man genügend Versuche durchgeführt hat, um die häufig vereinbarte Signifikanzschwelle α = 5% oder α = 10% zu überschreiten.

Ich sehe nicht wo ich das täte. Die Nullhypothese geht davon aus, daß kein Unterschied existiert und der Proband daher zufällig entschieden hat. Das hat nichts mit Bauchgefühl zu tun, und es handelt sich dabei nicht um irgendwelche Annahmen, die man "hineinstecken" würe, sondern um die Basis für Wahrscheinlichkeitsbetrachtungen. Diese Nullhypothese gilt es beim Versuch zu entkräften, und dafür muß man eine Schwelle ansetzen, üblicherweise bei 5% Irrtumswahrscheinlichkeit.

Du verwechselst offenbar regelmäßig und fälschlich das Signifikanzniveau α = 5% mit der Wahrscheinlichkeit einer Trefferquote (1%) bei sehr vielen Versuchen (wir haben haben nur einen einzigen!).

Die Wahrscheinlichkeit eines Treffers ist bei beim ersten Versuch nicht anders als beim einmillionsten, ich hoffe das ist unstrittig.

Ich habe den Eindruck, das Bauchgefühl spielt bei Deiner Argumentation eine nicht unerhebliche Rolle.

[Beitrag von pelmazo am 03. Feb 2013, 15:22 bearbeitet]

pelmazo
Hat sich gelöscht

#14851 erstellt: 03. Feb 2013, 15:33

Amperlite (Beitrag #14847) schrieb:

Ein Dank hingegen an die anderen Teilnehmer (speziell Beitrag

#14820 von Kammerklang), die die sehr trockene Statistik am konkreten Beispiel lebendiger werden lassen.

Gerade diesen Beitrag fand ich nun wieder überhaupt nicht hilfreich, denn kammerklang hat da die Pegeldifferenz als "Bias" gewertet, der ein zweiseitiges Testdesign erforderlich mache, was andere Signifikanzbedingunge zur Folge habe. Das ist natürlich Unsinn. Wenn es einen hörbaren Pegelunterschied gegeben hat, dann ist der nicht durch geänderte Signifikanzbedingungen zu reparieren. Man kann dann beliebig viele Versuche machen, das Ergebnis wird dadurch nicht signifikant, denn man kann es immer auf den Pegelunterschied zurückführen anstatt auf einen wirklichen Klangunterschied. Es gibt keine Alternative zum korrekten Pegelausgleich, wenn man signifikante Ergebnisse produzieren will.

Die ganzen Kompliaktionen um ein zweiseitiges Testdesign sind daher ein roter Hering. Ich habe noch keine Begründung dafür gesehen, die für unseren Fall Sinn ergeben würde.

Hannes2k2
Stammgast

#14852 erstellt: 03. Feb 2013, 15:35

Da das Thema hier ja immernoch diskutiert wird, kann ich es ja auch öffentlich machen, statt kammerklang eine PM zu schreiben...

Also @kammerklang:

Welche Mathematik verbirgt sich hinter Deinen Tabellen? Ich habe leider nirgendwo einen Verweis auf die zugrundeliegenden Formeln gefunden.

Darum habe ich selbst nochmal mein Formelbüchlein herausgekramt und auch das Internet nochmal bemüht. Heraus kam folgendes:

Da wir keinen "Nulltest" (also einen Test mit zwei sicher identischen Signalen) vorliegen haben, müssen wir von einem Bernoulli-Expriment mit p=0,5 ausgehen. Sprich es gibt nur zwei Alternativen "richtig zugeordnet" und "falsch zugeordnet".
Daraus ergibt sich wiederum bei mehreren Durchgängen eine Binomialverteilung.

Um nun die Nullhypothese "Es liegt eine Binomialverteilung mit der Wahrscheinlichkeit p vor" zu überprüfen, gibt es eine exakte Methode, den

Binomialtest.

In unserem Fall ist der Stichprobenumfang n=10, die Treffer-Wahrscheinlihkeit der Nullhypothese "reines Raten" p0=0,5 und die Anzahl der Treffer ist i=9 (oder auch i=1, läuft aus das selbe hinaus).

Wenn man das nun in die Formeln eintippt, ergibt sich bei unserem Beispiel ein Alpha-Fehler von 2,149%, was exakt den von pelmazo und mir genannten Werten entspricht.

Ich ziehe also mein leichtes Einlenken zurück und behaupte, dass mit Deiner Tabelle etwas nicht stimmt. Vermutlich hast Du eine der vielen möglichen Approximationen für große n benutzt, die für große n hervorragend funktionieren und den Rechenaufwand dramatisch verringern, aber eben für kleine n kollabieren und keine vernünftigen Ergebniss mehr liefern.

Wer keine Lust hat, ewig lange Formeln in den Taschenrechner zu tippen kann sich

hier ein wenig austoben.

Ich hoffe das Thema hat sich damit erledigt.

Edit: Hatte zunächst Alpha-Fehler und Siginifikanzniveau durcheinander gebracht

[Beitrag von Hannes2k2 am 03. Feb 2013, 15:40 bearbeitet]

pelmazo
Hat sich gelöscht

#14853 erstellt: 03. Feb 2013, 15:48

Hannes2k2 (Beitrag #14852) schrieb:

In unserem Fall ist der Stichprobenumfang n=10, die Treffer-Wahrscheinlihkeit der Nullhypothese "reines Raten" p0=0,5 und die Anzahl der Treffer ist i=9 (oder auch i=1, läuft aus das selbe hinaus).

Wenn man das nun in die Formeln eintippt, ergibt sich bei unserem Beispiel ein Alpha-Fehler von 2,149%, was exakt den von pelmazo und mir genannten Werten entspricht.

Du scheinst den Fall, daß der Proband fast immer richtig liegt, und den daß er fast immer falsch liegt, als gleichwertig zu betrachten. Das kann man tun, indem man annimmt, daß er die beiden Geräte zwar unterscheiden konnte, aber sich dabei bei der Zuordnung (systematisch) vertan hat. Ich neige dazu, das nicht gelten zu lassen, denn bei solchen Tests hat der Proband in der Vorbereitungsphase nichtblind die Möglichkeit, sich einzuhören. In so einem Fall sollte er dann die Zuordnung schon korrekt hinkriegen.

Das gehört aber eigentlich zu den Dingen, die man vor dem Test festlegen sollte, um Diskussionen hinterher zu vermeiden.

Amperlite
Inventar

#14854 erstellt: 03. Feb 2013, 15:54

pelmazo (Beitrag #14851) schrieb:

Meine Aussage betraf mehr den Hinweis darauf, dass man 9 von 10 Übereinstimmungen nicht unter allen Testumständen als gleich aussagekräftig werten darf (trivial, aber für einige neu).

a) Habe ich ein Bias in meiner Statistik? Davon muss ich immer ausgehen.
c) Kann ich die Ursache für die Verzerrung erkennen?
d) Kann ich die Ursache beseitigen?
b) Welchen Einfluss hätte das auf die Aussage, wenn ich letzteres nicht kann?

Dass eine erkannte Verzerrung beseitigt werden muss, ist klar.

Hannes2k2
Stammgast

#14855 erstellt: 03. Feb 2013, 15:59

pelmazo (Beitrag #14853) schrieb:

Hannes2k2 (Beitrag #14852) schrieb:

Du hast recht. Ich habe das einfach aus der Tabelle von kammerklang übernommen, weil ich ja eigentlich nachvollziehen wollte, was er da gerechnet hat.

tomtiger
Administrator

#14856 erstellt: 03. Feb 2013, 16:03

Hi,

pelmazo (Beitrag #14853) schrieb:

Das kann man tun, indem man annimmt, daß er die beiden Geräte zwar unterscheiden konnte, aber sich dabei bei der Zuordnung (systematisch) vertan hat.

ist, die Frage, was gefragt war. Ich bevorzuge die Fragestellung, ob es einen Unterschied zum davor gehörten Gerät gab. Dann gibt es vier Möglichkeiten:

a. Man hört einen Unterschied, die Geräte wurden gewechselt - korrekt
b. Man hört einen Unterschied, die Geräte wurden nicht gewechselt - nicht korrekt
c. Man hört keinen Unterschied, die Geräte wurden gewechselt - nicht korrekt
d. Man hört keinen Unterschied, die Geräte wurden nicht gewechselt - korrekt

Bei dieser Fragestellung wäre 1 richtige Antwort von 10 genauso geraten wie 5 von 10.

LG Tom

Zweck0r
Inventar

#14857 erstellt: 03. Feb 2013, 16:08

tomtiger (Beitrag #14842) schrieb:

Nachdem das Ergebnis statistisch bei gleichklingenden Geräten äusserst unwahrscheinlich ist, würde ich persönlich den Frequenzgang als erstes prüfen (soferne nicht schon gemacht).

Sehe ich auch so. Und zwar den Frequenzgang mit Lautsprecherlast. Der kann bei ungünstigen Konstellationen (schlecher Dämpfungsfaktor, Impedanzminimum/-maximum bei der Pegeltonfrequenz) nämlich auch zu Fehlern beim Pegelabgleich führen.

-scope-
Hat sich gelöscht

#14858 erstellt: 03. Feb 2013, 16:22

Bampa und ich werden den Test wiederholen. Dabei werden die Geräte zuerst auf Betriebstemperatur gebracht. Ausserdem wird überprüft, wie sich der Gain des Onix nach einer gewissen Zeit verhält, und unmittelbar vor dem Test nochmals kontrolliert.
Die technischen "Macken", die ich im Vorfeld nicht erahnen konnte, wird es dann nicht mehr geben.

Also....abwarten.

Achso...Der Klirr des Onix ist mit etwa 0,05%/1W/1KHz/8R nicht dramatisch. Die Messwerte beider Geräte werden bei 6 Watt (in etwa die im Test abgegebene Leistung) und 4R, sowie einer Lautsprechersimulation ermittelt.

[Beitrag von -scope- am 03. Feb 2013, 16:24 bearbeitet]

hifi_angel
Inventar

#14859 erstellt: 03. Feb 2013, 16:39

@ pelmazo,

mal anders herum. Du wendest ja (k über n) / 2^k an, wobei k die Anzahl der Versuche und n die Anzahl gleichartiger Ergebnisse ist. Also bei 9 Treffer folgt 0,9765%. Wenn aber die Anzahl gleichartiger Ergebnisse nicht Treffer sondern " Niete" (also nicht richtig geraten) bedeutet, ergibt sich auch die gleiche Wahrscheinlichkeit bei nur einem Treffer.
Also wenn nur geraten wird, ist die Wahrscheinlichkeit 9 Treffer zu landen genauso hoch (bzw. niedrig) wie 9 Nieten zu landen. Egal ob 9 Treffer oder 9 Nieten, beides hat die gleiche Wahrscheinlichkeit. Und der Zufall hätte beim ersten mal auch jedes andere Ergebnis erzeugen können.
Die Wahrscheinlichkeitsrechnung macht doch keine Vorhersage für das konkrete anstehende Ereignis (Vorgang), sondern eine langfristige Aussage (Tendenz) falls nur der Zufall im Spiel ist. Bei einem einmaligem bzw. erstmaligem Vorgang bei der nur der Zufall die Regie übernimmt kann jedes beliebige Ergebnis zustande kommen.

Um das zu verdeutlichen. Du kennst doch sicher das Zufalls-Spiel, wo eine Kugel entlang einem Holzbrett von oben über im Fallweg stehende Stifte nach unten fällt. In jeder Ebene fällt die Kugel also nachdem sie auf den Stift gefallen ist entweder nach links oder rechts weiter, bis sie unten angekommen in ein Fach fällt. Übertragen auf unser Beispiel gibt es also 10 Ebenen mit Stiften und am Ende 1024 Fächer, in der die Kugel fallen kann.
Jetzt kannst du natürlich für jeden beliebigen Fallverlauf (z.B. Kugel fällt 9 mal nach rechts und einmal nach links oder 5 mal nach rechts und 5 mal nach links) die entsprechenden unterschiedlichen Wahrscheinlichkeiten mit (k über n) / 2^k ausrechnen. Egal in welchem Fach die Kugel nach einem Wurf auch landet, es hat keinerlei Aussagekraft!
Erst nach genügend vielen Versuchen häufen sich die Kugeln in den Fächern, die von der Wahrscheinlichkeitsrechnung mit der höchsten Wahrscheinlichkeit auch errechnet wurden, also um den mittleren Bereich. Es sei denn es liegt kein Zufall vor, z.B. die Anordnung der Stifte ist nicht regelmäßig oder unsymmetrisch etc.

Und um nicht endlos viele Kugel zu werfen sagt die Statistik wie viel Durchgänge mit welcher Aussagekraft (Sicherheit) mindestens gemacht werden müssen um den Zufall zu bestätigen bzw. auszuschließen (Siehe Tabelle von Hörschnecke / Kammerklang.

Aber nach nach einem einmaligem Durchgang schon eine Festlegung treffen zu können hat weniger was mit Wahrscheinlichkeitsrechnung zu tun, sondern mehr mit hellseherischen Fähigkeiten.

Hörschnecke
Inventar

#14860 erstellt: 03. Feb 2013, 16:50

pelmazo schrieb:

So weit stimmt's noch. Die Wahrscheinlichkeit, daß durch reinen Zufall 1 Treffer von 10 heraus kommt ist genauso groß wie bei 9 von 10.

... danke, hat ja auch nur 3 Anläufe und X Beschimpfungen gegen mich gebraucht, um das klarzumachen

Mir ist sehr wohl bewußt, daß die Wahrscheinlichkeit letztlich der Grenzwert ist, dem man sich bei immer mehr Versuchen immer weiter annähern wird. Trotzdem ist das gleichzeitig der Erwartungswert für jeden einzelnen Versuch.

"Erwartungswert für einen einzelnen Versuch" macht aber keinen Sinn, die Wahrscheinlichkeitsangabe (in %) bezieht sich immer auf eine (möglichst große) Anzahl von Versuchen. Wenn Du aber nur einen Versuch machst, und auf bewußtes oder unbewußtes Raten angewiesen bist, können die (9/10) schon bei diesem einen einzigen Versuch auftreten. Die "Häufigkeit" dieser Trefferquote (9/10) war bei diesem Einzelversuch dann 100%. Erst bei einer zunehmenden Anzahl von Versuchen wird sich die Trefferquote (9/10) erwartungsgemäß langsam einer Häufigkeit von 1% unter allen Versuchen annähern.

Ich hätte daraus geschlossen (ohne Bauchgefühl!) daß ein Unterschied nicht mit der nötigen Sicherheit gefunden wurde, und man demzufolge legitimerweise weiterhin an der Annahme festhalten kann, daß die Verstärker gleich klingen.

... einmal sind für Dich 99% "die nötige Sicherheit" und einmal nicht. Das ist opportun und widersprüchlich. Wenn Du nicht Dein persönliches "Bauchgefühl" dafür verantworlich machen willst, nenne diese Subjektivität meinetwegen auch anders, z.B. Confirmation-Bias.

Die Wahrscheinlichkeit eines Treffers ist bei beim ersten Versuch nicht anders als beim einmillionsten, ich hoffe das ist unstrittig.

... wenn nur der Zufall eine Rolle spielt, ist die Entscheidung für A oder B jedesmal gleich wahrscheinlich. Die Karten sind praktisch jedesmal neu gemischt. Unstrittig. Wenn aber ein Proband aus Fleisch und Blut die Entscheidungen trifft, muß man da aufpassen. Da kann es einen Unterschied machen, ob er schon eine Million Entscheidungsprozesse hinter sich hatte oder nur einen ;). Klingt zunächst albern, aber diese Problematik tritt selbst schon bei 10 bis 20 Durchgängen ein - wer aber noch keine echten BTs gemacht hat, hat keine Vorstellung davon.

[Beitrag von Hörschnecke am 03. Feb 2013, 16:53 bearbeitet]

Zim81
Hat sich gelöscht

#14861 erstellt: 03. Feb 2013, 16:59

Können wir jetzt endlich nochmal zum Ursprungsthema zurückkommen.

Hannes2k2
Stammgast

#14862 erstellt: 03. Feb 2013, 17:03

@hifi-angel:

Jetzt wirfst Du aber alles durcheinander.

Man kann den Versuch auf zwei Arten interpretieren:

1. Man bewertet die 10 Durchgänge als jeweils einen eigenständigen Test. Du hast also nicht einen Durchgang sondern 10 Durchgänge. Dann gilt für jeden Durchgang die Wahrscheinlichkeit p=0,5, die von mir genannten Berechnungen greifen, und dein Nagelbrettchen ergibt die Binomialverteilung für diesen Versuch.

2. Man bewertet den gesamten Test als einen Durchgang. Dann muss man zunächst festlegen, ab welcher Trefferzahl der Test als bestanden gilt. In diesem Fall wären das 9 Treffer. Die Wahrscheinlichkeit, durch Raten diese oder ein bessere Ergebnis zu erzielen liegt bei p=0,0107. (Das kann man auch durch wiederholtes Kugelwerfen auf Deinem Nagelbrett ermitteln)
Wenn Du mit diesen Werten nun den Binomialtest durchführst, wirst Du festellen, dass er für nur einen Durchgang das gleiche Siginfikanzniveau erreicht wie der unter 1. beschriebene Versuch nach 10 Durchgängen. So eine Überraschung!

Dass der unter 2. genannte Versuch nach nur einem Durchgang schon ein soclhes Siginfikanzniveau erreicht liegt schlicht und ergreifen daran, dass die ihm zu Grunde liegende Binomialverteilung extrem "spitz" aussieht.

[Beitrag von Hannes2k2 am 03. Feb 2013, 17:09 bearbeitet]

bampa
Stammgast

#14863 erstellt: 03. Feb 2013, 17:49

Mal ne andere Frage vorab, wie muss der Test denn nächstes mal ausfallen damit es bei Euch als Glaubwürdig und bestanden gilt?
Sollten wir vielleicht erst mal festlegen, bevor nachher wieder alles angezweifelt wird.

Also mehr als 10 machen wir aber auch da nicht ist anstrengend genug!
Und irgendwie habe ich jetzt schon nen bisl Angst

pelmazo
Hat sich gelöscht

#14864 erstellt: 03. Feb 2013, 17:57

hifi_angel (Beitrag #14859) schrieb:

mal anders herum. Du wendest ja (k über n) / 2^k an, wobei k die Anzahl der Versuche und n die Anzahl gleichartiger Ergebnisse ist. Also bei 9 Treffer folgt 0,9765%. Wenn aber die Anzahl gleichartiger Ergebnisse nicht Treffer sondern " Niete" (also nicht richtig geraten) bedeutet, ergibt sich auch die gleiche Wahrscheinlichkeit bei nur einem Treffer.

Richtig.

Auch richtig.

Die Wahrscheinlichkeitsrechnung macht doch keine Vorhersage für das konkrete anstehende Ereignis (Vorgang), sondern eine langfristige Aussage (Tendenz) falls nur der Zufall im Spiel ist. Bei einem einmaligem bzw. erstmaligem Vorgang bei der nur der Zufall die Regie übernimmt kann jedes beliebige Ergebnis zustande kommen.

Aber nicht unbedingt mit der gleichen Wahrscheinlichkeit. Die Wahrscheinlichkeitsrechnung macht keine Vorhersagen für einzelne Ereignisse, aber sie macht Aussagen darüber, wie wahrscheinlich diese sind.

Um das zu verdeutlichen. Du kennst doch sicher das Zufalls-Spiel, wo eine Kugel entlang einem Holzbrett von oben über im Fallweg stehende Stifte nach unten fällt. In jeder Ebene fällt die Kugel also nachdem sie auf den Stift gefallen ist entweder nach links oder rechts weiter, bis sie unten angekommen in ein Fach fällt. Übertragen auf unser Beispiel gibt es also 10 Ebenen mit Stiften und am Ende 1024 Fächer, in der die Kugel fallen kann.

Kenne ich. An dieser Stelle wird aber die Analogie zu unserem Fall problematisch. So lange die Wahl zwischen A und B (oder links und rechts) rein zufällig ist, gilt die Analogie. Wir wollen aber gerade wissen, ob die Wahl zufällig ist oder nicht. Da paßt es nicht mehr so ganz, denn bampa trifft die gleiche Wahl 10 Mal, während Dein Kugelkasten die 10 Entscheidungen beim Fallen der Kugel an unterschiedlichen Stellen fällt. Wenn Dein Kugelkasten nun "gezinkt" wäre, so daß die Entscheidung an einer bestimmten Stelle nicht gleich wahrscheinlich ist, dann haben wir einen systematischen Unterschied.

Eine bessere Analogie wäre also der Wurf einer Münze, der 10 Mal hintereinander erfolgt. Ist die Münze gezinkt, dann wirkt sich das auf alle Würfe gleichermaßen aus. Es sind dann 10 Versuche und nicht bloß einer, was vielleicht ein wenig Deinem Eindruck entgegen wirkt, es handle sich bloß um ein Ereignis, das keine statistische Aussagekraft hat.

Und um nicht endlos viele Kugel zu werfen sagt die Statistik wie viel Durchgänge mit welcher Aussagekraft (Sicherheit) mindestens gemacht werden müssen um den Zufall zu bestätigen bzw. auszuschließen (Siehe Tabelle von Hörschnecke / Kammerklang.

Wenn wir uns darauf einigen können, daß wir es mit 10 unabhängigen Versuchen zu tun haben, bei der jeweils eine Entscheidung zwischen zwei Alternativen zu fällen war, dann kann man auf dieses Szenario die gleichen statistischen Mechanismen anwenden, und daraus eine Aussagekraft ableiten. Nichts anderes versuche ich hier die ganze Zeit.

Und daß die Tabelle von Kammerklang hier nicht ganz paßt, haben ja inzwischen auch schon mehrere Leute andiskutiert.

bampa schrieb:

Sollten wir vielleicht erst mal festlegen, bevor nachher wieder alles angezweifelt wird.

Das sollte man vorher festlegen, in der Tat. Gib Dich aber nicht der Hoffnung hin, daß Du dadurch vermeiden kannst, daß das Ergebnis hinterher angezweifelt wird. Je weniger Ahnung einer hat, desto mehr Einwände werden ihm plausibel vorkommen.

astrolog
Inventar

#14865 erstellt: 03. Feb 2013, 17:57

bampa (Beitrag #14863) schrieb:

Mir persönlich reicht jetzt schon Deine Aussage, dass Du Deinen Amp hast heraushören können! Von Scope wurde dies ja glaubhaft bestätigt.
Wenn dies dann noch statistisch untermauert wird, sollte dies auch Skeptikern ausreichen.
Jetzt geht es eigentlich nur noch darum, ob das Ergebnis auch unter optimalen Bedingungen, wie Scope sie aufgeführt hat, reproduzierbar ist.
Danach kann man sich immer noch um die Gründe prügeln...

Burkie
Inventar

#14866 erstellt: 03. Feb 2013, 18:00

pelmazo (Beitrag #14828) schrieb:

hifi_angel (Beitrag #14818) schrieb:

Der Begriff "Erfolg" gibt es in der Wahrscheinlichkeitsrechnung nicht.

Oh, come on! Jetzt stellst Du Dich gerade unnötig dickschädlig. Wir reden von einem Blindtest, und als Erfolg werten wir hier wohl allgemein die Bestätigung der Hypothese.

Gemäß dem Jakobsweg besteht die Bestätigung der Hypophyse in der Zurückweisung der Null-Hyphothenuhse, die mit 80%ger Wahrscheinlichkeit die Signifikanzschwelle von 5% beim gleichzeitigen Raten der Mondfasen unterschreitet, damit,... äääh, ööhhmm, äähh...

Also , gemäß dem Jakobs-Verwirrungs-Weg und dem Janus'schen Einbildungsprinzip ist damit mal wieder sowohl Kabelklang, Verstärkerklang als auch das Ying-Yang-Prinzip beim Transistorbau bewiesen. Um jetzt mal die Dummen für blöd zu verkaufen....

Grüsse

tomtiger
Administrator

#14867 erstellt: 03. Feb 2013, 18:08

Hi,

hifi_angel (Beitrag #14859) schrieb:

Also wenn nur geraten wird, ist die Wahrscheinlichkeit 9 Treffer zu landen genauso hoch (bzw. niedrig) wie 9 Nieten zu landen. Egal ob 9 Treffer oder 9 Nieten, beides hat die gleiche Wahrscheinlichkeit. Und der Zufall hätte beim ersten mal auch jedes andere Ergebnis erzeugen können.
[...]
Aber nach nach einem einmaligem Durchgang schon eine Festlegung treffen zu können hat weniger was mit Wahrscheinlichkeitsrechnung zu tun, sondern mehr mit hellseherischen Fähigkeiten.

es hat aber 10 Versuche bzw. Durchgänge gegeben!

Hörschnecke (Beitrag #14860) schrieb:

Wenn Du aber nur einen Versuch machst, und auf bewußtes oder unbewußtes Raten angewiesen bist, können die (9/10) schon bei diesem einen einzigen Versuch auftreten.

Dito. Es hat 10 Versuche gegeben.

Bei einem Versuch liegt die Wahrscheinlichkeit des reinen Zufalls bei exakt 100%. Je größer die Anzahl der Versuche, desto näher kommt der reine Zufall der 50% Trefferquote. Bei einer unendlichen Anzahl von Versuchen ist der reine Zufall exakt 50%. Das bedeutet, bei mehreren Milliarden Versuchen wäre eine Trefferquote von 52% bereits statistisch signifikant.

Bei 10 Versuchen liegt sie - wenn ich mich recht erinnere - bei etwa 7:3. Wenn Du also bei 10 Versuchen 8 Richtige oder mehr hast, ist das bereits statistisch signifikant.

Eine Aussage lässt sich - wie Scope korrekt geschrieben hat - nicht treffen, dazu fehlt unter anderem noch die Reproduzierbarkeit des Ergebnisses.
LG Tom

tomtiger
Administrator

#14868 erstellt: 03. Feb 2013, 18:13

bampa (Beitrag #14863) schrieb:

Der Test hat jetzt schon seine statistische Signifikanz. Wenn Du das wiederholen kannst, ist für mich unbestritten erwiesen, dass Du die zwei Verstärker am Klang auseinanderhalten kannst.

Dann stellt sich nurmehr die Frage nach dem Warum.

LG Tom

Janus525
Hat sich gelöscht

#14869 erstellt: 03. Feb 2013, 18:20

astrolog (Beitrag #14865) schrieb:

Jetzt geht es eigentlich nur noch darum, ob das Ergebnis auch unter optimalen Bedingungen, wie Scope sie aufgeführt hat, reproduzierbar ist.

So sehe ich es auch, Astrolog. Ist das Ergebnis reproduzierbar, wird es dafür nach meiner Einschätzung einen technischen Grund geben, den Scope bestimmt herausfinden wird. Ist es das nicht, bestätigt sich das Ergebnis anderer Blindtests. In sofern erwarte ich in keinem der beiden Fälle ein überraschendes Ergebnis. Ich denke, wir sollten uns ein wenig in Geduld üben..., keine voreiligen Schlüsse ziehen..., und vor allem gelegentlichen auftauchenden verbalen Unrat vorbeischwimmen lassen...

Viele Grüße: Janus...

pelmazo
Hat sich gelöscht

#14870 erstellt: 03. Feb 2013, 18:23

Hörschnecke (Beitrag #14860) schrieb:

... danke, hat ja auch nur 3 Anläufe und X Beschimpfungen gegen mich gebraucht, um das klarzumachen ;)

Habe ich das denn irgendwo bestritten? Daß das Pascal'sche Dreieck symmetrisch ist wußte ich von Anfang an. Muß man jede triviale Wahrheit ausdrücklich erwähnen?

"Erwartungswert für einen einzelnen Versuch" macht aber keinen Sinn, die Wahrscheinlichkeitsangabe (in %) bezieht sich immer auf eine (möglichst große) Anzahl von Versuchen.

Nein, es ist üblich, von der Wahrscheinlichkeit eines Ereignisses zu reden. Das gehört quasi zur Definition des Begriffs. Du baust hier einen völlig überflüssigen Popanz auf.

So ein Quatsch! Du faselst wirres Zeug!

Wir reden hier aber von der Nullhypothese, die es zurückzuweisen gilt. Die Nullhypothese ist ein idealisiertes Konstrukt der Wahrscheinlichkeitsrechnung, und keine Repräsentation der Form des Probanden. Falsche Baustelle.