Benfordsche Gesetz

Smalltalk
Antworten
inne
Beiträge: 3273
Registriert: 29.06.2013 17:32:10
Lizenz eigener Beiträge: GNU General Public License
Kontaktdaten:

Benfordsche Gesetz

Beitrag von inne » 09.09.2018 19:54:56

Hallo,

ich habe mal das Benfordsche Gesetz, auf die Spenden vom Debianforum angewand, wobei jeder Spendenbetrag ein Datensatz ist:

Code: Alles auswählen

$ sh NBL.sh 
  130  33.2% 1
  123  31.4% 2
   93  23.7% 5
   25  6.38% 3
   18  4.59% 4
    2  0.51% 6
    1 0.255% 7
Referenzwerte laut Wikipedia:
1 30,1%, 2 17,6%, 3 12,5%, 4 9,7%, 5 7,9%, 6 6,7%, 7 5,8%, 8 5,1%, 9 4,6%
Bei einer Datenmenge von 392 Spenden:

Code: Alles auswählen

$ wc -l spenden.txt 
392 spenden.txt
Kann man daraus nun etwas ableiten?

Benutzeravatar
CH777
Beiträge: 1464
Registriert: 27.05.2008 16:37:17

Re: Benfordsche Gesetz

Beitrag von CH777 » 09.09.2018 20:29:10

inne hat geschrieben: ↑ zum Beitrag ↑
09.09.2018 19:54:56
Kann man daraus nun etwas ableiten?
Nein, denn:
wikipedia hat geschrieben:Das NBL gilt für reale Datensätze (damit sind hier solche gemeint, die keinen Manipulationen unterlagen), die genügend umfangreich sind und Zahlen in der Größenordnung von x bis mindestens 10000 x aufweisen, Daten also, die einigermaßen weit verteilt (dispergiert) sind.

inne
Beiträge: 3273
Registriert: 29.06.2013 17:32:10
Lizenz eigener Beiträge: GNU General Public License
Kontaktdaten:

Re: Benfordsche Gesetz

Beitrag von inne » 09.09.2018 20:57:43

Damit hast Du natürlich Recht, der Datensatz/Umfang ist einfach zu klein..

inne
Beiträge: 3273
Registriert: 29.06.2013 17:32:10
Lizenz eigener Beiträge: GNU General Public License
Kontaktdaten:

Re: Benfordsche Gesetz

Beitrag von inne » 09.09.2018 21:00:47

CH777 hat geschrieben: ↑ zum Beitrag ↑
09.09.2018 20:29:10
wikipedia hat geschrieben:... und Zahlen in der Größenordnung von x bis mindestens 10000 x aufweisen
Ist damit gemeint, dass hier mindestens eine Spende von 10000 Euro dabei sein muss?

Benutzeravatar
CH777
Beiträge: 1464
Registriert: 27.05.2008 16:37:17

Re: Benfordsche Gesetz

Beitrag von CH777 » 09.09.2018 22:56:10

So würde ich das verstehen.

Benutzeravatar
Meillo
Moderator
Beiträge: 8782
Registriert: 21.06.2005 14:55:06
Wohnort: Balmora
Kontaktdaten:

Re: Benfordsche Gesetz

Beitrag von Meillo » 10.09.2018 08:27:46

Das ist doch Grund genug, dass so eine Spende mal eingehen sollte. :-D
Use ed once in a while!

Benutzeravatar
hikaru
Moderator
Beiträge: 13559
Registriert: 09.04.2008 12:48:59

Re: Benfordsche Gesetz

Beitrag von hikaru » 10.09.2018 11:15:13

CH777 hat geschrieben: ↑ zum Beitrag ↑
09.09.2018 20:29:10
wikipedia hat geschrieben:Das NBL gilt für reale Datensätze (damit sind hier solche gemeint, die keinen Manipulationen unterlagen), die genügend umfangreich sind und Zahlen in der Größenordnung von x bis mindestens 10000 x aufweisen, Daten also, die einigermaßen weit verteilt (dispergiert) sind.
Ich weiß nicht, ob es eine Definition für "genügend umfangreich" gibt, aber wenn ich die Zahlen zur Grundgesamtheit aus den Beispielen im Wikipediaartikel mit der gesamten dfde-Spendenhistorie vergleiche, dann würde ich meinen, das Kriterium des ausreichenden Umfangs wäre hier erfüllt.
Auch das Kriterium der Größenordnung lässt sich erfüllen, wenn man als Grundlage nicht den Betrag in Euro sondern in Cent betrachet. (Ich würde daher vermuten, dass dieses Kriterium insgesamt zumindest unglücklich formuliert ist. Entscheidend ist nicht die absolute Größe, sondern die Granularität.)

Ich würde meinen, dass das Problem woanders liegt, nämlich in der Forderung nach Fehlen von Manipulation, denn die Spendenbeträge sind durch die Spender (unabsichtlich) manipuliert.
Die meisten Spendenbeiträge sind runde Euro-Zahlen, weil sich das am einfachsten handhaben lässt. Darunter leidet indirekt auch die Granularität, denn obwohl es durchaus möglich wäre, z.B. einen Betrag von 1337 Cent zu spenden, passiert das so selten, dass wir schon gar nicht mehr die Möglichkeit einer solchen Spende in Betracht ziehen.
Ein zusätzlicher Manipulationsfaktor liegt in der Spendenmotivation. Für gewöhnlich werden für Spenden Beträge gewählt, die dem Spender nicht weh tun. Genau deshalb sehen wir z.B. keine 10000-Euro-Spenden, weil wir hier offenbar keine Mitglieder haben, die solche Beträge aus der Portokasse zahlen, bzw. falls doch, mit so einer Spende eine gewisse soziale Exponierung stattfinden würde, die vielleicht nicht gewünscht ist. Dem einen oder anderen wäre es aber sicher möglich, so eine Spende zu leisten, wenn er wirklich wollte.

inne
Beiträge: 3273
Registriert: 29.06.2013 17:32:10
Lizenz eigener Beiträge: GNU General Public License
Kontaktdaten:

Re: Benfordsche Gesetz

Beitrag von inne » 10.09.2018 11:49:38

Du hast schon recht, das man Spenden im Grunde nicht auf Plausibilität prüfen kann, eher schon die damit getätigten Ausgaben von feltel. Dort sind es aber immer die selben Rechnungsbeträge (Also auch keine Brauchbare Datenmenge für das Benfordsche Gesetz).

inne
Beiträge: 3273
Registriert: 29.06.2013 17:32:10
Lizenz eigener Beiträge: GNU General Public License
Kontaktdaten:

Re: Benfordsche Gesetz

Beitrag von inne » 10.09.2018 12:27:00

Hier als Schluss noch einmal was die Wikipedia zum Anwendungsfall für das Benfordsche Gesetz schreibt:
Entsprechen reale Datensätze trotz Erfüllung der parametrischen Anforderungen dem Benfordschen Gesetz insofern nicht, als die Anzahl des Auftretens einer bestimmten Ziffer signifikant von der durch das Benfordsche Gesetz angegebenen Erwartung abweicht, dann wird ein Prüfer jene Datensätze, [...], einer tiefergehenden Analyse unterziehen, um die Ursache(n) für diese Abweichungen zu finden. Dieses Schnellverfahren kann zu tieferen Erkenntnissen über Besonderheiten des untersuchten Datensatzes bzw. zur Aufdeckung von Manipulationen bei der Datenerstellung führen.

uname
Beiträge: 12043
Registriert: 03.06.2008 09:33:02

Re: Benfordsche Gesetz

Beitrag von uname » 10.09.2018 13:03:10

Auch wenn der Umfang der Analyse nicht sehr umfangreich war, sehe ich das Problem auch eher bei den Spendern selbst. Bei Manipulationen von Rechnungen werden Beträge über einen Schwellwert (z. B. 1000,- Euro) aufgeteilt, um einer Überprüfung zu umgehen (z. B. 2 x 500,- Euro statt 1000,- Euro), welches bei einer Beford Analyse auffallen könnte. Beim Debianforum ist es ähnlich und fällt auch auf. Betrachtet man die führende Ziffer der 1,- 2- und 3-stelligen Spendenbeträge, so sind diese nicht log-normalverteilt. Es gibt viel zu viele Spender, die einfach "schöne" Beträge wie z. B. 5,- Euro (1-stellig) oder 50,- Euro (2-stellig) spenden.

Benutzeravatar
CH777
Beiträge: 1464
Registriert: 27.05.2008 16:37:17

Re: Benfordsche Gesetz

Beitrag von CH777 » 10.09.2018 13:28:05

hikaru hat geschrieben: ↑ zum Beitrag ↑
10.09.2018 11:15:13
Auch das Kriterium der Größenordnung lässt sich erfüllen, wenn man als Grundlage nicht den Betrag in Euro sondern in Cent betrachet.
Da der kleinste Spendenbetrag ein Euro ist würde sich dadurch gar nichts ändern.

inne
Beiträge: 3273
Registriert: 29.06.2013 17:32:10
Lizenz eigener Beiträge: GNU General Public License
Kontaktdaten:

Re: Benfordsche Gesetz

Beitrag von inne » 10.09.2018 17:39:07

Der Vorschlag alles in Eurocent umzurechnen, um einen Zahlwert von 10000 dabei zu haben, ändert imo nichts an der Verteilung. Der Umrechnungsfaktor ist 100 (d.h. ich verschiebe das Komma, um zwei Stellen nach Rechts), und das ändert die erste Ziffer nicht, und nur diese wird herangezogen.

Aber ich vermute das wollte Hikaru auch ausdrücken, nur etwas anders!

Benutzeravatar
hikaru
Moderator
Beiträge: 13559
Registriert: 09.04.2008 12:48:59

Re: Benfordsche Gesetz

Beitrag von hikaru » 11.09.2018 09:16:10

CH777 hat geschrieben: ↑ zum Beitrag ↑
10.09.2018 13:28:05
hikaru hat geschrieben: ↑ zum Beitrag ↑
10.09.2018 11:15:13
Auch das Kriterium der Größenordnung lässt sich erfüllen, wenn man als Grundlage nicht den Betrag in Euro sondern in Cent betrachet.
Da der kleinste Spendenbetrag ein Euro ist würde sich dadurch gar nichts ändern.
In der Sache natürlich nicht, aber rein formal bin ich mir nicht sicher. Ich verstehe nämlich noch nicht, ob das die Grundgröße definierende x der kleinste mögliche, oder der kleinste tatsächlich vorkommende Wert ist.

Dem Wikipediaartikel zufolge würde ich davon ausgehen, dass der kleinste tatsächlich vorkommende Wert gemeint ist. Das wäre in unserem Beispiel die 2-Euro-Spende von Natas12 aus 2004. Damit wäre 10000 * x = 20000 Euro und das Kriterium wäre natürlich nicht erfüllt. Diese Definition halte ich aber bei manipulierBAREN Datensätzen für unpassend, denn x kann jederzeit willkürlich geändert werden, und sei es nur um die Statistik zu manipulieren. Um das zu demonstrieren war ich gestern sogar versucht, einen Cent zu spenden, denn dann wäre 10000 * x = 100 Euro, und solche Spenden haben wir durchaus. Das formale Kriterium wäre damit erfüllt, aber das verbessert natürlich nicht die Aussagekraft der Statistik. Ich sah dann aber von der Spende ab, weil ich feltel nicht damit belästigen wollte.

Andererseits, falls der kleinste mögliche Wert gemeint ist (so verstehe ich deine Aussage zur 1-Euro-Spende), dann ist der eben nicht 1 Euro, sondern 1 Cent.

inne
Beiträge: 3273
Registriert: 29.06.2013 17:32:10
Lizenz eigener Beiträge: GNU General Public License
Kontaktdaten:

Re: Benfordsche Gesetz

Beitrag von inne » 11.09.2018 10:37:53

hikaru hat geschrieben: ↑ zum Beitrag ↑
11.09.2018 09:16:10
Dem Wikipediaartikel zufolge würde ich davon ausgehen, dass der kleinste tatsächlich vorkommende Wert gemeint ist. Das wäre in unserem Beispiel die 2-Euro-Spende von Natas12 aus 2004. Damit wäre 10000 * x = 20000 Euro und das Kriterium wäre natürlich nicht erfüllt.
Ich suche dazu gerade im Netz andere Quellen, wo die Anforderungen an das Datenmaterial erklärt werden...


hikaru hat geschrieben: ↑ zum Beitrag ↑
10.09.2018 11:15:13
... war ich gestern sogar versucht, einen Cent zu spenden
Dann wäre in der Menge des Datenmaterial ein Wert von 0,01 Euro gegeben, aber die führenden Ziffern (und auch die Formel) beginnen bei 1, wie würde man das Lösen? Andere Frage: Hat man nicht in den Formeln dann die Division durch 0? Ausser man nimmt dann alle Beträge in Eurocent.

Bessere Beispiel sind andere Einheiten z.B. Meter, wo ist da die kleinste Teilung mm, µm, nm usw.?
Zuletzt geändert von Anonymous am 11.09.2018 10:51:36, insgesamt 4-mal geändert.

uname
Beiträge: 12043
Registriert: 03.06.2008 09:33:02

Re: Benfordsche Gesetz

Beitrag von uname » 11.09.2018 10:42:56

Ich würde gerne wissen wovon die Größenordnung 10000x kommt, die ich beim englischsprachigen Wikipedia-Beitrag nicht gefunden habe. Wenn man von einen natürlichen Wachstumsprozess (z. B. Inflation und nicht Zufallszahlen) ausgeht, dann wird bei 1, 10, 100, ... bis zur Verdopplung (+100% also bis 2, 20, 200, ...) die führende Ziffer 1 beibehalten. Bei 2, 20, 200, ... wird nur halb so lang (+50% also bis 3, 30, 300) die führende Ziffer 2 beibehalten usw. welches dem Benfordschen Gesetz (log-normalverteilt) entspricht. Warum es mindestens 4 (log10 10000) dieser Durchgänge bedarf erschließt sich mir nicht.

Benutzeravatar
hikaru
Moderator
Beiträge: 13559
Registriert: 09.04.2008 12:48:59

Re: Benfordsche Gesetz

Beitrag von hikaru » 11.09.2018 10:51:54

inne hat geschrieben: ↑ zum Beitrag ↑
11.09.2018 10:37:53
Ausser man nimmt dann alle Beträge in Eurocent.
Genau das war ja mein Punkt. Abgesehen von der Gewohnheit gibt es überhaupt keinen Grund, einen Wert von 100 Cent als Basiswert anzunehmen, nur weil wir das "1 Euro" nennen.

uname hat geschrieben: ↑ zum Beitrag ↑
11.09.2018 10:42:56
Ich würde gerne wissen wovon die Größenordnung 10000x kommt, den ich beim englischsprachigen Wikipedia-Beitrag nicht gefunden habe.
Ich vermute, das basiert nicht auf den Werten der Zahlen selbst, sondern auf der Verteilung der führenden Ziffern. Wenn du Zahlen von x bis 10000*x betrachtest, dann gibt es für jede führende Ziffer (außer 0 und streng genommen 1) vier Wertebereiche, nämlich x*10^[0..3]. Ich vermute, es hat statistische Gründe, dass man mindestens vier veschiedene Wertebereiche betrachten möchte.

Benutzeravatar
Meillo
Moderator
Beiträge: 8782
Registriert: 21.06.2005 14:55:06
Wohnort: Balmora
Kontaktdaten:

Re: Benfordsche Gesetz

Beitrag von Meillo » 12.09.2018 09:16:12

hikaru hat geschrieben: ↑ zum Beitrag ↑
11.09.2018 10:51:54
Ich vermute, es hat statistische Gründe, dass man mindestens vier veschiedene Wertebereiche betrachten möchte.
So sehe ich das auch. Die absolute Zahl ist irrefuehrend. Letztlich geht es um die Granularitaet und die Breite des Wertespektrums.

Die absolute Zahl 10.000 betrifft nur den Fall, dass man die Werte so normalisiert, dass der kleinste Wert 0 ist und die Granularitaet 1 -- in dem Fall sollte der groesste Wert mindestens 10.000 sein. So meine Interpraetation.
Use ed once in a while!

wanne
Moderator
Beiträge: 7447
Registriert: 24.05.2010 12:39:42

Re: Benfordsche Gesetz

Beitrag von wanne » 12.09.2018 15:42:42

wenn man als Grundlage nicht den Betrag in Euro sondern in Cent betrachet.
Rechne in Rubel um und es wird deutlich besser funktionieren.
Dann bekommst du ganz ordentliche Werte.
Bleibt das Problem, dass wir vermutlich zigfach 50€ aber nie 50.01€ haben. Defakto ist erst die 10er Stelle signifikant. Die Spender sind halt einfach kein vernünftiger Zufallsgenerator.
rot: Moderator wanne spricht, default: User wanne spricht.

uname
Beiträge: 12043
Registriert: 03.06.2008 09:33:02

Re: Benfordsche Gesetz

Beitrag von uname » 12.09.2018 16:15:35

wanne hat geschrieben:Rechne in Rubel um und es wird deutlich besser funktionieren.
Dann bekommst du ganz ordentliche Werte.
Eher nein. Dann sind die Werte wahrscheinlich normalverteilt und nicht log-normalverteilt und unterliegen nicht dem Benfordsches Gesetz.
Und selbst wenn wenn würde man das Benfordsche Gesetz nicht anwenden können, da gerade die auffälligen Werte (z. B. 50,- Euro) nicht mehr sichtbar sind.
wanne hat geschrieben:Bleibt das Problem, dass wir vermutlich zigfach 50€ aber nie 50.01€ haben. Defakto ist erst die 10er Stelle signifikant. Die Spender sind halt einfach kein vernünftiger Zufallsgenerator.
Eher nein. Ein Zufallsgenerator unterliegt eben nicht dem Benfordschen Gesetz.

Benutzeravatar
Meillo
Moderator
Beiträge: 8782
Registriert: 21.06.2005 14:55:06
Wohnort: Balmora
Kontaktdaten:

Re: Benfordsche Gesetz

Beitrag von Meillo » 12.09.2018 22:47:11

Man koennte die Anzahlen von Posts aller Forenmitglieder analysieren. Da haben wir eine Spanne von 21.000 bis 1 mit einer Granularitaet von 1.

memberlist.php

... bin gespannt, ob dort manipuliert worden ist. ;-)
Use ed once in a while!

wanne
Moderator
Beiträge: 7447
Registriert: 24.05.2010 12:39:42

Re: Benfordsche Gesetz

Beitrag von wanne » 13.09.2018 00:01:31

uname hat geschrieben: ↑ zum Beitrag ↑
12.09.2018 16:15:35
Dann sind die Werte wahrscheinlich normalverteilt und nicht log-normalverteilt
Sehe ich anders. Ich denke dass die spender proportional zu ihrem Einkommen spenden werden. Das wäre mal ein interessanter Test.
uname hat geschrieben: ↑ zum Beitrag ↑
12.09.2018 16:15:35
Und selbst wenn wenn würde man das Benfordsche Gesetz nicht anwenden können, da gerade die auffälligen Werte (z. B. 50,- Euro) nicht mehr sichtbar sind.
Die Idee ist ja eher, dass es eben keine auffälligen Werte gibt, weil man einen Zufallsgenerator mit Gleichverteilung genutzt hat statt einen log-normalverteilten.
rot: Moderator wanne spricht, default: User wanne spricht.

Antworten