Mal eine Frage zu Statistik....

Smalltalk
Antworten
Benutzeravatar
desputin
Beiträge: 1298
Registriert: 24.04.2015 17:16:34

Mal eine Frage zu Statistik....

Beitrag von desputin » 21.12.2022 12:03:54

Hallo Ihr,

ich habe mal eine wissenschaftliche Frage bzw. eine Frage zu Statistik.
Und zwar habe ich ein Ranking von Landkreisen nach verschiedenen Kriterien als Tabelle erstellt.
Sagen wir jährliche Durchschnittetemperatur.

Also wir haben dann Werte wie

Code: Alles auswählen

Landkreis 1: 8,5°
Landkreis 2: 7,5°
Landkreis 3: 9,1°
Landkreis 4: 10,0°
[...]
Damit ich die Landkreise besser bewerten kann, bringe ich alle ca. 400 Landkreise in eine Rangfolge, wobei der Landkreis mit der höchsten Temperatur eine 1,00 bekommt und der Landkreis mit der niedrigsten Temperatur eine 0,00 - und alle anderen Landkreise dazwischen die Werte dazwischen zwischen 0-1.
Die Formel in Libreoffice Calc dafür ist:

Code: Alles auswählen

=([Temperatur-Wert]-[Minimum aller Werte])/(Maximum aller Werte]-[Minimum aller Werte])
Danach krieg ich also sowas heraus wie:

Code: Alles auswählen

Landkreis 1: 0,65
Landkreis 2: 0,52
Landkreis 3: 0,70
Landkreis 4: 0,89
[...]
Wie nennt man ein solches Vorgehen? Wie sind die Fachworte in der Statistik/Stochastik/Wissenschaft?

Viele Grüße desputin
https://www.daswirdmanjawohlnochsagenduerfen.de
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |

Benutzeravatar
Tintom
Moderator
Beiträge: 3033
Registriert: 14.04.2006 20:55:15
Wohnort: Göttingen

Re: Mal eine Frage zu Statistik....

Beitrag von Tintom » 21.12.2022 12:31:25

Du hast eine Skala gebildet mit einem Intervall von 0 bis 1.

Bei Intervallskalen im Zusammenhang mit Temperaturen musst du beim Interpretieren der Werte allerdings aufpassen, die Maßeinheit Grad Celsius ist dafür nicht sonderlich gut geeignet.

Benutzeravatar
Ibex
Beiträge: 319
Registriert: 25.07.2008 20:54:19

Re: Mal eine Frage zu Statistik....

Beitrag von Ibex » 21.12.2022 13:11:08

In der Mathematik bezeichnet man das als Normierung oder auch Normalisierung.

Benutzeravatar
hikaru
Moderator
Beiträge: 13594
Registriert: 09.04.2008 12:48:59

Re: Mal eine Frage zu Statistik....

Beitrag von hikaru » 21.12.2022 13:17:39

Was du da gemacht hast, würde man in der Informatik ein Mapping nennen. In der Statistik würde man wohl von einer Normalisierung sprechen.
Tintom hat geschrieben: ↑ zum Beitrag ↑
21.12.2022 12:31:25
Bei Intervallskalen im Zusammenhang mit Temperaturen musst du beim Interpretieren der Werte allerdings aufpassen, die Maßeinheit Grad Celsius ist dafür nicht sonderlich gut geeignet.
Warum ist Grad Celsius dafür schlecht geeinigt?
Ich würde wohl eher die Kelvin-Skala nehmen (weil oft handlicher) und gar nicht mappen (um auch zwischen verschiedenen Tagen vergleichen zu können), aber prinzipiell sehe ich keinen Grund der gegen Grad Celsius spricht.

Benutzeravatar
desputin
Beiträge: 1298
Registriert: 24.04.2015 17:16:34

Re: Mal eine Frage zu Statistik....

Beitrag von desputin » 21.12.2022 13:34:54

Hallo Ihr, vielen Dank für die Antworten. Wie unterscheidet sich mein Vorgehen denn dann von diesem hier beschriebenen? Wenn ich es richtig verstehe, geht es bei diesem Vorgehen mit den z-Werten darum, Ausreißer "einzufangen", oder? Also wenn jetzt bei meinem Beispiel ein Landkreis als einziger eine Durchschnittstemperatur von 22 Grad hätte und damit die Verteilung kaputtmachen würde, weil die anderen Landkreise in der Verteilung von 0,00 und 1,00 nur relativ niedrige Werte kriegen würden, korrekt?
"Townsend fügte dieser Arbeit eine geografische Dimension hinzu und schlug ein gebietsbezogenes Maß für materielle Deprivation vor, das auf geografischen Gebieten basiert [...]

1. Prozentsatz der Haushalte ohne Zugang zu einem Auto oder Lieferwagen;
2. Prozentsatz der Haushalte mit mehr als einer Person pro Zimmer (Überbelegung);
[...]
Bei der Berechnung des Index werden die oben genannten Prozentsätze mit Hilfe von z-Scores (die durch Subtraktion des Mittelwerts und Division durch die Standardabweichung berechnet werden können) standardisiert, um zu verhindern, dass die Ergebnisse durch einen hohen oder niedrigen Wert für eine einzelne Variable übermäßig beeinflusst werden, und um jede Variable auf dieselbe Skala zu setzen, die um den Wert Null zentriert ist. Die vier z-Werte werden dann für jedes Gebiet summiert, um einen einzigen Wert zu erhalten, der als Townsend-Deprivationsindex bekannt ist.
Positive Werte deuten darauf hin, dass ein Gebiet eine hohe materielle Entbehrung aufweist, während niedrige Werte darauf hindeuten, dass das Gebiet relativ wohlhabend ist. Der Townsend-Index dient seit langem als allgemeines Maß für die Benachteiligung von Gebieten in akademischen Studien in einer Vielzahl von Bereichen, einschließlich der Analyse des Gesundheitswesens, des Bildungsniveaus und der Geografie der Kriminalität [...]
Automatisch übersetzt mit Deepl, hier das Original:
"Adding a geographical dimension to this work, Townsend proposed an area-based measure of material deprivation, based on geographical areas [...]

1. percentage of households without access to a car or van;
2. percentage of households with more than one person per room (overcrowding);
[...]
The calculation of the index involves a standardisation of the above percentages using z-scores (which can be calculated by subtracting the mean value and dividing by the standard deviation) to prevent results being excessively influenced by a high or low value for any one variable and to put each variable on the same scale, centred around zero. The four z-scores are then summed for each area to obtain a single value which is known as the Townsend deprivation index.
Positive values suggest that an area has high material deprivation, whereas low values suggest that the area is relatively affluent. The Townsend index has long served as a general measure of area deprivation in academic studies in a wide range of fields including health care analysis, educational attainment and the geography of crime [...]
Quelle: GIS and the Social Sciences - Theory and Applications (Dimitris Ballas, Graham Clarke, Rachel S. Franklin and Andy Newing), 2018
https://www.daswirdmanjawohlnochsagenduerfen.de
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |

Benutzeravatar
Meillo
Moderator
Beiträge: 8818
Registriert: 21.06.2005 14:55:06
Wohnort: Balmora
Kontaktdaten:

Re: Mal eine Frage zu Statistik....

Beitrag von Meillo » 21.12.2022 14:00:10

Solange die Einheit der Originalwerte (hier Grad Celsius) linear ist, ist doch voellig egal, um welche Einheit es sich handelt, da bei der Normierung die Bezugswerte der niedrigste und hoechste Messwert sind. Durch die Normierung werden aus absoluten Werten nur noch Verhaeltnisse der Werte zueinander, also Abstaende. Grad Fahrenheit wuerden ebenso funktionieren. Es wuerde AFAICS nur scheitern, wenn die Messwerte keine lineare Skala haetten.

desputin hat geschrieben: ↑ zum Beitrag ↑
21.12.2022 13:34:54
Also wenn jetzt bei meinem Beispiel ein Landkreis als einziger eine Durchschnittstemperatur von 22 Grad hätte und damit die Verteilung kaputtmachen würde, weil die anderen Landkreise in der Verteilung von 0,00 und 1,00 nur relativ niedrige Werte kriegen würden, korrekt?
Ja.
Use ed once in a while!

Benutzeravatar
Tintom
Moderator
Beiträge: 3033
Registriert: 14.04.2006 20:55:15
Wohnort: Göttingen

Re: Mal eine Frage zu Statistik....

Beitrag von Tintom » 21.12.2022 14:55:56

hikaru hat geschrieben: ↑ zum Beitrag ↑
21.12.2022 13:17:39
Warum ist Grad Celsius dafür schlecht geeinigt?
Temperaturen sind deshalb mit Vorsicht zu genießen, weil sowohl die Celsius-Skala als auch die Fahrenheit-Skala keinen natürlichen Nullpunkt haben. Das verfälscht die Interpretation der Werte.
Ein Beispiel: Nehmen wir an, du vergleichst Stadt 1 mit einer Durchschnittstemperatur von 0 °C und Stadt 2 mit einer Durchschnittstemperatur von 1 °C. Eine Aussage der Art "Stadt 2 ist doppelt so warm wie Stadt 1" kannst du so nicht treffen. Auch Verhältnisangaben gehen hier schief. Nehmen wir noch eine dritte Stadt mit einer Durchschnittstemperatur von -1 °C hinzu, auch hier wird die Interpretation schwierig. Nicht unbedingt mathematisch, aber wie willst du das Verhältnis der Temperatur von Stadt 2 zu Stadt 3 vernünftig interpretieren?
Transformierst du die Zahlen kurzerhand in die Fahrenheit-Skala, dann liegt die Temperatur bei Stadt 1 nun bei 32 °F, Stadt 2 nun bei 33,8 °F. Für den Statistiker ein Graus: Zwei Städte, zwei Temperaturen aber völlig unterschiedliche Aussagekraft der Ergebnisse je nach verwendetem Temperatursystem.
Nun gut, nehmen wir jetzt einfachhalber das Fahrenheit-System. Damit kannst du solange arbeiten, solange in der Liste nicht Orte in Sibirien auftauchen, deren Temperatur unter 0°F liegt, dann wiederholt sich das Problem. Bei -40 °C ist es dann widerum egal, ob du Fahrenheit oder Grad Celsius verwendest, das ist der Schnittpunkt der beiden Skalen. Der Statistiker winkt spätestens hier ab und verwendet die Einheit Kelvin, weil diese Skala mit dem absoluten Nullpunkt beginnt, sinnvolle Verhältnisangaben zulässt und auch in wissenschaftlichen Publikationen üblich ist.

Benutzeravatar
Meillo
Moderator
Beiträge: 8818
Registriert: 21.06.2005 14:55:06
Wohnort: Balmora
Kontaktdaten:

Re: Mal eine Frage zu Statistik....

Beitrag von Meillo » 21.12.2022 15:11:07

@Tintom: Da desputin die konkreten Messwerte lediglich relativ zueinander im Intervall niedrigster Messwert bis hoechster Messwert anordnet, sind Einheit, Skala und Nullpunkt der urspruenglichen Messwert egal -- sie tauchen nicht mehr auf.

Falls neben der hier vorgestellten Auswertung aber noch andere vorhanden waeren, die nicht in der Weise normalisiert sind, kann das natuerlich anders aussehen und die Anmerkungen von Tintom koennen relevant sein.
Use ed once in a while!

Benutzeravatar
hikaru
Moderator
Beiträge: 13594
Registriert: 09.04.2008 12:48:59

Re: Mal eine Frage zu Statistik....

Beitrag von hikaru » 21.12.2022 15:14:43

Meillo hat geschrieben: ↑ zum Beitrag ↑
21.12.2022 15:11:07
@Tintom: Da desputin die konkreten Messwerte lediglich relativ zueinander im Intervall niedrigster Messwert bis hoechster Messwert anordnet, sind Einheit, Skala und Nullpunkt der urspruenglichen Messwert egal -- sie tauchen nicht mehr auf.
:THX:

Benutzeravatar
MSfree
Beiträge: 10777
Registriert: 25.09.2007 19:59:30

Re: Mal eine Frage zu Statistik....

Beitrag von MSfree » 21.12.2022 15:29:38

Tintom hat geschrieben: ↑ zum Beitrag ↑
21.12.2022 14:55:56
Temperaturen sind deshalb mit Vorsicht zu genießen, weil sowohl die Celsius-Skala als auch die Fahrenheit-Skala keinen natürlichen Nullpunkt haben. Das verfälscht die Interpretation der Werte.
Da die Werte in einen Bereich von 0-1 normalisiert werden, spielt das überhaupt keine Rolle. Man nimmt Tmin und setzt es mit 0 gleich und Tmax mit 1, die Werte dazwischen werden linear skaliert. Ob du Temperaturen in Kelvin, °Celsius, °Fahrenheit, °Rankine oder °Réaumur mißt, ist völlig egal, durch die Normierung zwischen 0 und 1 bekommst du immer dieselben Ergebnisse.

Die Frage nach "doppelt so warm" läßt sich mit einer normierten Skala allerdings nicht beantworten, war aber auch nicht gefragt.

Benutzeravatar
Meillo
Moderator
Beiträge: 8818
Registriert: 21.06.2005 14:55:06
Wohnort: Balmora
Kontaktdaten:

Re: Mal eine Frage zu Statistik....

Beitrag von Meillo » 21.12.2022 15:38:02

MSfree hat geschrieben: ↑ zum Beitrag ↑
21.12.2022 15:29:38
Die Frage nach "doppelt so warm" läßt sich mit einer normierten Skala allerdings nicht beantworten, war aber auch nicht gefragt.
``Doppelt so warm'' hat ja inhaltlich auch keine wirkliche Bedeutung.
Use ed once in a while!

Antworten