Искусство статистики. Как находить ответы в данных. Дэвид Шпигельхалтер
Читать онлайн книгу.в комнате сидят три человека, которые зарабатывают 400, 500 и 600 фунтов в неделю. В таком случае выборочное среднее для их зарплат составляет 1500 / 3 = 500 фунтов. Медианное значение тоже 500 фунтов. Затем в комнату заходят два человека, зарабатывающие по 5000 фунтов, и выборочное среднее взлетает до 11 500 / 5 = 2300 фунтов, в то время как медиана поднялась только до 600.
46
В ролике о нашем эксперименте (https://www.youtube.com/watch?v=n98BhnwWmsc) я принудительно убрал 33 максимальных числа (9999 и выше), взял логарифм для получения симметричного распределения, вычислил среднее арифметическое для такого преобразованного распределения, а затем произвел обратное преобразование, чтобы получить оценку в первоначальном масштабе. Это дало число 1680, которое оказалось самой близкой оценкой к истинному значению 1616. Описанный процесс (взять логарифм, вычислить среднее арифметическое, вернуться обратно) дает то, что известно как среднее геометрическое. Это эквивалентно такой процедуре: перемножить все N чисел и извлечь корень N-й степени. Среднее геометрическое используется при создании некоторых экономических индексов, в частности основанных на отношениях. Причина в том, что у него есть «устойчивость к переворачиванию отношения»: если стоимость апельсинов измерять в килограммах на апельсин или в апельсинах на килограмм, то это даст одно и то же геометрическое среднее. В то же время среднее арифметическое может давать большой разброс.
47
Если не вдаваться в тонкости, то N-й процентиль – значение, которое не превышает N% наблюдений. 25-й процентиль называют первым квартилем, 50-й процентиль – вторым квартилем (или медианой), 75-й процентиль – третьим квартилем. В общем случае, когда доля наблюдений не превосходит числа α, то говорят об α-квантиле. Прим. пер.
48
Размах – это разность между наибольшим и наименьшим значением в выборке. Впрочем, у автора в таблице указываются только границы диапазона – как для размаха, так и для интерквартильного размаха. Прим. пер.
49
Почти наверняка это опечатка при наборе числа 1137, которое является числовым изображением слова leet, что на сетевом сленге означает «элитный» [Leet – это язык интернета, где латинские буквы заменяются похожими символами. Прим. пер.]; среди ответов было девять чисел 1337.
50
В качестве меры неравенства для сильно асимметричных распределений (например, доходов) используется коэффициент Джини, однако он сложен и не всегда интуитивно понятен.
51
Квадрат среднеквадратичного отклонения называется дисперсия: его трудно интерпретировать прямо, но с математической точки зрения это очень полезное понятие. [Дисперсия интерпретируется вполне естественно – это средний квадрат отклонения наблюдений от выборочного среднего. Прим. пер.].