Илья Воронцов
Мастерская дата-журналистики Системного Блока, ЛШ-2024, Дубна
Главный вопрос: откуда данные и как собраны
Мы измерили рост участников школы.
Можем ли мы написать материал о том, что мальчики выше девочек?
Только с оговорками
Репрезентивность — соответствие характеристик выборки и генеральной совокупности
Чуть более осторожный тезис: среди российской молодёжи мальчики в среднем выше девочек.
У нас есть репрезентативная выборка, состоящая из 10 мальчиков и 10 девочек.
Увидели, что девочки в среднем на 2 см выше мальчиков.
Можем об этом писать?
Нет. Это слишком маленькая выборка. Если по случайным причинам будут выбраны другие 20 человек, результат сильно поменяется.
Чтобы доказать эффект (мальчики выше девочек), нужно сначала предположить, что различий нет.
А затем показать, что данные этому противоречат.
Нулевая гипотеза: мальчики и девочки в среднем одного роста.
Но если рост в среднем одинаков, почему так много мальчиков сильно выше, а девочек сильно ниже их общего среднего?
Стат.значимость P-value — степень невероятности того, что эффекта нет.
Чем она меньше, тем более мы уверены в эффекте (мальчики ростом отличаются от девочек).
Чем больше размер выборки, тем меньший эффект мы можем поймать
Верим ли мы нулям?
Выявленные заболевшие COVID-19
Источник: https://t.me/theinsider/26767
Количество возможных партий в Го больше, чем число атомов во Вселенной.
Капитализация NVidia превысила годовой ВВП России.
Нормировка — способ сопоставить величину с чем-то другим, измерить её «в единицах» другой величины. Например, измерить бюджеты 2015, 2020, 2025 годов в бюджетах 2010 года.
Когда у вас нет генеральной совокупности, вы можете говорить только про доли (частоты)
Caution: множественный выбор не суммируется к 100%.
КДПВ
Среднее против медианы
Среднее против медианы
Целых 50% жителей Московской области получают зарплату меньше медианной.
Среднее — нестабильная по отношению к выбросам величина, поэтому медиана лучше
А что ещё нестабильно? min и max
Чем заменить? 5% квантиль и 95% квантиль
Для разных задач может быть более релевантно измерять в разных валютах
Например, доллары для оценки импорта, рубли — для оценки внутренних цен на местные товары
Если вам важно сравнить размеры экономик стран, вы сравниваете ВВП
Если вам важно сравнить производительность труда, вы сравниваете ВВП на душу населения
Если вам важно сравнить уровень благосостояния граждан экономик стран, вы сравниваете ВВП на душу населения по паритету покупательной способности
Самая низкая учительница (всё ещё) выше самого высокого пацана 5-лет
Но корректно ли их сравнивать?
Нет: лучше взять их как независимые группы, и сравнивать группы разных возрастов независимо.
Неоднородность групп может сильно исказить результаты. Они будут больше говорить про размер групп, чем про эффект внутри группы
Нормировку лучше проводить на каждой группе независимо
Box-plot с усами
Ус заканчивается на какой-то точке данных, поэтому может оказаться короче 1.5 IQR
Box-plot с усами
Если вы, например, делите одну неточную величину на другую, степень ошибки (неточности/неуверенности) может резко возрасти.