Гугл-таблицы. Очистка данных и первичный анализ
Илья Воронцов
Мастерская дата-журналистики Системного Блока, ЛШ-2024, Дубна
Откуда взять данные?
- Росстат и подобные ведомства
- Результаты опросов — см. google forms
- Kaggle
- ...
- ...
- ...
С чем будем работать сегодня
Программы
- Google sheets
- MS Excel
- Libre Office — Calc
- Open Office
Форматы
- xls, xlsx, ods
- csv, tsv
json
Как загрузить csv
- Кодировка: UTF-8 (unicode) или CP-1251
- Локаль в зависимости от того, у вас десятичная точка (US) или запятая (Ru)
- Разделитель ячеек: запятая (csv = comma separated values) или табуляция (tsv)
Предобработка — за чем проследить
- Никаких склеенных ячеек
- Колонки должны быть называны. Заголовки в одну строку
- Пробелы в числах — удалить (иначе это не числа, а текст)
- Проверить типы данных! (угадайте, какой тип данных у гена OCT4)
Чистка данных
- Исправление опечаток
- Укрупнение категорий
- Заполнение пропусков
Чистка данных
Лучше дописывать новый столбец, чем исправлять существующий
Формулы
- формула стартует со знака `=`
- в формуле можно сослаться на ячейку или целый интервал
- также в формуле можно использовать функции
- при копировании ячейки формула меняется, чтобы закрепить столбец/строку перед его номером ставится `$`
Hotkeys, полезные при использовании формул
- Ctrl+Arrow — переместиться в конец/начало столбца/строки
- Ctrl+Shift+Arrow — переместиться, выделяя заметаемое
- Ctrl+Shift+V — вставить без форматирования
Функции
- SUM, COUNT, AVG, MAX, ...
- IF, COUNTIF, ...
- EXACT, TRUNC, DATEDIF, CONTAINSSTRING, ...
Первый взгляд на данные
- сортировка
не забудьте добавить колонку ID, чтобы позднее восстановить порядок
- фильтры
- условное форматирование
- закрепление строк/столбцов
Поиск аномалий
- отсортировать значения
- для числовых данных построить линейный график
- для категориальных данных — построить гистограмму/сводную таблицу
Базовые типы графиков
- bar chart
- процентная разбивка
- линейные графики
- гистограммы / KDE-plot / box-plot
- диаграммы рассеяния (scatterplot)