1. Считывание данных: базовые методы и разбор сложных структур таблиц
Считывание данных: базовые методы и разбор сложных структур таблиц
Добро пожаловать на курс «Обработка и форматирование данных Excel». Я рад видеть вас на первой лекции. Мы начинаем путь от хаоса разрозненных ячеек к стройной системе автоматизированных отчетов.
Многие считают, что работа в Excel — это просто ввод цифр в клеточки. Но как профессионалы, мы знаем: данные редко приходят к нам в идеальном виде. Чаще всего это «сырые» выгрузки из 1C, SAP, CRM-систем или, что еще хуже, файлы, заполненные вручную разными сотрудниками без единого стандарта.
Сегодня мы разберем фундамент любой аналитической работы: как правильно считать данные, даже если таблица выглядит как лоскутное одеяло из объединенных ячеек, и как подготовить их к дальнейшей работе.
!Схема трансформации сырых данных в структурированный отчет
Проблема «сложных» таблиц
Прежде чем мы начнем нажимать кнопки, давайте определим врага. Что делает таблицу «сложной» для считывания?
Компьютер не понимает «красоту». Ему нужна плоская структура, где первая строка — это заголовки, а все последующие — данные. Наша задача — превратить «человеческий» формат в «машинный».
Базовые методы считывания данных
Существует два основных подхода к забору данных из файла:
* Прямое ссылочное считывание (Формулы). * Импорт и трансформация (Power Query).
Метод 1: Формулы (Классический подход)
Если данных немного, мы можем использовать ссылки. Например, чтобы забрать значение из «сложной» ячейки другого листа, мы используем прямую ссылку = или функции поиска.
Однако, если структура исходного файла «плавает» (сегодня итог в строке 50, а завтра в строке 52), формулы сломаются. Поэтому этот метод подходит только для статичных, неизменяемых шаблонов.
Метод 2: Power Query (Профессиональный подход)
Это золотой стандарт современной обработки данных в Excel. Power Query позволяет подключиться к файлу, «отрезать» лишние верхние строки, распознать заголовки и развернуть объединенные ячейки. Именно на логике этого инструмента мы сосредоточимся, так как он позволяет автоматизировать рутину.
Разбор кейса: Обработка многоуровневой шапки
Представьте типичный отчет о продажах. В первой строке у нас идут месяцы (Январь, Февраль), объединенные на три столбца каждый. Во второй строке — показатели (План, Факт, Отклонение).
Для компьютера это бессмыслица. Чтобы считать такую таблицу, нам нужно применить алгоритм нормализации.
Шаг 1: Очистка «шума»
Первым делом мы должны избавиться от метаданных. Если таблица начинается с 5-й строки, первые 4 мы просто игнорируем. В инструментах импорта это обычно называется «Удалить верхние строки».
Шаг 2: Заполнение пустот
В сложных таблицах часто пишут категорию только один раз, а ниже идут пустые ячейки, подразумевая, что это относится к той же категории.
> Данные должны быть атомарными. Каждая строка должна содержать полную информацию о себе.
Для решения этой проблемы используется операция «Заполнить вниз» (Fill Down). Она берет значение из верхней ячейки и копирует его вниз до тех пор, пока не встретит новое значение.
Шаг 3: Отмена свертывания (Unpivoting)
Это самая мощная концепция при считывании широких таблиц. Если у вас есть столбцы «Январь», «Февраль», «Март», вам неудобно строить сводные таблицы. Вам нужно превратить их в два столбца: «Месяц» и «Значение».
!Визуализация преобразования широкой таблицы в плоскую структуру
Вычисления и обогащение данных
После того как мы считали данные и привели их к плоскому виду, нам часто нужно произвести вычисления. Никогда не доверяйте итоговым строкам в исходных файлах — лучше пересчитать их самостоятельно.
Допустим, мы извлекли данные о цене и количестве. Нам нужно рассчитать выручку. В плоской таблице это делается путем добавления вычисляемого столбца.
Математически это выглядит так:
где — выручка (Revenue) для -й строки, — цена (Price) за единицу товара, — количество (Quantity) проданного товара.
Если нам нужно рассчитать общую выручку по всему массиву данных, мы используем сумму произведений:
где — общая сумма выручки, — знак суммирования, — общее количество строк в таблице, — цена в строке , — количество в строке .
Это вычисление надежнее, чем простое суммирование столбца «Итого» из исходного файла, так как исключает ошибки ручного ввода оператором.
Форматирование для представления
Когда данные считаны и вычислены, их нужно представить пользователю. «Сырая» таблица с миллионом строк никому не нужна. Нам нужен удобный интерфейс.
1. Умные таблицы (Table Styles)
Всегда превращайте диапазон данных в «Умную таблицу» (Ctrl+T). Это дает: * Автоматические фильтры. * Чередование цветов строк (для удобства чтения). * Автоматическое растягивание формул.
2. Числовые форматы
Никогда не оставляйте деньги в общем формате.
* Плохо: 1543200.5
* Хорошо: 1 543 200,50 ₽
Используйте разделители разрядов. Глаз человека не может мгновенно оценить порядок числа, если в нем больше 4 цифр без пробелов.
3. Условное форматирование
Чтобы выделить важное, используйте цветовое кодирование. Например, для анализа отклонения от плана:
* Если выполнение — красный цвет. * Если выполнение — зеленый цвет.
Это позволяет считывать суть данных за секунды, не вчитываясь в каждую цифру.
Резюме
Мы разобрали первый этап работы с данными. Главное правило: сначала структура, потом красота.
В следующей статье мы углубимся в методы очистки текста и работы с датами, которые часто приходят в некорректном формате.