1. Импорт и обработка больших массивов данных
Импорт и обработка больших массивов данных
Вы уже умеете вводить данные в ячейки, использовать базовые формулы и выполнять простые вычисления. Это отличный фундамент. Однако в реальной рабочей среде задачи редко ограничиваются таблицами на сто строк. Представьте ситуацию: руководитель просит вас проанализировать продажи за год. Выгрузка из корпоративной системы представляет собой двенадцать файлов в формате CSV — по одному на каждый месяц. В каждом файле по сто тысяч строк.
Если вы попытаетесь открыть их все, скопировать и вставить в один лист, Excel, скорее всего, зависнет. Даже если вам удастся это сделать, вы потратите несколько часов на рутинную работу. А в следующем месяце появится новый файл, и процедуру придется повторять. Чтобы навсегда забыть о ручном копировании и зависаниях программы, нам необходимо освоить инструмент, который встроен в современные версии Excel — Power Query.
Что такое Power Query и концепция ETL
Power Query — это мощный инструмент для подключения к внешним данным, их очистки и преобразования. Его главная задача — забрать сырую, грязную информацию из любого источника, привести ее в идеальный вид и загрузить в Excel для дальнейшего анализа.
Работа этого инструмента строится на фундаментальной концепции работы с базами данных, которая называется ETL. Это аббревиатура от трех английских слов:
!Схема процесса ETL: Извлечение, Трансформация, Загрузка
Чтобы лучше понять этот процесс, приведем простую бытовую аналогию. Представьте, что вы готовите сложный ужин. Извлечение — это поход в магазин и покупка продуктов в их первозданном виде (в упаковках, с землей на корнях). Трансформация — это процесс на кухне: вы моете овощи, чистите их, нарезаете кубиками и выбрасываете очистки. Загрузка — это подача готового блюда на стол в красивой тарелке.
Power Query — это ваш автоматический кухонный комбайн. Вы один раз показываете ему, как чистить и резать, и в следующий раз он делает это сам по нажатию одной кнопки.
Шаг 1. Извлечение (Extract): собираем данные вместе
В Excel можно импортировать данные из множества источников: текстовых файлов, других книг Excel, баз данных SQL и даже веб-страниц. Но одной из самых полезных функций для автоматизации рутины является импорт данных из папки.
Допустим, у вас есть папка «Отчеты_2023», куда коллеги каждый месяц скидывают файлы с продажами. Вместо того чтобы открывать каждый файл, мы заставим Excel прочитать всю папку целиком.
Для этого на ленте Excel перейдите на вкладку «Данные», нажмите «Получить данные» «Из файла» «Из папки». Укажите путь к вашей папке. Excel проанализирует ее содержимое и покажет список всех файлов внутри. Нажав кнопку «Объединить и преобразовать данные», вы дадите программе команду склеить все эти файлы в одну длинную таблицу, присоединяя строки из второго файла под строками первого, и так далее.
> Главное правило автоматизации: никогда не меняйте исходные файлы руками. Вся очистка должна происходить на этапе трансформации. Исходные данные должны оставаться неприкосновенными.
Шаг 2. Трансформация (Transform): наводим порядок
После нажатия кнопки «Преобразовать» открывается отдельное окно — Редактор Power Query. Это безопасная среда. Что бы вы здесь ни делали (удаляли столбцы, меняли текст), исходные файлы на вашем компьютере не изменятся. Вы настраиваете только правила обработки.
В сырых выгрузках из корпоративных систем (например, 1С или SAP) часто встречаются типичные проблемы. Рассмотрим, как их решить с помощью инструментов редактора.
Проблема 1: Лишние пробелы и невидимые символы
Часто в названиях товаров или именах клиентов появляются случайные пробелы в начале или конце слова. Визуально «Иванов» и « Иванов » выглядят похоже, но для Excel это два совершенно разных значения. При попытке свести отчет вы получите две разные строки.Решение: Выделите столбец с текстом, перейдите на вкладку «Преобразование», нажмите «Формат» и выберите «Усечь». Эта команда мгновенно удалит все лишние пробелы по краям текста в миллионах строк.
Проблема 2: Неправильные типы данных
Это самая частая причина ошибок в формулах. Программа может воспринимать числа как текст (обычно такие числа прижаты к левому краю ячейки). Если вы попытаетесь просуммировать текстовые числа, Excel выдаст ноль.Решение: В заголовке каждого столбца в Power Query есть маленькая иконка (например, «ABC» для текста или «123» для целых чисел). Нажав на нее, вы можете принудительно указать правильный тип данных. Если в столбце с выручкой стоит «ABC», измените его на «Десятичное число» или «Валюта».
Проблема 3: Склеенная информация
Иногда система выгружает данные в неудобном виде. Например, в одном столбце написано: «RU-Москва-125009». Для анализа вам нужно отдельно понимать страну, город и индекс.Решение: Используйте функцию «Разделить столбец» по разделителю. Указав в качестве разделителя дефис, вы в один клик превратите один столбец в три независимых.
Давайте посмотрим, как преображаются данные после применения этих шагов:
| Исходные сырые данные (до трансформации) | Очищенные данные (после трансформации) |
| :--- | :--- |
| 15.01.2023 (Текст с пробелами) | 15.01.2023 (Формат: Дата) |
| RU-Ноутбук-1500 (Склеенный текст) | Страна: RU, Товар: Ноутбук, Цена: 1500 (Число) |
| Иванов И. / Иванов И. (Дубли из-за пробела) | Иванов И. (Единое значение) |
Справа в окне Power Query вы увидите панель «Примененные шаги». Это своеобразная машина времени. Каждое ваше действие (удаление столбца, изменение регистра, фильтрация пустых строк) записывается туда как макрос. Если вы ошиблись, достаточно нажать крестик рядом с шагом, чтобы отменить его.
Шаг 3. Загрузка (Load): обходим ограничения Excel
Когда данные очищены, их нужно вернуть в Excel. Для этого в левом верхнем углу редактора есть кнопка «Закрыть и загрузить». Но здесь кроется важный нюанс, о котором знают не все пользователи.
Обычный лист Excel имеет физическое ограничение: ровно 1 048 576 строк. Если вы попытаетесь загрузить таблицу, в которой больше строк, данные просто обрежутся, и вы потеряете часть информации.
Представим, что у вас 12 файлов по 100 000 строк. Математика проста: . Это число превышает лимит листа Excel (). Что делать в таком случае?
Вместо стандартной загрузки на лист, нужно выбрать «Закрыть и загрузить в...» и в появившемся окне отметить пункт Только создать подключение, а также поставить галочку Добавить эти данные в модель данных.
Модель данных — это скрытый «движок» внутри Excel, который сжимает информацию и позволяет хранить десятки миллионов строк без вывода их на экран. Вы не увидите эти миллионы строк в привычных ячейках, но сможете строить по ним сводные таблицы и дашборды, которые будут работать мгновенно.
Магия автоматизации
Вы потратили 15 минут на настройку подключения к папке, удаление лишних столбцов, исправление форматов и загрузку в модель данных. Вы построили красивый отчет.
Наступает следующий месяц. Коллеги присылают вам тринадцатый файл с новыми продажами. Ваши действия?
Вам больше не нужно открывать Power Query или переписывать формулы. Вы просто сохраняете новый файл в ту же папку «Отчеты_2023», открываете свой Excel-файл с отчетом, нажимаете правую кнопку мыши на сводной таблице и выбираете «Обновить».
Excel сам пойдет в папку, увидит новый файл, прогонит его через все записанные шаги трансформации (удалит пробелы, поменяет типы данных, разделит столбцы) и добавит в общую модель. Ваш дашборд обновится за несколько секунд. Именно так выглядит настоящая автоматизация рабочих процессов.