1. Подготовка среды: Python, Jupyter, библиотеки для Excel
Подготовка среды: Python, Jupyter, библиотеки для Excel
Зачем вообще «готовить среду»
Чтобы анализировать данные из Excel на Python, вам нужна воспроизводимая рабочая среда:
Идея простая: один проект — одно окружение — один набор версий библиотек. Тогда код будет одинаково запускаться у вас, у коллег и на сервере.
!Схема, показывающая как Excel читается в pandas и как результаты возвращаются обратно
Варианты установки Python
Есть два популярных пути.
Вариант A: Anaconda (проще для старта)
Подходит, если вы хотите максимально быстро начать и получить много библиотек сразу.
Официальный сайт:
Вариант B: Обычный Python + venv + pip (универсально и «как в индустрии»)
Подходит, если вы хотите легковесный и стандартный подход.
venv есть в Python
- проще переносить проекты
pipОфициальный сайт:
В рамках курса можно использовать любой вариант. Ниже будет инструкция для варианта B (Python + venv), потому что он наиболее универсален.
Установка Python
Проверка, установлен ли Python
Откройте терминал (или PowerShell на Windows) и выполните:
Если команда не находится, попробуйте:
Установка
python --version.Создание папки проекта
Рекомендуемая структура на старте:
data для Excel-файловnotebooks для Jupyter-ноутбуковПример:
Виртуальное окружение (venv)
Виртуальное окружение — это отдельная «копия» набора библиотек для конкретного проекта.
Создание окружения
В папке проекта:
Активация окружения
Windows (PowerShell):
Windows (cmd):
macOS / Linux:
После активации обычно появляется префикс (.venv) в терминале.
Обновление pip
Установка Jupyter
Jupyter позволяет запускать код по ячейкам и сразу видеть результат — это очень удобно для анализа данных.
Установка:
Запуск (из папки проекта):
Если интерфейс Lab не нужен, можно использовать классический Notebook:
Официальный сайт:
Библиотеки для работы с Excel
Минимальный набор для курса
Установим основной набор:
Что это такое:
| Библиотека | Для чего нужна | Важные заметки |
|---|---|---|
| pandas | основная библиотека анализа данных (таблицы, фильтры, группировки) | Excel обычно читают в DataFrame |
| openpyxl | чтение/запись файлов .xlsx | часто используется как движок для pandas.read_excel |
| XlsxWriter | удобная запись .xlsx с форматированием | часто используется через pandas.ExcelWriter |
Документация:
Дополнительно (по ситуации)
Иногда встречаются другие форматы:
.xls.xlsbЧасто полезные пакеты:
xlrd — исторически использовался для Excel, но современные версии не читают .xlsx (это частая ловушка)pyxlsb — для чтения .xlsbЕсли вам реально нужно это в работе, можно поставить позже. Сейчас важнее уверенно освоить .xlsx.
Страница пакета xlrd:
Фиксация зависимостей: requirements.txt
Чтобы легко воспроизвести окружение на другом компьютере, фиксируют зависимости.
Сохранить текущие версии:
Восстановить на другом компьютере (после создания и активации venv):
Быстрая проверка: читаем и записываем Excel
Подготовьте тестовый файл
Создайте файл data/sales.xlsx с листом Sheet1 и колонками:
dateproductqtypriceМожно сделать 5–10 строк вручную.
Код для проверки
Создайте ноутбук notebooks/01_check_environment.ipynb и выполните:
Если файл сохранился и открывается в Excel — окружение настроено.
Типичные проблемы и как их быстро диагностировать
Jupyter не запускается или команда не найдена
Проверьте, что:
jupyter установлен именно в это окружениеКоманды диагностики:
На macOS/Linux вместо where обычно используют:
Ошибка про движок Excel
Если при чтении .xlsx возникают ошибки, обычно причина в том, что не установлен openpyxl.
Проверьте:
Если не найдено — установите:
Важно про безопасность
Что дальше по курсу
Дальше мы будем учиться: