Описание курса:
В начале этого курса нам бы хотелось рассказать анекдот-загадку. Итак, загадка. Кто делает самый отвратительный код? Варианты ответа: дата сайентисты, программисты или школьники. Внимание, подсказка: это не школьники.
Этот курс даст понимание обработки данных на Python. При чтении данного материала не забывайте, что программирование - это в большинстве случаев командная работа, поэтому настраивайтесь на командную работу. Удачного чтения!
Вопросы для самопроверки:
Сомневаешься, будет ли тебе полезен материал курса, или хочешь убедиться, что усвоил материал курса? Проверь свои знания с помощью вопросов для самопроверки по материалам курса.
- Какой командой запускается сервер Jupyter после установки пакетов?
- Какие клавиши следует нажать, чтобы выполнить код в ячейке Jupyter Notebook без использования кнопки ▶?
- Какая функция автодополнения доступна в IPython Notebook?
- Какую магическую функцию можно использовать для измерения времени выполнения кода?
- Какие библиотеки необходимо импортировать для работы с данными в формате CSV и построения графиков?
- Какой командой загружаются данные из CSV-файла с учетом разделителя и кодировки?
- Какие дополнительные параметры нужно указать при чтении CSV-файла для корректной обработки дат?
- Как построить график для одного столбца?
- Как можно визуализировать все колонки одновременно и поменять размер изображения графика?
- Как можно выбрать определённый столбец данных используя pandas?
- Какой метод используется для подсчёта количества различных значений в столбце?
- Что означает предупреждение "DtypeWarning: Columns (8) have mixed types", которое может появиться при загрузке данных?
- Как получить первые 5 значений определенного столбца?
- Какой метод Pandas используется для добавления нового столбца в DataFrame?
- Какой метод используется для суммирования значений группировки в DataFrame?
- Что означают аргументы axis=1 и how='any' в функции dropna?
- Как объединить данные в один DataFrame?
- Какой метод используется для сохранения финального DataFrame в CSV файл?
- Какой метод библиотеки pandas используется для работы с текстовыми данными в столбцах?
- Какую операцию выполняет метод `resample()` в процессе анализа данных?
- С использованием какого метода объединяются две статистики в один DataFrame?
- Каким образом отобразить два графика на разных осях?
- Какие проблемы могут возникнуть при работе с загрязненными данными?
- Какие методы можно использовать для выявления проблем в колонке с данными?
- Какие есть методы эффективной фильтрации данных?
- Что такое Unix timestamps и как они используются в pandas?
- В чем заключается особенность работы с timestamp в pandas?
- Какие специфические типы данных доступны в pandas для представления времени?
- Какая функция используется для преобразования чисел в даты и время?
- Как называется функция Pandas для загрузки данных из SQL базы данных?
- Какие параметры принимает функция загрузки данных из SQL?
- Как сделать столбец 'id' первичным ключом (индексом) DataFrame при чтении из базы данных?
- Как называется метод, который используется для записи данных в SQL базу данных?
- Какое преимущество дает хранение данных в базе данных, в отличие от CSV-файлов?
Программа курса:
- Описание курса
- Введение и быстрый старт с Jupyter (ipython)
- Работа с CSV в Python: чтение и визуализация
- Выбор данных и нахождение наиболее частых жалоб
- Классификация и группировка данных в анализе
- Объединение нескольких DataFrame в Pandas
- Определение самого снежного месяца с помощью Pandas
- Управление загрязнёнными данными в анализе запросов
- Работа с датами и временем в Pandas
- Работа с SQL базами данных через Pandas