В этом разделе рассмотрены методы работы с данными, хранящимися в формате csv, и создание простых графиков.
Необходимые импорты и настройки
# Немедленный вывод графиков
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use('ggplot') # Эстетически приятные графики
plt.rcParams['figure.figsize'] = (15, 5) # Размер изображений
Чтение из csv файла
Для обратки CSV файлов используется функция read_csv. Изначально предполагается, что разделитель полей — запятая.
Рассмотрим данные о велосипедистах в Монреале, которые можно скачать по этой ссылке.
Этот датасет содержит информацию о числе велосипедистов на 7 маршрутах в Монреале за каждый день.
Чтобы корректно загрузить данные, необходимо указать следующие параметры:
- Установить разделитель как ;
- Задать кодировку 'latin1' вместо 'utf8'
- Уточнить, что в колонке 'Date' хранятся даты
- Указать порядок в формате YYYY-DD-MM (сначала день, затем месяц)
- Заменить индекс на значения из колонки 'Date'
fixed_df = pd.read_csv('data/bikes.csv', # Путь к скачанному файлу
sep=';', encoding='latin1',
parse_dates=['Date'], dayfirst
=True,
index_col='Date')
fixed_df[:3]
Выбор колонок
При работе с CSV через pandas создается объект, называемый DataFrame, состоящий из строк и столбцов. Получить доступ к нужным столбцам можно аналогично получению элементов словаря.
Пример:
fixed_df['Berri 1'][:10]
Графики
Чтобы построить график, достаточно добавить .plot() в конце! Что может быть проще?
Как видно, зимой (в январе, феврале и марте) велосипедисты редко появляются на трассах.
fixed_df['Berri 1'].plot()