Датафрейм – это двумерная структура данных со столбцами и строками. Это специальный аналог таблицы Excel или SQL – наборе Серий (Series) и наиболее часто используемый объект библиотеки Pandas:
Наряду с данными вы можете дополнительно передать индекс – столбец с уникальными значениями, однозначно идентифицирующими каждое Наблюдение (Observation).
Многие знают датафрейм как способ хранения данных в прямоугольных сетках, которые можно легко просмотреть. Каждая строка этой сетоки соответствует отдельному наблюдению, а каждый столбец – это Признак (Feature). Cтроки датафрейма могут содержать значения разных типов: они могут быть числовыми, символьными, Булевыми (Boolean Data Type) и так далее. Можно сказать, что датафрейм состоит из трех основных компонентов: данных, индекса и столбцов.
Первый из способов создания датафрейма – метод библиотеки Pandas read_csv()
:
df = pd.read_csv('https://www.dropbox.com/s/9t04t1haanbdvvt/bank-data-for-pca.csv?dl=1')
df
Еще один способ – создать его из нескольких серий:
d = {'one' : pd.Series([10, 20, 30, 40],
index =['a', 'b', 'c', 'd']),
'two' : pd.Series([10, 20, 30, 40],
index =['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
Способов инициализации великое множество – от передачи Списков (List) до создания Кортежей (Tuples) и превращения их в списки.
Фото: @jadlimcaco
© Лена Капаца. Все права защищены.