Датасет (Dataset) - Лена Капаца
Датасет (Dataset) by Лена Капаца Feb. 3, 2021

Датасет  – 1. Набор исследуемых данных, располагаемый на нескольких компьютерах одновременно ввиду большого объема. 2. Выборка из такого массивного объема данных, созданная с целью продемонстрировать тот или иной принцип или концепцию Машинного обучения (ML):

Датасет банка о потребителях кредитных продуктов

Датасеты – основа Науки о данных (Data Science), материал, на котором основаны все исследования. В контексте науки принято рассматривать два их типа: традиционные и Большие данные (Big Data).

Традиционные и Большие данные

Традиционные данные структурированы и хранятся в базах, управляемых с одного компьютера; это табличное представление, содержащее числовые или текстовые значения. На самом деле, эпитет «традиционный» мы вводим для ясности: это помогает подчеркнуть различия.

Большие данные, в свою очередь, массивнее, чем традиционные, как в контексте разнообразия (числа, текст, изображения, аудио, видео и проч.), так и скорости извлечения и вычисления в реальном времени, и объема (тера-, пета-, эксабайты и проч.). Большие данные обычно распределяются по компьютерной сети. Так что учебные, "игрушечные" датасеты, с помощью которых мы осваиваем модели и окололежащие особенности Машинного обучения, это метонимия (перенос наименования с одного предмета или явления на другой на основе смежности).

Виды датасетов

Наука разделяет датасеты на три категории:

Простая запись

Это самая простая форма не имеет явной связи между строками-Наблюдениями (Observation) или столбцами-Признаками (Feature), и каждая строка имеет одинаковый набор характеристик. Данные записи обычно хранятся либо в файлах (форматы .csv, .parquet), либо в реляционных базах данных:

Существует несколько подвидов простых записей:

Графы

Часть графа статьи "Большие данные" на Википедии
Граф социальной сети

Упорядоченные записи

Некоторые данные упорядочены во времени или пространстве. Их можно разделить на следующие типы:

Геном
Временной ряд энергопотребления с сезоными скачками
Трафик аэропортов США

Атрибуты датасета

Выделяют три основные характеристики датасета:

Разреженные данные как результат Быстрого кодирования (OHE)

Специальные методы датасетов

Для образовательных целей, как правило, достаточно игрушечных, небольших датасетов, и некоторые библиотеки подготавливают свои наборы данных для ускорения.

Встроенный метод библиотеки Pandas read_csv() позволяет преобразовать файл в Датафрейм (Dataframe), и это один из самых распространенных способов подгрузки данных в код:

df = pd.read_csv('https://www.dropbox.com/s/j04e6thkqmk02z1/LPL.csv?dl=1')

Метод позволяет также указать тип разделителя (sep = ':'), кодировку (encoding = 'utf-8') и многие другие параметры загрузки.

У некоторых обширных библиотек вроде Scikit-learn также встречаются собственные методы, позволяющие быстро импортировать встроенные датасеты, прекрасно подходящие для демонстрации работы классов, функций, интерфейсов и других своих объектов.

from sklearn.datasets import load_digits
digits = load_digits()

Помимо таких встроенных датасетов, данные для обучения нейросетей предоставляет еще и сайт kaggle.com.

С перечнем других встроенных наборов данных в Scikit-learn можно ознакомиться по ссылке.

Фото: @conscious_design

© Лена Капаца. Все права защищены.