Датасет – 1. Набор исследуемых данных, располагаемый на нескольких компьютерах одновременно ввиду большого объема. 2. Выборка из такого массивного объема данных, созданная с целью продемонстрировать тот или иной принцип или концепцию Машинного обучения (ML):
Датасеты – основа Науки о данных (Data Science), материал, на котором основаны все исследования. В контексте науки принято рассматривать два их типа: традиционные и Большие данные (Big Data).
Традиционные данные структурированы и хранятся в базах, управляемых с одного компьютера; это табличное представление, содержащее числовые или текстовые значения. На самом деле, эпитет «традиционный» мы вводим для ясности: это помогает подчеркнуть различия.
Большие данные, в свою очередь, массивнее, чем традиционные, как в контексте разнообразия (числа, текст, изображения, аудио, видео и проч.), так и скорости извлечения и вычисления в реальном времени, и объема (тера-, пета-, эксабайты и проч.). Большие данные обычно распределяются по компьютерной сети. Так что учебные, "игрушечные" датасеты, с помощью которых мы осваиваем модели и окололежащие особенности Машинного обучения, это метонимия (перенос наименования с одного предмета или явления на другой на основе смежности).
Наука разделяет датасеты на три категории:
Это самая простая форма не имеет явной связи между строками-Наблюдениями (Observation) или столбцами-Признаками (Feature), и каждая строка имеет одинаковый набор характеристик. Данные записи обычно хранятся либо в файлах (форматы .csv, .parquet), либо в реляционных базах данных:
Существует несколько подвидов простых записей:
Некоторые данные упорядочены во времени или пространстве. Их можно разделить на следующие типы:
Выделяют три основные характеристики датасета:
Для образовательных целей, как правило, достаточно игрушечных, небольших датасетов, и некоторые библиотеки подготавливают свои наборы данных для ускорения.
Встроенный метод библиотеки Pandas read_csv()
позволяет преобразовать файл в Датафрейм (Dataframe), и это один из самых распространенных способов подгрузки данных в код:
df = pd.read_csv('https://www.dropbox.com/s/j04e6thkqmk02z1/LPL.csv?dl=1')
Метод позволяет также указать тип разделителя (sep = ':'
), кодировку (encoding = 'utf-8'
) и многие другие параметры загрузки.
У некоторых обширных библиотек вроде Scikit-learn также встречаются собственные методы, позволяющие быстро импортировать встроенные датасеты, прекрасно подходящие для демонстрации работы классов, функций, интерфейсов и других своих объектов.
from sklearn.datasets import load_digits
digits = load_digits()
Помимо таких встроенных датасетов, данные для обучения нейросетей предоставляет еще и сайт kaggle.com.
С перечнем других встроенных наборов данных в Scikit-learn можно ознакомиться по ссылке.
Фото: @conscious_design
© Лена Капаца. Все права защищены.