I. Создание и настройка датасетов

Версия 225.1 от Ирина Сафонова на 28.12.2023, 14:47
Предупреждение: Из соображений безопасности документ отображается в ограниченном режиме, поскольку это не текущая версия. Из-за этого могут быть расхождения и ошибки.

Что такое датасет?


Датасет или набор данных — механизм хранения информации, который предоставляет быстрый доступ к большим объемам данных. Датасеты создаются из таблиц базы данных или SQL-запросов. Выберите таблицу из базы данных слева или создайте датасет из SQL-запроса в Лаборатории SQL. При необходимости сохраните запрос как датасет.

Типы датасетов


В Cloud BI два типа датасетов:

  • физический
  • виртуальный

Физический

Физический датасет 

Физический набор данных в Superset представляет собой таблицу или представление в вашей базе данных. Поскольку физический набор данных отражает реальную физическую таблицу, Superset может автоматически извлекать соответствующую информацию из базы данных (например, схему и типы столбцов). Эта информация сохраняется в базе данных метаданных Superset. Если произойдет изменение базовой таблицы базы данных, вы можете нажать «Синхронизировать столбцы из источника», чтобы заставить Superset обновить свою внутреннюю модель данных.

Виртуальные наборы данных позволяют вам преобразовать SQL-запрос произвольной формы к вашей базе данных в объект набора данных в Superset. Виртуальные наборы данных наследуют большую часть тех же сверхспособностей, что и физические наборы данных:

  • типы столбцов (выводятся из результатов выполнения запроса)
  • умение определять метрики
  • возможность определять вычисляемые столбцы
  • возможность сертифицировать метрики или вычисляемые столбцы
  • установка таймаута кэша

Реестр датасетов


Датасеты создаются в отдельном реестре.

Реестр датасетов.PNG

Перед настройкой датасетов обязательно должно быть создано подключение к базе данных (БД).

Создание датасета


1. Нажмите кнопку Датасет в реестре.

Реестр датасетов.PNG

2. В открывшемся окне выберете:

  • базу данных (БД)
  • схему
  • таблицу БД

3. Нажмите кнопку ADD DATASET AND CREATE CHART.

Создание датасета.PNG

4. Дальнейшие шаги аналогичны созданию графика.

Редактирование данных вкладок датасета


1. Найдите в реестре необходимый датасет и нажмите кнопку Редактировать в столбце Действия.
2. В открывшейся форме нажмите на кнопку внесения изменений, отредактируйте данные параметров вкладок и нажмите кнопку Сохранить:

Изменение настроек влияют на все графики, использующие этот датасет, в том числе графики других пользователей.

Для внесения изменений формы нажмите на замок.

Источник

При необходимости внесите изменения в следующие параметры:

  • Переключатель Физический (таблица или представление).
    • БД
    • Схема
    • Таблица
  • Переключатель Виртуальный (SQL).
    • БД
    • Схема
    • Имя датасета
    • Запрос SQL

Вкладка Источник.PNG

Меры

При необходимости отредактируйте существующие показатели и добавьте новые по кнопке Добавить запись. При добавлении и редактирование записи доступно:

  • Написание выражения SQL
  • Ввод описания, форматы даты и времени, кем утверждено, детали утверждения, предупреждение
  • Удаление записи

1703748909207-805.PNG

Столбцы

При необходимости добавьте данные/внесите изменения в следующие параметры:

  • Содержит дату/время
  • Дата и время по умолчанию. Если это столбец с типом данных Дата и время, то укажите, как Cloud BI должен анализировать формат даты и времени в соответствии с ISO 8601
  • Фильтруемый
  • Является измерением

Доступно удаление столбцов. 

1703749169828-906.PNG

Вычисляемые столбцы

При необходимости добавьте данные/внесите изменения в следующие параметры:

  • Содержит дату/время.
  • Дата и время по умолчанию. Если это столбец с типом данных Дата и время, то укажите, как Cloud BI должен анализировать формат даты и времени в соответствии с ISO 8601
  • Фильтруемый.
  • Является измерением.

При добавлении и редактирование записи доступно:

  • Написание выражения SQL.
  • Ввод описания, форматы даты и времени, кем утверждено, детали утверждения, предупреждение.
  • Удаление записи.

1703749292326-801.PNG

Операции с бинарными полями

Если датасет содержит поле с бинарным значением (true/false), то подсчитать сумму невозможно, появляется ошибка. 

https://lh7-us.googleusercontent.com/nloSzniI9EYafgYU769XTYVOScr5VQVZeXLhLx4W-vcsRWqtXjN89GJXl0wVrGuhwQLSZ8taciOh6vyLDCIBNaXZAx6l4Y9kfOjq4hErbXQvsqFglsSHuW-qr1cJILcxLK5MPQgML2-A4XDc4F2NpPY

Как исправить ошибку?

Когда редактируете датасет, добавьте вычисляемый столбец с числовым типом. Создайте логику нового поля при помощи выражения SQL.

https://lh7-us.googleusercontent.com/H0auJSe1fCptj3tMVaXe3vUxaD9yfu361ZHg_3ZoeExBw56ZqPWqz8ZzbVTzHdiiQr7v6aH9BsBXR2MHg5SqMr38xlHUEU0-Hy4zd5Hxe79FAcA--nWNwpoqqn_84fDq-dmpkN8n-RSrMBR_qqgCrhE

Настройки

При необходимости добавьте данные или внесите изменения в следующие группы параметров:

Группа параметровПолеЗаполнение поля
Базовая настройкаОписаниеВводится описание.
 URL базы данныхURL по умолчанию, на который перенаправляются  при доступе из страницы с реестром датасетов.
 Фильтры автозаполнения

При необходимости включите фильтр на определенный интервал или диапазон времени и извлеките значение предиката
Автозаполняемые фильтры используются для улучшения быстродействия запроса. Используйте этот параметр, чтобы применить предложение WHERE запрос для уникальных значений из таблицы. Целью является ограничение сканирования путем применения фильтра относительного времени к секционированному или индексированному полю, связанному со временем.
Доступно редактирование SQL-запроса в модальном окне.

 Дополнительные параметры

Поддерживаются метаданные следующих форматов:

  • `{ "certification": { "certified_by": "Data Platform Team"
  • "details": "This table is the source of truth." }
  • "warning_markdown": "This is a warning." }`

При необходимости укажите владельцев датасета.

Продвинутая настройкаВремя жизни кэшаКоличество секунд до истечения срока действия кэша.
 Смещение времениОтрицательное или положительное количество часов для смещения столбца времени. Функционал используется для приведения часового пояса UTC к местному времени.
 Параметры шаблонаНабор параметров, доступных в запросе через шаблонизацию Jinja.

При необходимости перейдите из реестра и внесите изменения в датасет.

Вкладка Продвинутая настройка.PNG

Фильтрация в реестре датасетов


При необходимости отфильтруйте реестр по следующим параметрам:

  • Владелец
  • База данных
  • Схема
  • Тип
  • Сертифицировано ли

Дополнительно доступен поиск в реестре.

Фильтры в реестре датасетов.PNG

Множественный выбор в реестре датасетов


Доступен при нажатии кнопки Множественный выбор. Также возможен экспорт данных.

Множественный выбор в реестре датасетов.PNG

Удаление датасетов


При необходимости удалите датасет одним из двух способов:

  • При выделении записи в реестре и нажатии кнопки Удалить.
  • При множественном выборе и нажатии кнопки Удалить.

При удалении в открывшейся форме выйдет сообщение, что датасет привязан к графикам. Введите Удалить и нажмите кнопку Удалить. В результате датасет удаляется из реестра.

Удаление датасета приводит к неработоспособности привязанных графиков.

Удаление датасета.PNG

Экспорт датасета


При необходимости экспортируйте датасет двумя способами:

  • При выделении записи в реестре и нажатии кнопки Экспорт в столбце Действия.
  • При множественном выборе и нажатии кнопки Экспорт.

Экспорт датасета.PNG

Датасеты экспортируются в архиве в формате yaml

Импорт датасета


1. Нажмите кнопку Импортировать датасеты.
2. В открывшейся форме загрузите необходимый файл и нажмите кнопку Импорт. В результате датасет загружается в реестр.

Импорт датасета.png

При необходимости импортируйте датасеты при множественном выборе.

Пример датасета


Пример датасета.PNG

В начало 🡱
К следующему разделу 🡲
К предыдущему разделу 🡰