02. Данные и таблицы
Содержание
Можно ли получить доступ к нескольким таблицам одновременно?
Ответ: не совсем. Только не в режиме поиска данных или интерфейсе визуализации. Инструмент Лаборатории SQL позволяет получить доступ только к одной таблице или к представлению.
При работе с таблицами решение — материализация таблицы с помощью регулярного запланированного процесса пакетной обработки данных. Таблица при этом должна содержать все необходимые для анализа данных поля.
Представление (View) — это простой логический уровень, абстрагирующий несколько SQL-запросов виртуальной таблицей. Это позволяет объединять несколько таблиц в одну единую и преобразовывать данные с использованием произвольных SQL-запросов. Ограничением является производительность базы данных, поскольку сервис эффективно запускает запрос поверх запроса к представлению. Хорошая практика является — ограничение соединения основной большой таблицы только к одной или к нескольким небольшим таблицам. В этом случае рекомендуется избегать оператора GROUP BY (где это возможно), поскольку BI будет выполнять свою собственную реализацию запроса GROUP BY, а выполнение работы дважды может снизить производительность.
При использовании таблицы или представления (view) важный фактором является то, достаточно ли быстро работает БД, из которой забираются данные. Быстрая работа БД необходима для обслуживания БД
в интерактивном режиме с целью обеспечения хорошего взаимодействия между СУБД и BI. Лучше всего использовать СУБД с "горячим" доступом в качестве организации горячего слоя для BI (например, Clickhouse).
Однако если использовать Лабораторию SQL, то такого ограничения нет. Лаборатория SQL позволяет написать SQL-запроса для объединения нескольких таблиц, если учетная запись БД, через которую подключается Cloud BI, имеет доступ к таблицам.
Насколько большими могут быть данные?
Ответ: очень большого размера. Cloud BI работает как тонкий клиент над БД или средством обработки данных.
Основной критерий скорости работы и объема обрабатываемых данных — скорость работы БД, используемой в качестве хранилища данных и являющейся слоем данных для Cloud BI.
Многие распределенные СУБД могут выполнять запросы, работающие с терабайтами данных в интерактивном режиме.