Что такое клей AWS и как вы его используете? — CloudSavvy IT

AWS Logo

AWS Glue — это управляемый сервис извлечения, преобразования и загрузки (ETL), который способен обрабатывать данные, хранящиеся в S3 или DynamoDB, и преобразовывать их в различные форматы или схемы для более легкого использования в других сервисах, таких как Athena.

Зачем использовать клей AWS?

AWS Glue предназначен для людей, у которых слишком много данных для обработки. Возможно, у вас есть целый парк серверов, и каждый из них выплевывает файлы журналов. Вы вводите эти данные в S3 для удобства хранения, но их много, и их нужно сначала обработать, прежде чем анализировать с помощью Athena. Может быть, вы заинтересованы только в нескольких столбцах данных и хотите отказаться от остальных.

Клей AWS справится с этим; он находится между вашими данными S3 и Athena и обрабатывает данные так же, как утилита, такая как sed или awk будет в командной строке. Установив сканер, вы можете импортировать данные, хранящиеся на S3, в ваш каталог данных, который используется Athena для выполнения запросов. Затем вы можете изменить эти данные, чтобы удалить ненужные столбцы или конвертировать между форматами.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

AWS Glue также может автоматически конвертировать CSV и другие форматы с разделителями в столбчатый формат Apache Parquet, который настоятельно рекомендуется для всех, кто работает с Athena, поскольку он может сократить ваши расходы на порядок из-за того, что для обработки требуется гораздо меньше данных.

С чего начать

Направляйтесь к Клеевая консоль AWSи выберите «Начать». На вкладке «Crawlers» выберите «Create Crawler» и дайте ему имя. Выберите «Хранилища данных» в качестве типа импорта и настройте его для импорта данных из корзины S3, где хранятся ваши данные.

Клеевая консоль AWS

Затем создайте нового пользователя IAM, чтобы сканер работал как. Создайте его из этого диалогового окна, а затем выберите его в списке (возможно, вам придется нажать кнопку обновления рядом со списком).

Выберите свою роль в IAM.

Вы можете дать своему сканеру график, используя стандартные cron синтаксис или выбрав один из предопределенных параметров. Вы также можете запустить его вручную с консоли, если хотите.

Дайте вашему гусеницу расписание.

Выберите выходную базу данных из вашего каталога данных. Если вы ранее использовали Athena, у вас может быть собственная база данных, но если нет, то по умолчанию она должна работать нормально. Сканер создает для себя таблицу для хранения данных.

Преобразование данных

После того как ваши данные импортированы в базу данных каталога данных, вы можете использовать их в других функциях AWS Glue. Например, если вы хотите обработать свои данные, вы можете создать новое задание на вкладке «Задания» для обработки преобразования данных.

Дайте имя работе и выберите свою роль в IAM. Выберите «Предложенный сценарий, сгенерированный AWS Glue» в качестве сценария, выполняемого заданием, если вы не хотите писать его вручную.

Дайте имя работе и выберите свою роль в IAM.

На следующей вкладке выберите таблицу, в которую ваши данные были импортированы искателем. Нажмите «Далее», а затем выберите «Изменить схему» в качестве типа преобразования.

Вы можете создать новые файлы или обновить текущие с помощью новой схемы. Если вы конвертируете в Parquet или другие форматы, вам нужно создать новые файлы.

На следующей странице вы можете настроить, где происходит вся магия. Каждый столбец в исходном файле отображается на столбец в выходном файле. Вы можете удалить столбцы и добавить новые, если хотите. По умолчанию это сопоставление «один к одному», поэтому, если вы просто конвертируете между форматами, вы можете игнорировать эту страницу.

Конвертация между форматами.

Затем вы попадаете в редактор сценариев, где AWS предварительно загрузил сценарий, который выполняет правильное преобразование для вас. Вы можете запустить его вручную на этой вкладке в консоли или настроить его на запуск по фиксированному расписанию.

Афина также может быть настроена для загрузки данных из сканера AWS Glue, а не из фиксированного пути в S3. Вы также можете использовать его, чтобы более точно контролировать, какие данные импортируются.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *