Быстрый старт
Содержание
Интеграция с S3ТребованияИспользование ACP MinIO в качестве S3-хранилищаИспользование S3 с Label StudioРекомендации по структуре хранилищаДополнительные ресурсыИнтеграция с S3
Label Studio поддерживает интеграцию с хранилищами, совместимыми с S3, для импорта данных и экспорта аннотаций. Это включает Amazon S3, MinIO и другие сервисы, совместимые с S3.
Требования
- Корзина в хранилище, совместимом с S3, с соответствующими правами доступа
- Учетные данные доступа (Access Key ID и Secret Access Key)
Использование ACP MinIO в качестве S3-хранилища
Примечание: ACP MinIO — это лишь один из вариантов. Вы можете использовать любое хранилище, совместимое с S3 (например, Amazon S3, Ceph RGW и др.).
Вы можете использовать встроенный MinIO из ACP в качестве S3-хранилища:
-
Объектное хранилище: В режиме администратора перейдите в
Storage/Object Storage, чтобы проверить, создан ли уже MinIO. Если нет, нажмите Configure Now для начала настройки. -
Развертывание MinIO Operator: Процесс
Create Object Storageсостоит из двух шагов. Сначала нажмите Deploy Operator для развертывания MinIO Operator согласно инструкциям на странице. -
Создание кластера MinIO: После развертывания MinIO Operator перейдите ко второму шагу
Create Cluster. Заполните необходимые поля:- Name: имя кластера
- Access Key и Secret Key: учетные данные администратора
- Resource Configuration: настройки выделения ресурсов
- Storage Pool Configuration: настройки пула хранилища
- Access Configuration: настройки метода доступа
Нажмите Create Cluster для создания кластера MinIO.
-
Получение информации для доступа: Адрес доступа к кластеру MinIO можно найти на вкладке Access Method.
-
Управление корзинами и учетными данными: Используйте клиент
mcдля доступа к кластеру MinIO, создания корзин и генерации ключей доступа с ограниченными правами. Подробности использования см. в MinIO Client Documentation.
Использование S3 с Label Studio
-
Доступ к настройкам хранилища
- Откройте проект Label Studio
- Перейдите в Settings > Cloud Storage
-
Добавление исходного хранилища
- Нажмите Add Source Storage
- Выберите тип хранилища AWS S3
- Заполните необходимые поля:
- Storage Title: название подключения к хранилищу
- Bucket Name: имя корзины S3
- Region Name: регион хранилища (например, us-east-1 для AWS S3, можно оставить пустым для MinIO)
- S3 Endpoint: необязательный пользовательский S3 endpoint (оставьте пустым для AWS S3, обязательно для MinIO)
- Access Key ID: ключ доступа
- Secret Access Key: секретный ключ
- Session Token: необязательный токен сессии для временных учетных данных
- Bucket Prefix: необязательный префикс пути в корзине (например,
data/,input/) - File Filter Regex: необязательное регулярное выражение для фильтрации файлов (например,
.*csvили.*(jpe?g|png|tiff))
- Настройте дополнительные параметры:
- Treat every bucket object as a source file: отметить для медиафайлов, снять отметку для JSON-файлов задач
- Recursive scan: включить для рекурсивного сканирования поддиректорий
- Use pre-signed URLs: включить для прямого доступа к S3 через браузер (рекомендуется)
- Expiration minutes: время действия URL (по умолчанию 15 минут) при включенном Use pre-signed URLs
- Нажмите Check Connection для проверки подключения
- Нажмите Add Storage для создания подключения к хранилищу
-
Добавление целевого хранилища (опционально)
- Нажмите Add Target Storage для экспорта аннотаций в S3
- Заполните параметры S3 аналогично исходному хранилищу
- Дополнительные параметры целевого хранилища:
- SSE KMS Key ID: необязательный ключ KMS для серверного шифрования
- Настройте дополнительные параметры:
- Can delete objects from storage: включить для разрешения удаления аннотаций из хранилища
- Нажмите Check Connection для проверки подключения
- Нажмите Add Storage для создания подключения
-
Загрузка данных в S3
- Загрузите файлы данных в настроенную корзину S3 и указанный префикс пути
- Убедитесь, что файлы доступны с использованием настроенных учетных данных
- Для массовой загрузки используйте клиент
mcили AWS CLI
-
Импорт данных
- Нажмите Sync Storage в разделе
Source Cloud Storageдля импорта данных из S3 - Выполняйте синхронизацию при добавлении новых данных в корзину S3
- Нажмите Sync Storage в разделе
-
Выполнение аннотирования
- Получите доступ к импортированным данным в интерфейсе Label Studio
- Выполните аннотирование с использованием настроенного интерфейса разметки
-
Экспорт аннотаций
- Нажмите кнопку Export для скачивания результатов аннотаций в различных форматах (JSON, CSV и др.)
- Или нажмите Sync Storage для
Target Cloud Storageдля выгрузки аннотаций в S3 - Примечание: Целевое хранилище экспортирует аннотации только в формате JSON. Для конвертации JSON-аннотаций в другие форматы (CSV, COCO, Pascal VOC, YOLO и др.) используйте Label Studio SDK. Подробнее см. SDK converter.
-
Использование данных и аннотаций для обучения/валидации моделей
- Скачивайте обучающие данные и аннотации из S3 с помощью клиента
mcили AWS Python SDK (boto3). Подробности реализации см. в S3 examples. - При необходимости конвертируйте формат аннотаций с помощью Label Studio SDK.
- Интегрируйте данные в конвейеры машинного обучения.
- Используйте аннотации для обучения или валидации моделей.
- Скачивайте обучающие данные и аннотации из S3 с помощью клиента
Рекомендации по структуре хранилища
- Используйте разные корзины или разные префиксы путей для разных проектов, чтобы избежать конфликтов данных.
- Целевое и исходное хранилища могут использовать одну корзину S3 с разными префиксами путей (например,
input/для исходных данных,output/для целевых), либо разные корзины для лучшей изоляции данных и контроля доступа.
Дополнительные ресурсы
Для быстрого старта с Label Studio обратитесь к официальной документации: Getting Started With Label Studio: A Step-By-Step Guide