• Русский
  • Быстрый старт

    Интеграция с S3

    Label Studio поддерживает интеграцию с хранилищами, совместимыми с S3, для импорта данных и экспорта аннотаций. Это включает Amazon S3, MinIO и другие сервисы, совместимые с S3.

    Требования

    • Корзина в хранилище, совместимом с S3, с соответствующими правами доступа
    • Учетные данные доступа (Access Key ID и Secret Access Key)

    Использование ACP MinIO в качестве S3-хранилища

    Примечание: ACP MinIO — это лишь один из вариантов. Вы можете использовать любое хранилище, совместимое с S3 (например, Amazon S3, Ceph RGW и др.).

    Вы можете использовать встроенный MinIO из ACP в качестве S3-хранилища:

    1. Объектное хранилище: В режиме администратора перейдите в Storage / Object Storage, чтобы проверить, создан ли уже MinIO. Если нет, нажмите Configure Now для начала настройки.

    2. Развертывание MinIO Operator: Процесс Create Object Storage состоит из двух шагов. Сначала нажмите Deploy Operator для развертывания MinIO Operator согласно инструкциям на странице.

    3. Создание кластера MinIO: После развертывания MinIO Operator перейдите ко второму шагу Create Cluster. Заполните необходимые поля:

      • Name: имя кластера
      • Access Key и Secret Key: учетные данные администратора
      • Resource Configuration: настройки выделения ресурсов
      • Storage Pool Configuration: настройки пула хранилища
      • Access Configuration: настройки метода доступа

      Нажмите Create Cluster для создания кластера MinIO.

    4. Получение информации для доступа: Адрес доступа к кластеру MinIO можно найти на вкладке Access Method.

    5. Управление корзинами и учетными данными: Используйте клиент mc для доступа к кластеру MinIO, создания корзин и генерации ключей доступа с ограниченными правами. Подробности использования см. в MinIO Client Documentation.

    Использование S3 с Label Studio

    1. Доступ к настройкам хранилища

      • Откройте проект Label Studio
      • Перейдите в Settings > Cloud Storage
    2. Добавление исходного хранилища

      • Нажмите Add Source Storage
      • Выберите тип хранилища AWS S3
      • Заполните необходимые поля:
        • Storage Title: название подключения к хранилищу
        • Bucket Name: имя корзины S3
        • Region Name: регион хранилища (например, us-east-1 для AWS S3, можно оставить пустым для MinIO)
        • S3 Endpoint: необязательный пользовательский S3 endpoint (оставьте пустым для AWS S3, обязательно для MinIO)
        • Access Key ID: ключ доступа
        • Secret Access Key: секретный ключ
        • Session Token: необязательный токен сессии для временных учетных данных
        • Bucket Prefix: необязательный префикс пути в корзине (например, data/, input/)
        • File Filter Regex: необязательное регулярное выражение для фильтрации файлов (например, .*csv или .*(jpe?g|png|tiff))
      • Настройте дополнительные параметры:
        • Treat every bucket object as a source file: отметить для медиафайлов, снять отметку для JSON-файлов задач
        • Recursive scan: включить для рекурсивного сканирования поддиректорий
        • Use pre-signed URLs: включить для прямого доступа к S3 через браузер (рекомендуется)
        • Expiration minutes: время действия URL (по умолчанию 15 минут) при включенном Use pre-signed URLs
      • Нажмите Check Connection для проверки подключения
      • Нажмите Add Storage для создания подключения к хранилищу
    3. Добавление целевого хранилища (опционально)

      • Нажмите Add Target Storage для экспорта аннотаций в S3
      • Заполните параметры S3 аналогично исходному хранилищу
      • Дополнительные параметры целевого хранилища:
        • SSE KMS Key ID: необязательный ключ KMS для серверного шифрования
      • Настройте дополнительные параметры:
        • Can delete objects from storage: включить для разрешения удаления аннотаций из хранилища
      • Нажмите Check Connection для проверки подключения
      • Нажмите Add Storage для создания подключения
    4. Загрузка данных в S3

      • Загрузите файлы данных в настроенную корзину S3 и указанный префикс пути
      • Убедитесь, что файлы доступны с использованием настроенных учетных данных
      • Для массовой загрузки используйте клиент mc или AWS CLI
    5. Импорт данных

      • Нажмите Sync Storage в разделе Source Cloud Storage для импорта данных из S3
      • Выполняйте синхронизацию при добавлении новых данных в корзину S3
    6. Выполнение аннотирования

      • Получите доступ к импортированным данным в интерфейсе Label Studio
      • Выполните аннотирование с использованием настроенного интерфейса разметки
    7. Экспорт аннотаций

      • Нажмите кнопку Export для скачивания результатов аннотаций в различных форматах (JSON, CSV и др.)
      • Или нажмите Sync Storage для Target Cloud Storage для выгрузки аннотаций в S3
      • Примечание: Целевое хранилище экспортирует аннотации только в формате JSON. Для конвертации JSON-аннотаций в другие форматы (CSV, COCO, Pascal VOC, YOLO и др.) используйте Label Studio SDK. Подробнее см. SDK converter.
    8. Использование данных и аннотаций для обучения/валидации моделей

      • Скачивайте обучающие данные и аннотации из S3 с помощью клиента mc или AWS Python SDK (boto3). Подробности реализации см. в S3 examples.
      • При необходимости конвертируйте формат аннотаций с помощью Label Studio SDK.
      • Интегрируйте данные в конвейеры машинного обучения.
      • Используйте аннотации для обучения или валидации моделей.

    Рекомендации по структуре хранилища

    • Используйте разные корзины или разные префиксы путей для разных проектов, чтобы избежать конфликтов данных.
    • Целевое и исходное хранилища могут использовать одну корзину S3 с разными префиксами путей (например, input/ для исходных данных, output/ для целевых), либо разные корзины для лучшей изоляции данных и контроля доступа.

    Дополнительные ресурсы

    Для быстрого старта с Label Studio обратитесь к официальной документации: Getting Started With Label Studio: A Step-By-Step Guide