• Русский
  • Быстрый старт

    Интеграция с S3

    Label Studio поддерживает интеграцию с S3-compatible хранилищем для импорта данных и экспорта аннотаций. К распространенным вариантам относятся Amazon S3, Ceph RGW и другие S3-compatible службы объектного хранения.

    Предварительные требования

    • S3-compatible bucket с соответствующими правами доступа
    • Учетные данные для доступа (Access Key ID и Secret Access Key)

    Bucket и учетные данные должны предоставляться поддерживаемой S3-compatible службой; платформе не требуется какой-либо конкретный продукт объектного хранения.

    Использование S3 с Label Studio

    1. Откройте настройки хранилища

      • Откройте проект Label Studio
      • Перейдите в Settings > Cloud Storage
    2. Добавьте исходное хранилище

      • Нажмите Add Source Storage
      • Выберите AWS S3 в качестве типа хранилища
      • Заполните обязательную информацию:
        • Storage Title: имя подключения к хранилищу
        • Bucket Name: имя S3 bucket
        • Region Name: регион хранилища (например, us-east-1 для AWS S3; может быть пустым, если провайдер не требует его)
        • S3 Endpoint: необязательный пользовательский S3 endpoint (оставьте пустым для значения по умолчанию AWS S3; укажите при использовании нестандартного или S3-compatible endpoint)
        • Access Key ID: ключ доступа
        • Secret Access Key: секретный ключ
        • Session Token: необязательный токен сеанса для временных учетных данных
        • Bucket Prefix: необязательный префикс пути в bucket (например, data/, input/)
        • File Filter Regex: необязательное regex-выражение для фильтрации файлов (например, .*csv или .*(jpe?g|png|tiff))
      • Настройте необязательные параметры:
        • Treat every bucket object as a source file: включите для медиафайлов, отключите для JSON task-файлов
        • Recursive scan: включите для рекурсивного сканирования подкаталогов
        • Use pre-signed URLs: включите для прямого доступа к S3 из браузера (рекомендуется)
        • Expiration minutes: время истечения URL (по умолчанию: 15 минут) при включенном Use pre-signed URLs
      • Нажмите Check Connection для проверки подключения
      • Нажмите Add Storage, чтобы создать подключение к хранилищу
    3. Добавьте целевое хранилище (необязательно)

      • Нажмите Add Target Storage, чтобы экспортировать аннотации в S3
      • Заполните аналогичные параметры S3, как для Source Storage
      • Дополнительные параметры Target Storage:
        • SSE KMS Key ID: необязательный KMS key для шифрования на стороне сервера
      • Настройте необязательные параметры:
        • Can delete objects from storage: включите, чтобы разрешить удаление аннотаций из хранилища
      • Нажмите Check Connection для проверки подключения
      • Нажмите Add Storage, чтобы создать подключение к хранилищу
    4. Загрузите данные в S3

      • Загрузите файлы данных в настроенный S3 bucket и путь с префиксом
      • Убедитесь, что файлы данных доступны с использованием настроенных учетных данных доступа
      • Используйте AWS CLI или другой S3-compatible клиент для массовой загрузки
    5. Импортируйте данные

      • Нажмите Sync Storage в разделе Source Cloud Storage, чтобы импортировать данные из S3
      • Выполняйте синхронизацию всякий раз, когда в S3 bucket добавляются новые данные
    6. Выполните аннотацию

      • Откройте импортированные данные в интерфейсе Label Studio
      • Завершите аннотации с помощью настроенного интерфейса разметки
    7. Экспортируйте аннотации

      • Нажмите кнопку Export, чтобы скачать результаты аннотаций в различных форматах (JSON, CSV и т. д.)
      • Или нажмите Sync Storage для Target Cloud Storage, чтобы отправить аннотации в S3
      • Примечание: Target Storage экспортирует аннотации только в формате JSON. Используйте Label Studio SDK для преобразования JSON-аннотаций в другие форматы (CSV, COCO, Pascal VOC, YOLO и т. д.). Подробности см. в конвертере SDK.
    8. Примените данные и аннотации для обучения/валидации модели

      • Скачайте обучающие данные и аннотации из S3 с помощью AWS CLI, boto3 или другого S3 client. Подробности реализации см. в примерах S3.
      • При необходимости преобразуйте формат аннотаций с помощью Label Studio SDK.
      • Интегрируйте данные в machine learning pipelines.
      • Используйте аннотации для обучения или валидации модели.

    Рекомендации по структуре хранилища

    • Используйте разные bucket или разные префиксы путей для разных проектов, чтобы избежать конфликтов данных.
    • Target и Source могут использовать один и тот же S3 bucket с разными префиксами путей (например, input/ для source, output/ для target) или разные bucket для лучшей изоляции данных и контроля доступа.

    Дополнительные ресурсы

    Для руководства по быстрому старту Label Studio обратитесь к официальной документации: Пошаговое руководство по началу работы с Label Studio