Быстрый старт
Содержание
Интеграция с S3Предварительные требованияИспользование S3 с Label StudioРекомендации по структуре хранилищаДополнительные ресурсыИнтеграция с S3
Label Studio поддерживает интеграцию с S3-compatible хранилищем для импорта данных и экспорта аннотаций. К распространенным вариантам относятся Amazon S3, Ceph RGW и другие S3-compatible службы объектного хранения.
Предварительные требования
- S3-compatible bucket с соответствующими правами доступа
- Учетные данные для доступа (Access Key ID и Secret Access Key)
Bucket и учетные данные должны предоставляться поддерживаемой S3-compatible службой; платформе не требуется какой-либо конкретный продукт объектного хранения.
Использование S3 с Label Studio
-
Откройте настройки хранилища
- Откройте проект Label Studio
- Перейдите в Settings > Cloud Storage
-
Добавьте исходное хранилище
- Нажмите Add Source Storage
- Выберите AWS S3 в качестве типа хранилища
- Заполните обязательную информацию:
- Storage Title: имя подключения к хранилищу
- Bucket Name: имя S3 bucket
- Region Name: регион хранилища (например, us-east-1 для AWS S3; может быть пустым, если провайдер не требует его)
- S3 Endpoint: необязательный пользовательский S3 endpoint (оставьте пустым для значения по умолчанию AWS S3; укажите при использовании нестандартного или S3-compatible endpoint)
- Access Key ID: ключ доступа
- Secret Access Key: секретный ключ
- Session Token: необязательный токен сеанса для временных учетных данных
- Bucket Prefix: необязательный префикс пути в bucket (например,
data/,input/) - File Filter Regex: необязательное regex-выражение для фильтрации файлов (например,
.*csvили.*(jpe?g|png|tiff))
- Настройте необязательные параметры:
- Treat every bucket object as a source file: включите для медиафайлов, отключите для JSON task-файлов
- Recursive scan: включите для рекурсивного сканирования подкаталогов
- Use pre-signed URLs: включите для прямого доступа к S3 из браузера (рекомендуется)
- Expiration minutes: время истечения URL (по умолчанию: 15 минут) при включенном Use pre-signed URLs
- Нажмите Check Connection для проверки подключения
- Нажмите Add Storage, чтобы создать подключение к хранилищу
-
Добавьте целевое хранилище (необязательно)
- Нажмите Add Target Storage, чтобы экспортировать аннотации в S3
- Заполните аналогичные параметры S3, как для Source Storage
- Дополнительные параметры Target Storage:
- SSE KMS Key ID: необязательный KMS key для шифрования на стороне сервера
- Настройте необязательные параметры:
- Can delete objects from storage: включите, чтобы разрешить удаление аннотаций из хранилища
- Нажмите Check Connection для проверки подключения
- Нажмите Add Storage, чтобы создать подключение к хранилищу
-
Загрузите данные в S3
- Загрузите файлы данных в настроенный S3 bucket и путь с префиксом
- Убедитесь, что файлы данных доступны с использованием настроенных учетных данных доступа
- Используйте AWS CLI или другой S3-compatible клиент для массовой загрузки
-
Импортируйте данные
- Нажмите Sync Storage в разделе
Source Cloud Storage, чтобы импортировать данные из S3 - Выполняйте синхронизацию всякий раз, когда в S3 bucket добавляются новые данные
- Нажмите Sync Storage в разделе
-
Выполните аннотацию
- Откройте импортированные данные в интерфейсе Label Studio
- Завершите аннотации с помощью настроенного интерфейса разметки
-
Экспортируйте аннотации
- Нажмите кнопку Export, чтобы скачать результаты аннотаций в различных форматах (JSON, CSV и т. д.)
- Или нажмите Sync Storage для
Target Cloud Storage, чтобы отправить аннотации в S3 - Примечание: Target Storage экспортирует аннотации только в формате JSON. Используйте Label Studio SDK для преобразования JSON-аннотаций в другие форматы (CSV, COCO, Pascal VOC, YOLO и т. д.). Подробности см. в конвертере SDK.
-
Примените данные и аннотации для обучения/валидации модели
- Скачайте обучающие данные и аннотации из S3 с помощью AWS CLI, boto3 или другого S3 client. Подробности реализации см. в примерах S3.
- При необходимости преобразуйте формат аннотаций с помощью Label Studio SDK.
- Интегрируйте данные в machine learning pipelines.
- Используйте аннотации для обучения или валидации модели.
Рекомендации по структуре хранилища
- Используйте разные bucket или разные префиксы путей для разных проектов, чтобы избежать конфликтов данных.
- Target и Source могут использовать один и тот же S3 bucket с разными префиксами путей (например,
input/для source,output/для target) или разные bucket для лучшей изоляции данных и контроля доступа.
Дополнительные ресурсы
Для руководства по быстрому старту Label Studio обратитесь к официальной документации: Пошаговое руководство по началу работы с Label Studio