• Русский
  • Введение

    Label Studio

    Label Studio — это инструмент с открытым исходным кодом для разметки и аннотирования данных различных типов, который предоставляет стандартизированные форматы вывода. Он поддерживает разметку данных для множества типов, включая изображения, аудио, текст, временные ряды и видео.

    Он включает в себя следующие основные компоненты:

    • Backend Service: веб-сервис на базе Django и Python, предоставляющий REST API, Python SDK и интеграцию с машинным обучением
    • Frontend Interface: веб-интерфейс на базе React, обеспечивающий полный интерфейс аннотирования, включая управление проектами, управление данными, инструменты аннотирования и экспорт результатов
    • Database: поддержка базы данных PostgreSQL 13+ для хранения данных проектов и результатов аннотирования
    • Cache System: Redis для кэширования и управления очередями задач (опционально)

    Label Studio помогает командам создавать и поддерживать высококачественные рабочие процессы разметки данных: от простой классификации изображений до сложных задач аннотирования мультимодальных данных.

    Основные понятия

    Project

    Проекты являются базовой организационной единицей для разметки данных в Label Studio и включают:

    • Project Settings: конфигурация аннотирования, настройки импорта данных, права пользователей и др.
    • Data Management: импорт данных, хранение и контроль версий
    • Annotation Interface: настраиваемые инструменты и интерфейс аннотирования
    • Annotation Results: хранение и управление данными аннотирования

    Каждый проект имеет независимую конфигурацию и пространство данных, поддерживая совместную работу нескольких пользователей.

    Labeling Interface

    Интерфейс разметки — это основной инструмент для пользователей для выполнения аннотирования данных, поддерживающий:

    • Multiple Annotation Types: классификация изображений, обнаружение объектов, классификация текста, распознавание именованных сущностей и др.
    • Configurable Interface: настройка интерфейса аннотирования через язык конфигурации
    • Template Support: предоставление различных предопределённых шаблонов аннотирования
    • Shortcut Support: функции горячих клавиш для повышения эффективности аннотирования

    Интерфейс разметки использует специально разработанный язык конфигурации, который гибко адаптируется к различным потребностям аннотирования.

    Data Manager

    Менеджер данных — это основной инструмент управления данными проекта, предоставляющий:

    • Data Import: поддержка импорта данных из файлов, облачного хранилища (AWS S3, Google Cloud Storage)
    • Data Formats: поддержка форматов JSON, CSV, TSV и других
    • Data Preview: просмотр и предварительный просмотр данных для аннотирования
    • Data Filtering: фильтрация данных по статусу, аннотаторам, меткам и другим условиям

    Менеджер данных поддерживает пакетные операции и расширенный поиск.

    Annotations

    Аннотации — это метки и комментарии, добавленные пользователями к данным, включая:

    • Annotation Data: метки, ограничивающие рамки, сегментационные области, добавленные пользователями
    • Annotation Metadata: время аннотирования, аннотатор, уверенность и другая информация
    • Annotation Status: черновик, завершено, пропущено и другие статусы
    • Annotation Quality: оценка качества аннотаций и валидация

    Данные аннотаций хранятся в стандартизированном формате JSON для удобной последующей обработки и анализа.

    Machine Learning Integration

    Label Studio предоставляет мощные возможности интеграции с машинным обучением:

    • Pre-annotation: использование моделей машинного обучения для предварительной разметки с целью повышения эффективности
    • Online Learning: обучение и обновление моделей в реальном времени во время аннотирования
    • Active Learning: интеллектуальный выбор сложных образцов, требующих аннотирования
    • Model Comparison: сравнение результатов предсказаний различных моделей

    Поддерживает несколько фреймворков машинного обучения и форматов моделей.

    Взаимосвязь основных понятий

    • Projects — базовые контейнеры для организации задач аннотирования и данных
    • Labeling Interfaces — определяют, как пользователи взаимодействуют с данными для аннотирования
    • Data Managers — управляют импортом, хранением и организацией данных внутри проектов
    • Annotations — хранят фактические результаты разметки и метаданные
    • Machine Learning Integration — связывает внешние модели для предварительной разметки и активного обучения

    Документация

    Label Studio предоставляет исчерпывающую официальную документацию и справочники по API, чтобы помочь пользователям глубоко понять и использовать возможности платформы:

    Официальная документация

    • Main Documentation: https://labelstud.io/guide/
      • Подробное введение в основные понятия и рабочие процессы Label Studio
      • Включает руководства по установке, быстрый старт и лучшие практики
      • Предоставляет типичные сценарии использования, примеры кода, учебные материалы и справочники по API