Набор Инструментов для Оценки Больших Мультимодальных Моделей

Ускорение разработки больших мультимодальных моделей (LMMs) с помощью lmms-eval. Мы поддерживаем большинство задач с текстом, изображениями, видео и аудио.

🏠 Главная страница LMMs-Lab | 🤗 Наборы данных Huggingface | discord/lmms-eval

📖 Поддерживаемые задачи (100+) | 🌟 Поддерживаемые модели (30+) | 📚 Документация

Объявления

[2025-10] 🚀🚀 LMMs-Eval v0.5 здесь! Этот крупный релиз включает комплексную оценку аудио, кэширование ответов, 5 новых моделей (GPT-4o Audio Preview, Gemma-3, LongViLA-R1, LLaVA-OneVision 1.5, Thyme) и более 50 новых вариантов бенчмарков, охватывающих аудио (Step2, VoiceBench, WenetSpeech), зрение (CharXiv, Lemonade) и рассуждения (CSBench, SciBench, MedQA, SuperGPQA). Подробности см. в примечаниях к релизу.
[2025-07] 🚀🚀 Мы выпустили lmms-eval-0.4. Подробности см. в примечаниях к релизу.

Почему `lmms-eval`?

Мы находимся на захватывающем пути к созданию Искусственного Общего Интеллекта (AGI), подобно энтузиазму высадки на Луну 1960-х годов. Этот путь движим продвинутыми большими языковыми моделями (LLMs) и большими мультимодальными моделями (LMMs), сложными системами, способными понимать, учиться и выполнять широкий спектр человеческих задач.

Для измерения того, насколько продвинуты эти модели, мы используем различные бенчмарки оценки. Эти бенчмарки — инструменты, помогающие нам понять возможности этих моделей, показывая, насколько мы близки к достижению AGI. Однако поиск и использование этих бенчмарков представляет большую проблему.

В области языковых моделей работа lm-evaluation-harness создала ценный прецедент. Мы усвоили изысканный и эффективный дизайн lm-evaluation-harness и представили lmms-eval, тщательно разработанный фреймворк оценки для согласованной и эффективной оценки LMM.

Установка

Использование uv (Рекомендуется для согласованных окружений)

Мы используем uv для управления пакетами, чтобы гарантировать, что все разработчики используют точно такие же версии пакетов. Сначала установите uv:

curl -LsSf https://astral.sh/uv/install.sh | sh

Для разработки с согласованным окружением:

git clone https://github.com/EvolvingLMMs-Lab/lmms-eval
cd lmms-eval
# Рекомендуется
uv pip install -e ".[all]"
# Если вы хотите использовать uv sync
# uv sync  # Это создает/обновляет ваше окружение из uv.lock

Для запуска команд:

uv run python -m lmms_eval --help  # Запустить любую команду с uv run

Альтернативная установка

Для прямого использования из Git:

uv venv eval
uv venv --python 3.12
source eval/bin/activate
# Возможно, вам потребуется добавить и включить собственный yaml задач при использовании этой установки
uv pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.git

Использование

Больше примеров в examples/models

Оценка модели, совместимой с OpenAI

bash examples/models/openai_compatible.sh
bash examples/models/xai_grok.sh

Оценка vLLM

bash examples/models/vllm_qwen2vl.sh

Оценка LLaVA-OneVision

bash examples/models/llava_onevision.sh

Дополнительные параметры

python3 -m lmms_eval --help

Добавление пользовательской модели и набора данных

См. нашу документацию.

Благодарности

lmms_eval — это форк lm-eval-harness. Рекомендуем прочитать документацию lm-eval-harness для получения соответствующей информации.

Цитирование

@misc{zhang2024lmmsevalrealitycheckevaluation,
      title={LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models}, 
      author={Kaichen Zhang and Bo Li and Peiyuan Zhang and Fanyi Pu and Joshua Adrian Cahyono and Kairui Hu and Shuai Liu and Yuanhan Zhang and Jingkang Yang and Chunyuan Li and Ziwei Liu},
      year={2024},
      eprint={2407.12772},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2407.12772}, 
}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Набор Инструментов для Оценки Больших Мультимодальных Моделей

Объявления

Почему `lmms-eval`?

Установка

Использование uv (Рекомендуется для согласованных окружений)

Альтернативная установка

Использование

Добавление пользовательской модели и набора данных

Благодарности

Цитирование

FilesExpand file tree

README_ru.md

Latest commit

History

README_ru.md

File metadata and controls

Набор Инструментов для Оценки Больших Мультимодальных Моделей

Объявления

Почему lmms-eval?

Установка

Использование uv (Рекомендуется для согласованных окружений)

Альтернативная установка

Использование

Добавление пользовательской модели и набора данных

Благодарности

Цитирование

Почему `lmms-eval`?