🌐 English | 简体中文 | 繁體中文 | 日本語 | 한국어 | Español | Français | Deutsch | Português | Русский | Italiano | Nederlands | Polski | Türkçe | العربية | हिन्दी | Tiếng Việt | Indonesia
Ускорение разработки больших мультимодальных моделей (LMMs) с помощью
lmms-eval. Мы поддерживаем большинство задач с текстом, изображениями, видео и аудио.
🏠 Главная страница LMMs-Lab | 🤗 Наборы данных Huggingface | 
📖 Поддерживаемые задачи (100+) | 🌟 Поддерживаемые модели (30+) | 📚 Документация
- [2025-10] 🚀🚀 LMMs-Eval v0.5 здесь! Этот крупный релиз включает комплексную оценку аудио, кэширование ответов, 5 новых моделей (GPT-4o Audio Preview, Gemma-3, LongViLA-R1, LLaVA-OneVision 1.5, Thyme) и более 50 новых вариантов бенчмарков, охватывающих аудио (Step2, VoiceBench, WenetSpeech), зрение (CharXiv, Lemonade) и рассуждения (CSBench, SciBench, MedQA, SuperGPQA). Подробности см. в примечаниях к релизу.
- [2025-07] 🚀🚀 Мы выпустили
lmms-eval-0.4. Подробности см. в примечаниях к релизу.
Мы находимся на захватывающем пути к созданию Искусственного Общего Интеллекта (AGI), подобно энтузиазму высадки на Луну 1960-х годов. Этот путь движим продвинутыми большими языковыми моделями (LLMs) и большими мультимодальными моделями (LMMs), сложными системами, способными понимать, учиться и выполнять широкий спектр человеческих задач.
Для измерения того, насколько продвинуты эти модели, мы используем различные бенчмарки оценки. Эти бенчмарки — инструменты, помогающие нам понять возможности этих моделей, показывая, насколько мы близки к достижению AGI. Однако поиск и использование этих бенчмарков представляет большую проблему.
В области языковых моделей работа lm-evaluation-harness создала ценный прецедент. Мы усвоили изысканный и эффективный дизайн lm-evaluation-harness и представили lmms-eval, тщательно разработанный фреймворк оценки для согласованной и эффективной оценки LMM.
Мы используем uv для управления пакетами, чтобы гарантировать, что все разработчики используют точно такие же версии пакетов. Сначала установите uv:
curl -LsSf https://astral.sh/uv/install.sh | shДля разработки с согласованным окружением:
git clone https://github.com/EvolvingLMMs-Lab/lmms-eval
cd lmms-eval
# Рекомендуется
uv pip install -e ".[all]"
# Если вы хотите использовать uv sync
# uv sync # Это создает/обновляет ваше окружение из uv.lockДля запуска команд:
uv run python -m lmms_eval --help # Запустить любую команду с uv runДля прямого использования из Git:
uv venv eval
uv venv --python 3.12
source eval/bin/activate
# Возможно, вам потребуется добавить и включить собственный yaml задач при использовании этой установки
uv pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.gitБольше примеров в examples/models
Оценка модели, совместимой с OpenAI
bash examples/models/openai_compatible.sh
bash examples/models/xai_grok.shОценка vLLM
bash examples/models/vllm_qwen2vl.shОценка LLaVA-OneVision
bash examples/models/llava_onevision.shДополнительные параметры
python3 -m lmms_eval --helpСм. нашу документацию.
lmms_eval — это форк lm-eval-harness. Рекомендуем прочитать документацию lm-eval-harness для получения соответствующей информации.
@misc{zhang2024lmmsevalrealitycheckevaluation,
title={LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models},
author={Kaichen Zhang and Bo Li and Peiyuan Zhang and Fanyi Pu and Joshua Adrian Cahyono and Kairui Hu and Shuai Liu and Yuanhan Zhang and Jingkang Yang and Chunyuan Li and Ziwei Liu},
year={2024},
eprint={2407.12772},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.12772},
}