Skip to content

Latest commit

 

History

History
120 lines (84 loc) · 7.74 KB

File metadata and controls

120 lines (84 loc) · 7.74 KB

Набор Инструментов для Оценки Больших Мультимодальных Моделей

🌐 English | 简体中文 | 繁體中文 | 日本語 | 한국어 | Español | Français | Deutsch | Português | Русский | Italiano | Nederlands | Polski | Türkçe | العربية | हिन्दी | Tiếng Việt | Indonesia

PyPI PyPI - Downloads GitHub contributors issue resolution open issues

Ускорение разработки больших мультимодальных моделей (LMMs) с помощью lmms-eval. Мы поддерживаем большинство задач с текстом, изображениями, видео и аудио.

🏠 Главная страница LMMs-Lab | 🤗 Наборы данных Huggingface | Discord_Thread discord/lmms-eval

📖 Поддерживаемые задачи (100+) | 🌟 Поддерживаемые модели (30+) | 📚 Документация


Объявления

  • [2025-10] 🚀🚀 LMMs-Eval v0.5 здесь! Этот крупный релиз включает комплексную оценку аудио, кэширование ответов, 5 новых моделей (GPT-4o Audio Preview, Gemma-3, LongViLA-R1, LLaVA-OneVision 1.5, Thyme) и более 50 новых вариантов бенчмарков, охватывающих аудио (Step2, VoiceBench, WenetSpeech), зрение (CharXiv, Lemonade) и рассуждения (CSBench, SciBench, MedQA, SuperGPQA). Подробности см. в примечаниях к релизу.
  • [2025-07] 🚀🚀 Мы выпустили lmms-eval-0.4. Подробности см. в примечаниях к релизу.

Почему lmms-eval?

Мы находимся на захватывающем пути к созданию Искусственного Общего Интеллекта (AGI), подобно энтузиазму высадки на Луну 1960-х годов. Этот путь движим продвинутыми большими языковыми моделями (LLMs) и большими мультимодальными моделями (LMMs), сложными системами, способными понимать, учиться и выполнять широкий спектр человеческих задач.

Для измерения того, насколько продвинуты эти модели, мы используем различные бенчмарки оценки. Эти бенчмарки — инструменты, помогающие нам понять возможности этих моделей, показывая, насколько мы близки к достижению AGI. Однако поиск и использование этих бенчмарков представляет большую проблему.

В области языковых моделей работа lm-evaluation-harness создала ценный прецедент. Мы усвоили изысканный и эффективный дизайн lm-evaluation-harness и представили lmms-eval, тщательно разработанный фреймворк оценки для согласованной и эффективной оценки LMM.

Установка

Использование uv (Рекомендуется для согласованных окружений)

Мы используем uv для управления пакетами, чтобы гарантировать, что все разработчики используют точно такие же версии пакетов. Сначала установите uv:

curl -LsSf https://astral.sh/uv/install.sh | sh

Для разработки с согласованным окружением:

git clone https://github.com/EvolvingLMMs-Lab/lmms-eval
cd lmms-eval
# Рекомендуется
uv pip install -e ".[all]"
# Если вы хотите использовать uv sync
# uv sync  # Это создает/обновляет ваше окружение из uv.lock

Для запуска команд:

uv run python -m lmms_eval --help  # Запустить любую команду с uv run

Альтернативная установка

Для прямого использования из Git:

uv venv eval
uv venv --python 3.12
source eval/bin/activate
# Возможно, вам потребуется добавить и включить собственный yaml задач при использовании этой установки
uv pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.git

Использование

Больше примеров в examples/models

Оценка модели, совместимой с OpenAI

bash examples/models/openai_compatible.sh
bash examples/models/xai_grok.sh

Оценка vLLM

bash examples/models/vllm_qwen2vl.sh

Оценка LLaVA-OneVision

bash examples/models/llava_onevision.sh

Дополнительные параметры

python3 -m lmms_eval --help

Добавление пользовательской модели и набора данных

См. нашу документацию.

Благодарности

lmms_eval — это форк lm-eval-harness. Рекомендуем прочитать документацию lm-eval-harness для получения соответствующей информации.

Цитирование

@misc{zhang2024lmmsevalrealitycheckevaluation,
      title={LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models}, 
      author={Kaichen Zhang and Bo Li and Peiyuan Zhang and Fanyi Pu and Joshua Adrian Cahyono and Kairui Hu and Shuai Liu and Yuanhan Zhang and Jingkang Yang and Chunyuan Li and Ziwei Liu},
      year={2024},
      eprint={2407.12772},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2407.12772}, 
}