🌐 English | 简体中文 | 繁體中文 | 日本語 | 한국어 | Español | Français | Deutsch | Português | Русский | Italiano | Nederlands | Polski | Türkçe | العربية | हिन्दी | Tiếng Việt | Indonesia
Acelerando el desarrollo de modelos multimodales de gran escala (LMMs) con
lmms-eval. Soportamos la mayoría de tareas de texto, imagen, video y audio.
🏠 Página Principal de LMMs-Lab | 🤗 Conjuntos de Datos de Huggingface | 
📖 Tareas Soportadas (100+) | 🌟 Modelos Soportados (30+) | 📚 Documentación
- [2025-10] 🚀🚀 ¡LMMs-Eval v0.5 está aquí! Esta versión principal introduce evaluación de audio completa, caché de respuestas, 5 nuevos modelos (GPT-4o Audio Preview, Gemma-3, LongViLA-R1, LLaVA-OneVision 1.5, Thyme), y más de 50 nuevas variantes de benchmark que abarcan audio (Step2, VoiceBench, WenetSpeech), visión (CharXiv, Lemonade) y razonamiento (CSBench, SciBench, MedQA, SuperGPQA). Consulte las notas de la versión para más detalles.
- [2025-07] 🚀🚀 Hemos lanzado
lmms-eval-0.4. Consulte las notas de la versión para más detalles.
Estamos en un emocionante viaje hacia la creación de Inteligencia General Artificial (AGI), similar al entusiasmo del aterrizaje lunar de los años 60. Este viaje está impulsado por modelos de lenguaje de gran escala (LLMs) y modelos multimodales de gran escala (LMMs), sistemas complejos capaces de entender, aprender y realizar una amplia variedad de tareas humanas.
Para medir cuán avanzados son estos modelos, utilizamos una variedad de benchmarks de evaluación. Estos benchmarks son herramientas que nos ayudan a entender las capacidades de estos modelos, mostrándonos qué tan cerca estamos de lograr AGI. Sin embargo, encontrar y usar estos benchmarks es un gran desafío.
En el campo de los modelos de lenguaje, el trabajo de lm-evaluation-harness ha establecido un precedente valioso. Absorbimos el diseño exquisito y eficiente de lm-evaluation-harness e introducimos lmms-eval, un framework de evaluación meticulosamente elaborado para la evaluación consistente y eficiente de LMM.
Usamos uv para la gestión de paquetes para asegurar que todos los desarrolladores usen exactamente las mismas versiones de paquetes. Primero, instale uv:
curl -LsSf https://astral.sh/uv/install.sh | shPara desarrollo con entorno consistente:
git clone https://github.com/EvolvingLMMs-Lab/lmms-eval
cd lmms-eval
# Recomendado
uv pip install -e ".[all]"
# Si desea usar uv sync
# uv sync # Esto crea/actualiza su entorno desde uv.lockPara ejecutar comandos:
uv run python -m lmms_eval --help # Ejecutar cualquier comando con uv runPara uso directo desde Git:
uv venv eval
uv venv --python 3.12
source eval/bin/activate
# Puede que necesite agregar e incluir su propio yaml de tareas si usa esta instalación
uv pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.gitMás ejemplos en examples/models
Evaluación de Modelo Compatible con OpenAI
bash examples/models/openai_compatible.sh
bash examples/models/xai_grok.shEvaluación de vLLM
bash examples/models/vllm_qwen2vl.shEvaluación de LLaVA-OneVision
bash examples/models/llava_onevision.shMás Parámetros
python3 -m lmms_eval --helpConsulte nuestra documentación.
lmms_eval es un fork de lm-eval-harness. Recomendamos leer la documentación de lm-eval-harness para información relevante.
@misc{zhang2024lmmsevalrealitycheckevaluation,
title={LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models},
author={Kaichen Zhang and Bo Li and Peiyuan Zhang and Fanyi Pu and Joshua Adrian Cahyono and Kairui Hu and Shuai Liu and Yuanhan Zhang and Jingkang Yang and Chunyuan Li and Ziwei Liu},
year={2024},
eprint={2407.12772},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.12772},
}