Skip to content

Latest commit

 

History

History
120 lines (84 loc) · 6.02 KB

File metadata and controls

120 lines (84 loc) · 6.02 KB

Suite de Evaluación de Modelos Multimodales de Gran Escala

🌐 English | 简体中文 | 繁體中文 | 日本語 | 한국어 | Español | Français | Deutsch | Português | Русский | Italiano | Nederlands | Polski | Türkçe | العربية | हिन्दी | Tiếng Việt | Indonesia

PyPI PyPI - Downloads GitHub contributors issue resolution open issues

Acelerando el desarrollo de modelos multimodales de gran escala (LMMs) con lmms-eval. Soportamos la mayoría de tareas de texto, imagen, video y audio.

🏠 Página Principal de LMMs-Lab | 🤗 Conjuntos de Datos de Huggingface | Discord_Thread discord/lmms-eval

📖 Tareas Soportadas (100+) | 🌟 Modelos Soportados (30+) | 📚 Documentación


Anuncios

  • [2025-10] 🚀🚀 ¡LMMs-Eval v0.5 está aquí! Esta versión principal introduce evaluación de audio completa, caché de respuestas, 5 nuevos modelos (GPT-4o Audio Preview, Gemma-3, LongViLA-R1, LLaVA-OneVision 1.5, Thyme), y más de 50 nuevas variantes de benchmark que abarcan audio (Step2, VoiceBench, WenetSpeech), visión (CharXiv, Lemonade) y razonamiento (CSBench, SciBench, MedQA, SuperGPQA). Consulte las notas de la versión para más detalles.
  • [2025-07] 🚀🚀 Hemos lanzado lmms-eval-0.4. Consulte las notas de la versión para más detalles.

¿Por qué lmms-eval?

Estamos en un emocionante viaje hacia la creación de Inteligencia General Artificial (AGI), similar al entusiasmo del aterrizaje lunar de los años 60. Este viaje está impulsado por modelos de lenguaje de gran escala (LLMs) y modelos multimodales de gran escala (LMMs), sistemas complejos capaces de entender, aprender y realizar una amplia variedad de tareas humanas.

Para medir cuán avanzados son estos modelos, utilizamos una variedad de benchmarks de evaluación. Estos benchmarks son herramientas que nos ayudan a entender las capacidades de estos modelos, mostrándonos qué tan cerca estamos de lograr AGI. Sin embargo, encontrar y usar estos benchmarks es un gran desafío.

En el campo de los modelos de lenguaje, el trabajo de lm-evaluation-harness ha establecido un precedente valioso. Absorbimos el diseño exquisito y eficiente de lm-evaluation-harness e introducimos lmms-eval, un framework de evaluación meticulosamente elaborado para la evaluación consistente y eficiente de LMM.

Instalación

Usando uv (Recomendado para entornos consistentes)

Usamos uv para la gestión de paquetes para asegurar que todos los desarrolladores usen exactamente las mismas versiones de paquetes. Primero, instale uv:

curl -LsSf https://astral.sh/uv/install.sh | sh

Para desarrollo con entorno consistente:

git clone https://github.com/EvolvingLMMs-Lab/lmms-eval
cd lmms-eval
# Recomendado
uv pip install -e ".[all]"
# Si desea usar uv sync
# uv sync  # Esto crea/actualiza su entorno desde uv.lock

Para ejecutar comandos:

uv run python -m lmms_eval --help  # Ejecutar cualquier comando con uv run

Instalación Alternativa

Para uso directo desde Git:

uv venv eval
uv venv --python 3.12
source eval/bin/activate
# Puede que necesite agregar e incluir su propio yaml de tareas si usa esta instalación
uv pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.git

Uso

Más ejemplos en examples/models

Evaluación de Modelo Compatible con OpenAI

bash examples/models/openai_compatible.sh
bash examples/models/xai_grok.sh

Evaluación de vLLM

bash examples/models/vllm_qwen2vl.sh

Evaluación de LLaVA-OneVision

bash examples/models/llava_onevision.sh

Más Parámetros

python3 -m lmms_eval --help

Agregar Modelo y Conjunto de Datos Personalizados

Consulte nuestra documentación.

Reconocimientos

lmms_eval es un fork de lm-eval-harness. Recomendamos leer la documentación de lm-eval-harness para información relevante.

Citas

@misc{zhang2024lmmsevalrealitycheckevaluation,
      title={LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models}, 
      author={Kaichen Zhang and Bo Li and Peiyuan Zhang and Fanyi Pu and Joshua Adrian Cahyono and Kairui Hu and Shuai Liu and Yuanhan Zhang and Jingkang Yang and Chunyuan Li and Ziwei Liu},
      year={2024},
      eprint={2407.12772},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2407.12772}, 
}