fix some issues of qwen2.5_vl (#631)

lostkevin · web-flow · commit 2b201af08336 · 2025-07-07T15:30:48.000+08:00
diff --git a/examples/qwen2_5_vl/pretrain_qwen.py b/examples/qwen2_5_vl/pretrain_qwen.py
@@ -83,7 +83,7 @@ def model_provider(
 
     vision_config = get_vision_model_config(args, deepcopy(config))
     vision_config.pipeline_model_parallel_size = 1
-    vision_config.first_pipeline_num_layers = None
+    vision_config.num_layers_in_first_pipeline_stage = None
     vision_projector_config = get_vision_projection_config(deepcopy(config), vision_config.hidden_size, args.spatial_merge_size)
     
     print_rank_0("building Qwen2-5-VL model in TE...")
diff --git a/toolkits/model_checkpoints_convertor/utils/__init__.py b/toolkits/model_checkpoints_convertor/utils/__init__.py
@@ -113,7 +113,7 @@ def build_layer_id_mapping(args):
         remained_stages = args.pipeline_model_parallel_size - 1
         assert remained_layers % remained_stages == 0
         pp_layers_per_stage = [args.target_decoder_first_pipeline_num_layers] +([remained_layers // remained_stages] * remained_stages)
-
+        offset = 0
         for pp_id, num_layers in enumerate(pp_layers_per_stage):
             for global_layer_id in range(offset, offset + num_layers):
                 # NOTE: map a global transformer layer to a local pp rank