Synchronize keys and handle missing values in dist_utils by Jimmy-Mendez · Pull Request #136 · Intellindust-AI-Lab/DEIMv2

Jimmy-Mendez · 2026-01-15T17:34:11Z

When training with multiple GPUs, batches with no ground truth objects cause some ranks to produce fewer loss keys (e.g., denoising losses are skipped). This results in reduce_dict attempting all_reduce on tensors of different sizes across ranks, causing a deadlock.

Fix: Synchronize loss dictionary keys across all ranks before all_reduce, filling missing keys with zeros. (fixes #6 and fixes #34 and fixes #113 ?)

When training with multiple GPUs, batches with no ground truth objects cause some ranks to produce fewer loss keys (e.g., denoising losses are skipped). This results in reduce_dict attempting all_reduce on tensors of different sizes across ranks, causing a deadlock. Fix: Synchronize loss dictionary keys across all ranks before all_reduce, filling missing keys with zeros.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Synchronize keys and handle missing values in dist_utils#136

Synchronize keys and handle missing values in dist_utils#136
Jimmy-Mendez wants to merge 1 commit intoIntellindust-AI-Lab:mainfrom
Jimmy-Mendez:patch-1

Jimmy-Mendez commented Jan 15, 2026 •

edited

Loading

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

Jimmy-Mendez commented Jan 15, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Jimmy-Mendez commented Jan 15, 2026 •

edited

Loading