How to add reward model to compute reward signal? #452

Open

opened

I want to load an additional reward model (such as CLIP or a smaller-scale model) to calculate rewards for the response. How should I proceed?

Metadata

Assignees

No one assigned

Labels

No labels

No labels

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests