, une approche courante consiste à aligner le modèle sur les préférences
humaines, soit par apprentissage par renforcement [3], soit... par minimisation d'une perte supervisée [4]. Malheureusement, cela nécessite des jeux de données annotées avec des préférences
humaines... - €2135 per month -
Voir cette offre d'emploi