Τα LLMs εκπαιδεύουν τα επόμενα LLMs
You might think it sounds suspiciously circular to use an LLM to judge the output of another LLM. Why would one LLM be any better at judging the quality of a response than the other? But it turns out that recognizing a good response is often easier than generating one. So RLHF works pretty well in practice.
Κι ενώ το μισό X ανακοινώνει καινούργια προϊόντα φτιαγμένα με LLMs και το άλλο μισό απελπίζεται με τους τόνους slop που δημιουργούνται (παράγονται;) καθημερινά, μια χρήσιμη εισαγωγή από τον Timothy B. Lee στο πώς δουλεύει όλο αυτό. Ενδιαφέρον ειδικά για το κομμάτι που εξηγεί τα βήματα μετά τους transformers και από πού προκύπτει η ιδέα ότι τα μοντέλα θα βελτιώνονται εκθετικά από κάποιο σημείο και μετά, εκπαιδεύοντας το ένα το άλλο.