mock_sobes
← AI — LLM Fundamentals
middle theory #109
Как работает механизм внимания (attention) в трансформерах? Как его архитектура влияет на способность LLM обрабатывать длинные последовательности?
Чтобы решить вопрос и сохранить попытку — войди.