Как работает механизм внимания (attention) в трансформерах? Как его архитектура влияет на способность LLM обрабатывать длинные последовательности?