AI — LLM Fundamentals — вопрос #112

Объясните, как работает механизм 'sparse attention' в LLM, и в чём его преимущества и недостатки по сравнению с 'full attention'. Приведите примеры, где он может быть критически важен.