masking - ответы на вопросы

Data Science

Понимание алгоритма обучения архитектуры Трансформера

Вопрос или проблема Я долго думал о маскировании в механизме самовнимания декодера в контексте обучения, и это действительно не имеет для меня смысла. Я просмотрел много источников, и они не помогли. Дано предложение-источник и целевое предложение для