weight-initialization
Data Science
Вопрос или проблема Я пытаюсь понять алгоритм Байес по обратному распространению из статьи Неопределенность весов в нейронных сетях, идея заключается в том, чтобы создать нейронную сеть, в которой каждый вес имеет собственное распределение вероятностей.
Data Science
Вопрос или проблема Я исследую стратегию, при которой я инициализирую веса nn.Linear с помощью ридж-регрессии, а затем обучаю модель с помощью контрастной потери. Идея состоит в том, чтобы использовать ридж-регрессию для получения лучшей инициализации
Data Science
Вопрос или проблема В двухслойных персептронах, которые скользят по словам текста, таких как word2vec и fastText, высоты скрытых слоев могут быть произведением двух случайных переменных, таких как позиционные эмбеддинги и эмбеддинги слов (Mikolov et al.
Data Science
Вопрос или проблема Я использую предобученную модель DistilBERT от Huggingface с пользовательской классификационной головой, которая почти такая же, как в референсной реализации: class PretrainedTransformer(nn.Module): def __init__( self, target_classes): super().
Data Science
Вопрос или проблема Ожидаемое стандартное отклонение Инициализации Xavier для тензора с размерностью D будет $1 / \sqrt (D)$, но на практике это не так. Пожалуйста, помогите понять, почему. import torch D = 27 x = torch.zeros(1, D) torch.
Data Science
Вопрос или проблема Ожидаемое стандартное отклонение инициализации Xavier D-мерного тензора должно быть $1 / \sqrt (D)$, но это не так, как показано ниже. Пожалуйста, помогите понять, почему. import torch D = 27 x = torch.zeros(1, D) torch.