Вопросы и ответы
Кэширование KV для текстов переменной длины
00
Вопрос или проблема Я пытаюсь выполнить извлечение структурированного текста, используя некоторые приемы кэширования ключ-значение. Для этого примера я буду использовать следующую модель и данные: model_name = "Qwen/Qwen2.5-0.
Data Science
Возможно ли обучить один вход->нейрон->relu->нейрон->relu для входа > 0.5?
00
Вопрос или проблема Нейронная сеть выглядит следующим образом: y=max(max(x*w+b,0)*v+d,0) w,b – это вес и смещение первого нейрона. v,d – это вес и смещение второго нейрона. Если данные, например: x = tensor([[1.0], [0.9], [0.8], [0.
Вопросы и ответы
Программно изменить компоненты модели pytorch?
00
Вопрос или проблема Я тренирую модель в pytorch и хотел бы иметь возможность программно изменять некоторые компоненты архитектуры модели, чтобы проверить, что работает лучше, без каких-либо условных операторов в forward(). Рассмотрим игрушечный пример
Data Science
Что может не работать в PyTorch при использовании квантованных моделей?
00
Вопрос или проблема Я полагаю, что не все инструменты и модули PyTorch работают с квантизированными (например, до int8) моделями. Но что может не работать и почему? Поддержка устройств и операторов Поддержка квантизации ограничена подмножеством доступных
Data Science
Можем ли мы добавить дополнительные слои поверх квантизированной модели для дообучения?
00
Вопрос или проблема Можно ли использовать квантизированную модель (например, int8) и добавлять слои (например, PyTorch Linear) для тонкой настройки в PyTorch? Если да, то как преобразовать выходные векторы квантизированной модели, чтобы подать их на добавленные слои?
Вопросы и ответы
Как вычислить среднее и дисперсию вложенных тензоров?
00
Вопрос или проблема Для torch.Tensor легко вычислить среднее и дисперсию, но я не могу найти способы вычислить среднее и дисперсию для вложенных тензоров. Вложенные тензоры поддерживают операцию layer_norm, которая включает операции среднего и дисперсии. Спасибо за вашу помощь!
Data Science
Линейная регрессия в Pytorch – исчезающие градиенты с Softmax
00
Вопрос или проблема Я реализую нелинейную регрессию с использованием нейронных сетей с одним слоем в Pytorch. Однако при использовании активационной функции, такой как ReLu или Softmax, потеря застревает, значение не уменьшается по мере увеличения выборки
Вопросы и ответы
Почему размещение сессии вывода на вычислительном потоке пользователя делает вывод в 1000 раз медленнее?
00
Вопрос или проблема Сначала я создаю сессию и связываю выходные и входные тензоры следующим образом: input_names: List[str] = [] x_dict = OrderedDict() y_dict = OrderedDict() output_names: List[str] = [] # по умолчанию уже используется максимальная оптимизация session = ort.
Data Science
Почему обучение моделей в PyTorch стало крайне медленным
00
Вопрос или проблема Я сталкиваюсь с странным поведением при использовании pytorch/cuda для обучения моделей: я заметил, что тренировка моделей, для которых ранее требовалось мало времени для завершения каждой эпохи, теперь занимает гораздо больше времени.
Data Science
Не удается подогнать ИНС к “простому” набору данных?
00
Вопрос или проблема Мне действительно трудно смоделировать набор данных, который я получил, проводя эксперименты. Конкретно это временные ряды (онлайн) данных измерений, а целевые параметры – это кинетические параметры, которые я подгонял под каждый
Data Science
Функция потерь для многометочного классифицирования с несколькими цифрами в MNIST
00
Вопрос или проблема Как следует из названия, я ищу функцию потерь для применения к модифицированному набору данных mnist, который содержит несколько цифр. Мне нужно предсказать все цифры на изображении. Каждое изображение содержит от 1 до 3 цифр, и каждая
Data Science
Как вернуть предыдущие соседние индексы элементов, которые отсутствуют в тензоре?
00
Вопрос или проблема У меня есть два тензора в pytorch: tensorA=[0, 1, 2, 6, 7, 9, 10] и tensorB=[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10] Как я могу использовать API тензоров (операции) pytorch, чтобы найти элементы в tensorB, которых нет в TensorA, а затем
Вопросы и ответы
Оптимизация модели FastAI2 на NVIDIA Jetson Orin с помощью TensorRT и Torch2TRT: неправильный размер батча.
00
Вопрос или проблема У меня есть Jetson Orin с последней версией Jetpack 6.0 и CUDA 12, работающей на Ubuntu 22.04. Я установил PyTorch, и он имеет поддержку CUDA: Python 3.10.12 (main, 11 сентября 2024, 15:47:36) [GCC 11.4.0] на linux Введите "help"
Вопросы и ответы
Удаление строк из DataFrame pandas вызывает ошибку ключа в Dataloader.
00
Вопрос или проблема Я пытаюсь загрузить некоторые данные в загрузчик данных. При попытке предварительной обработки DataFrame с помощью, например, df.dropna(), в процессе работы с DataFrame иногда возникают “keyerrors”
Data Science
Что заставляет эту модель запоминать?
00
Вопрос или проблема Сравните две модели class SineNetwork1(nn.Module): def __init__(self): super().__init__() self.linear = nn.Linear(1, 100) self.relu = nn.ReLU() self.linear2 = nn.Linear(100, 1) def forward(self, x): x = self.
Data Science
Нейронная сеть не может выучить простое аналитическое уравнение.
00
Вопрос или проблема Я сейчас делаю свои первые попытки с Pytorch. Я пытаюсь решить простое уравнение с помощью нейронной сети. Аналитически решенное уравнение должно выглядеть так: $$ y = \frac{x_5}{x_2} – \frac{x_1-x_2}{2 x_3 x_4}\frac{x_2}{x_1}
Data Science
Трансформер спамит самый частый символ.
00
Вопрос или проблема Я заметил, что трансформер, как правило, оптимизируется для генерации наиболее часто встречающегося символа. Например, у меня есть следующие входные токены: ["a", "1", "a", "a", "2", "a", "a", "a", "3"]. И выход должен быть: ["<
Вопросы и ответы

ImportError: Использование Trainer с PyTorch требует accelerate>=0.26.0, но у меня уже установлена версия 1.0.1

00
Вопрос или проблема Я пытаюсь запустить обучение таким образом, но сталкиваюсь с ошибкой импорта. Как это исправить: args = TrainingArguments(output_dir="finetuned", num_train_epochs=10, per_device_train_batch_size=16, save_steps=10000, gradient_accumulation_steps
Вопросы и ответы
Как обучить нейронную сеть, зная только сумму выходов?
00
Вопрос или проблема В моем проекте по машинному обучению мне нужно адаптировать определенную функцию f, где в моем наборе данных я знаю только СУММУ оценок f, например, в этом случае: f(a1,b1,c1) + f(a2,b2,c2) + … = S Я знаю только сумму S, поэтому я
Data Science
перенос весов из tensorflow в pytorch
00
Вопрос или проблема Существует модифицированная модель efficientnet TF, которую я пытаюсь смоделировать в pytorch. Я внес изменения в архитектуру модели в pytorch, выгрузил веса модели TF и загрузил их обратно в новую модель pytorch.