Data Science
Как выполнять кластеризацию с использованием эмбеддингов OpenAI наряду с другими переменными?
00
Вопрос или проблема Я работаю над проектом кластеризации, в котором мой набор данных включает как традиционные переменные (числовые и категориальные признаки), так и встраивания нескольких переменных, сгенерированных моделями OpenAI. Моя цель –
Data Science
Как изменить тип линии в легенде в ggplot в R
00
Вопрос или проблема У меня есть проблема с пакетом “ggplot2”, где я не могу получить типы линий в легенде. Легенда показывает только цвет каждой линии, но не конкретный тип. Мой код выглядит так: ggplot(data = vStdDevHours, aes(x=Hours)) +
Data Science
Когда вы бы использовали word2vec вместо BERT?
00
Вопрос или проблема Я совершенно нов в области машинного обучения и недавно познакомился с word2vec и BERT. Насколько я знаю, word2vec предоставляет векторное представление слов, но ограничен его словарным определением. Это означает, что алгоритм может
Data Science
Параллелизм моделей не работает в Inception v3 с Keras и TensorFlow
00
Вопрос или проблема Я застрял с такой проблемой уже некоторое время. У меня есть настройка AWS с 500 ГБ ОЗУ и около 7 ГПУ. Проблема в том, что каждый раз, когда я пытаюсь запустить свой Keras с TensorFlow как бекенды, у меня заканчивается память.
Data Science
Правило хорошего числа признаков при работе с группированными данными
00
Вопрос или проблема У меня есть задача классификации на клинических данных, где у каждого пациента есть несколько образцов. Таким образом, образцы, относящиеся к одному пациенту, в какой-то степени зависимы друг от друга. Я знаю, что невозможно заранее
Data Science
Использование нейронной сети для обучения регрессии в обработке изображений
00
Вопрос или проблема У меня есть система камер с некоторой специальной оптикой, которая искажает угол обзора камеры в зависимости от двух переменных, $\theta_1$ и $\theta_2$. При заданной конкретной конфигурации этих двух переменных каждый пиксель на моей
Data Science
Совместимость окружения Anytrading Gym с TF-Agents
00
Вопрос или проблема Все стандартные окружения Gym/Gymnasium совместимы с агентами TwnsorFlow RL, но когда я пытался использовать TF-Agents с anytrading, я получал ошибки, потому что некоторые необходимые методы и атрибуты, похоже, отсутствуют.
Data Science
Выбор моделей для ансамбля из большой группы моделей с высокой неопределенностью.
00
Вопрос или проблема Я нахожусь в ситуации, когда создано много моделей, и у меня есть их показатели кросс-валидации, а также результаты на тестовых данных. Мне нужно выбрать модели для включения в простой ансамбль бэггинга, которые с наибольшей вероятностью
Data Science
Трансформер спамит самый частый символ.
00
Вопрос или проблема Я заметил, что трансформер, как правило, оптимизируется для генерации наиболее часто встречающегося символа. Например, у меня есть следующие входные токены: ["a", "1", "a", "a", "2", "a", "a", "a", "3"]. И выход должен быть: ["<
Data Science
Линейная регрессия не возвращает ожидаемое количество $\beta_i$.
00
Вопрос или проблема У меня есть набор данных по избирательным участкам и результатам партий на различных выборах. После прочтения этой статьи мне очень захотелось использовать линейную регрессию, чтобы ответить на вопрос: как изменилось мнение избирателей с последних выборов?
Data Science
Что именно означает “переобучение” в линейной регрессии?
00
Вопрос или проблема Я пытался понять концепцию переобучения. Я знаю, что когда обучающий R^2 больше 95%, это означает, что модель переобучена, и после некоторого исследования я пришел к следующему пониманию: Модель, которая захватывает шум и случайные
Data Science
Работа с разнообразными группами в регрессии
00
Вопрос или проблема Что произойдет, если определенный набор данных содержит разные «группы», которые следуют различным линейным моделям? Например, представим, что, изучая диаграмму рассеяния определенной характеристики $x_i$ против $y$, мы можем увидеть
Data Science
Обучение модели Inception V3 с использованием Keras с бэкендом Tensorflow
00
Вопрос или проблема В настоящее время я обучаю несколько пользовательских моделей, которые требуют примерно 12 ГБ видеопамяти в лучшем случае. В моей системе около 96 ГБ видеопамяти, и Python/Jupyter все равно умудряется забивать всю видеопамять до такой
Data Science
Оцените метрику по всем пакетам в tensorflow.
00
Вопрос или проблема Я написал метрику для tensorflow, которая представляет собой площадь под кривой точности-отзыва слева от порога отзыва=0.3. Реализация выглядит следующим образом (обратите внимание, что меня интересует только нулевое предсказание последнего
Data Science
ValueError: Тензор Tensor(“activation_5/Softmax:0”, размер=(?, 2), тип=float32) не является элементом этого графа.
00
Вопрос или проблема Похоже, что есть проблема с предсказанием с использованием моей модели keras. Я обучал её с помощью следующего кода keras: model = Sequential() model.add(Conv2D(32, (3, 3), input_shape=(150, 150,3),padding='same')) model.
Data Science
Какова связь между точностью и потерями в глубоком обучении?
00
Вопрос или проблема Я создал три разные модели с использованием глубокого обучения для многоклассовой классификации, и каждая модель дала мне разные значения точности и потерь. Результаты тестирования моделей следующие: Первая модель: Точность: 98.
Data Science
Плоты obj_loss для обучения и валидации YOLOv7-tiny расходятся очень рано.
00
Вопрос или проблема Я обучаю модель YOLOv7-tiny и у меня есть следующие наблюдения из сессии обучения: графики потерь объектности в обучающей и проверочной выборках разошлись довольно рано в процессе обучения потери по классам и рамкам, хотя и не совсем
Data Science
Должен ли я удалить дубликаты по признакам, но без цели?
00
Вопрос или проблема Я веду дебаты с кем-то по поводу проблемы, где есть дубликаты по признакам (т.е. $ X_1 = X_2 $, но $ Y_1 != Y_2 $). С моей точки зрения, мы должны сохранить эти данные, так как они могут быть показательными и, следовательно, интересными
Data Science
Добавление признаков с высоким p-значением и низким R-квадратом в линейную регрессию для улучшения результата.
00
Вопрос или проблема Я работаю над задачей линейной регрессии. Признаки для моего анализа были выбраны с использованием p-значений и знаний в области. После выбора этих признаков производительность $R^2$ и $RMSE$ улучшилась с 0.
Data Science
Получение матрицы ошибок с помощью Keras flow_from_directory
00
Вопрос или проблема Для домашнего задания мне нужно проанализировать набор изображений. Для этого я планирую использовать свёрточную нейронную сеть. Изображения разделены на определенные папки: Тестовый набор с 624 фотографиями dataset/test/normal (234