Data Science
Увеличение выборки при прогнозировании непрерывной переменной
00
Вопрос или проблема Предположим, я предсказываю цены на продажу домов (непрерывные значения) и у меня есть несколько независимых переменных (числовых и категориальных). Является ли обычной практикой балансировка набора данных, когда категориальные независимые
Data Science
Почему не всегда использовать метод оптимизации АДАМ?
00
Вопрос или проблема Кажется, что оптимизатор Adaptive Moment Estimation (Adam) почти всегда работает лучше (быстрее и надежнее достигает глобального минимума) при минимизации функции стоимости при обучении нейронных сетей. Почему бы не использовать Adam всегда?
Data Science
Решение проблемы многоклассового дисбаланса классификации с использованием SMOTE и OSS
00
Вопрос или проблема Я пытаюсь решить задачу классификации с множественными классами, где наблюдается дисбаланс. Для этого я использую SMOTE для оверсемплинга и OSS для недосемплинга. Но у меня есть сомнение, поскольку я работаю с многоклассовой задачей
Data Science
Как использовать SMOTENC внутри конвейера?
00
Вопрос или проблема Я был бы очень признателен, если бы вы могли сообщить мне, как использовать SMOTENC. Я написал: num_indices1 = list(X.iloc[:,np.r_[0:94,95,97,100:123]].columns.values) cat_indices1 = list(X.iloc[:,np.r_[94,96,98,99,123:160]].
Data Science
Разделение данных на обучающую и тестовую выборки для классификации несбалансированного набора данных
00
Вопрос или проблема У меня есть модель, которая выполняет бинарную классификацию. Мой набор данных сильно несбалансирован, поэтому я подумал, что мне следует отбалансировать его с помощью недовыборки перед обучением модели. Итак, сбалансировать набор
Data Science
Методы выборки для текстовых наборов данных (NLP)
00
Вопрос или проблема Я работаю с двумя наборами текстовых данных, один из которых содержит 68 тысяч образцов текста, а другой – 100 тысяч образцов. Я закодировал текстовые наборы в векторы BERT. Образец текста > 'Я работаю с NLP' ==>
Data Science
Причинно-следственное вывод vs анализ чувствительности для создания точных прогнозов в машинном обучении?
00
Вопрос или проблема Недавно я открыл для себя концепцию “каузальной инверсии” и пытаюсь понять, правильно ли я ухватил ее суть. Если я правильно понимаю, это связано с поиском факторов, влияющих на результат, при этом мы можем количественно
Data Science
Алгоритм сопоставления сходства
00
Вопрос или проблема Я ищу помощь в определении класса алгоритма. Если у меня есть обучающая и тестовая выборка в табличном формате, я хочу узнать сходство строк на основе некоторых числовых признаков. Обучающие данные будут размечены так, что строки будут
Data Science
Глубокая полносвязанная нейронная сеть с затухающими градиентами
00
Вопрос или проблема Я создаю нейронную сеть для выбора лучших ставок на футбольные матчи. И я попытался сделать сеть довольно глубокой (12 скрытых слоев с нормализацией батча между ними и функцией активации ReLu), но это привело к проблеме исчезающих градиентов.
Data Science
Как сгенерировать недостающие значения для категориальных атрибутов в наборе данных?
00
Вопрос или проблема Я работаю над своей дипломной работой по трем известным наборам данных: adult, titanic и compass (рецидивизм), и пытаюсь сгенерировать недостающие значения для различных уровней отсутствия данных по атрибутам (например, пол, раса)
Data Science
Генерация правильной цели для модели LSTM
00
Вопрос или проблема Пытаюсь объяснить свой вопрос на упрощенном наборе данных. Имея следующий набор данных: день f1 f2 0 0 10 1000 1 1 45 2000 2 2 120 3400 3 3 90 5000 Я пробую два подхода для генерации оценки на основе наблюдений данных: Подход 1: Я
Data Science
Стратифицированное разбиение временных рядов с одинаковым отношением дисбаланса
00
Вопрос или проблема В последнее время я занимаюсь задачей бинарной классификации с несбалансированными данными, где данные упорядочены во времени. Я хотел бы проверить свою модель, используя тренировочные и валидационные разделы с одинаковым соотношением
Data Science
Почему так мало исследований по нейронному коду искусственных нейронных сетей и существуют ли альтернативы подходу нейронного кода?
00
Вопрос или проблема Я считаю, что нейронный код/нейронное кодирование (как нейроны или смещения кодируют символические концепции цепей концептов, т.е. каждая функция является цепью символических функций и их параметров) является ключом к пониманию нейронных
Data Science
Как сравнить 4 столбца в отдельных датафреймах и оценить, совпадают ли их значения.
00
Вопрос или проблема Я хотел бы сравнить 4 столбца из 2 различных наборов данных и оценить, имеют ли они одинаковые значения статуса. Возможно ли проверить/подсчитать, сколько IDNos имеют разные статусы и сколько имеют одинаковый статус, а также какие
Data Science
Подход к классификации блоков временных рядов
00
Вопрос или проблема Мне интересно, существует ли подход к классификации блоков временных рядов, а не конкретно отдельных временных рядов. Если да, можете ли вы указать мне работы/статьи/учебники, в которых классифицируются такие типы данных?
Data Science
Как я могу изменить не только значение пользовательского поля, но и то, что само поле отображает?
00
Вопрос или проблема Мне нужно иметь возможность писать пользовательские поля в Power BI, но значения этих полей изменяются в зависимости от компании. Например, Twitter и Instagram — поле 1 для Twitter должно показывать название компании, а поле 1 для
Data Science
Огромная вариативность в моделях прогнозирования временных рядов. Как бы вы с этим справились?
00
Вопрос или проблема Я работаю над сложной моделью прогнозирования временных рядов с использованием TensorFlow. Модель является бинарным классификатором с примерно 100 признаками, и в основном состоит из 4 слоев LSTM (входной + 2 скрытых + выходной), с
Data Science
Проблемы с пониманием того, как создать входные данные для прогнозирования временных рядов с использованием рекуррентной нейронной сети в Keras.
00
Вопрос или проблема Я только что начал использовать рекурсивные нейронные сети (RNN) с Keras для прогнозирования временных рядов и нашел этот учебник Прогнозирование с помощью RNN. У меня возникают трудности с пониманием того, как построить обучающие
Data Science
Как работать с панельными данными в R?
00
Вопрос или проблема Как работать с этими панельными данными в R? Ответ или решение Работа с панельными данными в R требует понимания структуры данных и использования правильных инструментов и пакетов для их анализа. Панельные данные (или данные надлома)
Data Science
Какое минимальное количество раз слово должно появиться в корпусе для обучения word2vec для получения качественных результатов?
00
Вопрос или проблема При обучении модели word2vec с использованием, например, gensim, вы можете указать минимальное количество раз, которое должно быть увидено слово (параметр min_count). Значение по умолчанию для этого, похоже, равно 5.