Data Science
Вопрос о коллапсировании переменной и сверхвыборке меньшинств.
00
Вопрос или проблема У меня есть несбалансированные данные, состоящие из девяти классов, и я планирую объединить их в два класса. Я провел стратифицированную (пропорциональную) выборку между тестовыми, валидационными и обучающими наборами данных в соответствии с девятью классами.
Data Science
Восстановление целочисленной функции с помощью *-обучения
00
Вопрос или проблема У меня следующая проблема. Из технической модели у нас есть функция $f(n,p)$, приближающая время выполнения. Функция $f$ отображает $$ f: \mathbb{N} \times \mathbb{P} \to \mathbb{R}_{+} $$ где $\mathbb{P} = \{1,\ldots,50\} \subset\mathbb{N}$.
Data Science
Генерация искусственных данных для расширения обучающего набора
00
Вопрос или проблема У меня есть набор данных, содержащий 42 экземпляра (X) и одну финальную Y, на которой я хочу выполнить регрессию LASSO. Все они непрерывные и числовые. Поскольку размер выборки небольшой, я хочу его увеличить.
Data Science
Выборка из RBM для временных рядов
00
Вопрос или проблема Я использую Ограниченную Машину Больцмана (RBM), чтобы изучить распределение переменной X, для которой у меня есть временной ряд из, скажем, 1000 точек (следовательно, 1000 выборок на языке машинного обучения).
Data Science
Получение сбалансированной выборки по многим переменным.
00
Вопрос или проблема Допустим, каждый элемент в моей популяции имеет несколько характеристик. Назовем их A, B, C, D, E, F. Предположим, для простоты, что каждая характеристика имеет 10 значений (но может быть любое число от 2 до 30).
Data Science
Переобученная модель дает схожий AUC на тестовом наборе данных, так какую модель мне выбрать?
00
Вопрос или проблема Я пытался сравнить эффект выполнения GridSearchCV на наборе данных, который был перераспределен до и после выбора обучающих фолдов. Метод перераспределения, который я использовал, был случайным перераспределением.
Data Science
Отбор, пытаясь сохранить как можно больше многомерной дисперсии.
00
Вопрос или проблема Я задумывался, рассматривает ли кто-нибудь технику выборки, которая бы стремилась сохранить как можно больше дисперсии (например, как можно больше уникальных значений или очень широко распределенные непрерывные переменные).
Data Science
Создание набора различных сценариев на основе некоторых начальных наблюдений.
00
Вопрос или проблема У меня в руках 3 разные временные ряда, которые моделируют 3 разные сценария (базовый, неблагоприятный, благоприятный). Каждый из этих временных рядов зависит от набора из 11 различных атрибутов, которые принимают значения для различных временных интервалов.
Data Science
Как оценить точность на большом наборе данных?
00
Вопрос или проблема Учитывая, что у меня есть модель глубокого обучения (передача от бывшего коллеги). По какой-то причине наборы для обучения и валидации отсутствовали. В моей ситуации я хочу классифицировать свои данные на 100 категорий.
Data Science
Существует ли взаимосвязь между скоростью обучения и размером обучающего набора?
00
Вопрос или проблема У меня есть большой набор данных для обучения модели нейронной сети. Однако у меня недостаточно ресурсов для надлежащей настройки гиперпараметров на всем наборе данных. Поэтому моя идея заключается в том, чтобы отрегулировать скорость
Data Science
Как выбрать выборку из набора данных с учетом заданной категориальной или числовой переменной на основе заданного произвольно выбранного распределения? (Python)
00
Вопрос или проблема Предположим, у меня есть набор данных за некоторый прошлый период. Теперь появляются новые данные, и для данной переменной в данных мы находим, что распределения изменились (например, с “возрастом”
Data Science
Переподбор нормально распределенного набора данных для регрессионных задач?
00
Вопрос или проблема У меня есть набор данных из операционного процесса с 5 измерениями и 1 результатом. Все значения нормально распределены. Когда я обучаю регрессионную модель на этом наборе данных, она хорошо работает на большинстве данных – в условиях по умолчанию.
Data Science
Обучение вариационного автокодировщика (VAE) для генерации случайных чисел
00
Вопрос или проблема У меня есть сложное 20-мерное многомодальное распределение, и я рассматриваю обучение VAE для приближения его с помощью 2000 образцов. Однако, в частности, с целью впоследствии генерировать псевдослучайные числа, соответствующие структуре распределения.
Data Science
Возможно ли применение логистической регрессии с использованием удобной выборки?
00
Вопрос или проблема Я собрал данные опроса бездомных людей, изучая их употребление наркотиков, уровень образования, возраст, пол и т.д. Я надеюсь провести логистическую регрессию, чтобы узнать, насколько бездомность (+ другие зависимые переменные) влияет
Data Science
Использование SMOTE для генерации синтетических данных с целью улучшения производительности на несбалансированных данных
00
Вопрос или проблема В настоящее время у меня есть набор данных с 21392 образцами, из которых 16948 относятся к мажоритарному классу (класс A), а оставшиеся 4444 – к миноритарному классу (класс B). В настоящее время я использую SMOTE (Метод синтетического