Data Science
Агрегация нескольких закодированных категориальных значений
00
Вопрос или проблема Я пытаюсь найти общепринятые техники для работы с многоценностными категориальными переменными с высокой кардинальностью. В данный момент я использую набор данных с признаком CATEGORY, который имеет кардинальность около 20,000.
Data Science
Обнаружение аномалий с использованием кластеризации высококоррелированных категориальных данных.
00
Вопрос или проблема У меня есть данные с двумя колонками, и обе они сильно коррелируют, например, если в колонке1 значение ABC, то колонка2 должно быть XYZ, т.е. ABC–>XYZ. Если в колонке2 будет что-то другое, это аномалия.
Data Science
Есть ли способ быстро собрать категориальные признаки в DataFrames на Julia?
00
Вопрос или проблема Я использую Julia 0.6.3 с Dataframes.jl Мне было интересно, есть ли способ легко получить категориальные признаки в Julia? Для больших наборов данных может быть невозможно ввести все вручную. Мой обходной путь — полагаться на строки
Data Science
Какие хорошие методы прогнозирования будущих доходов на основе категориальных и значения данных?
00
Вопрос или проблема У меня есть ежемесячные снимки (3 года) всех данных контрактов. Они включают следующую информацию: Статус контракта [Категориальный]: Предложен, отслеживается, отправлен, выигран, проигран и т.д. Этапы контракта [Категориальный]: Поиск
Data Science
Как делать предсказания по данным, закодированным метками, если конечный пользователь будет вводить категориальные данные?
00
Вопрос или проблема Мой набор данных содержит около 29 признаков с 3 метками классов в качестве результата. Среди этих 29 признаков около 24 признаков являются категориальными, я не могу преобразовать каждую категорию в числа, так как в некоторых признаках их более 30.
Data Science
Увеличение выборки при прогнозировании непрерывной переменной
00
Вопрос или проблема Предположим, я предсказываю цены на продажу домов (непрерывные значения) и у меня есть несколько независимых переменных (числовых и категориальных). Является ли обычной практикой балансировка набора данных, когда категориальные независимые
Data Science
Как построить график, подобный тепловой карте, для категориальных признаков?
00
Вопрос или проблема Я был бы очень признателен, если бы вы рассказали, как построить график, похожий на heatmap, для категориальных признаков? На самом деле, согласно этому посту, связь между категориальными переменными следует вычислять с использованием V Крамера.
Data Science
Сжатие категориальных данных в более чем 3 категории
00
Вопрос или проблема У меня есть множество категориальных данных, относящихся к частям речи, которые я хочу свести к меньшему числу категорий. np.where() не подойдет, потому что я хочу в итоге получить 6 категорий: существительное, глагол, прилагательное
Data Science
Потеря энтропии при слиянии двух категорий
00
Вопрос или проблема Предположим, я считаю количество случайных событий в последовательности. Для классического примера скажем, что я считаю, сколько различных моделей автомобилей проезжают по шоссе. После некоторых подсчетов я вижу, что моделей тысячами.