Data Science
Добавление признаков с высоким p-значением и низким R-квадратом в линейную регрессию для улучшения результата.
00
Вопрос или проблема Я работаю над задачей линейной регрессии. Признаки для моего анализа были выбраны с использованием p-значений и знаний в области. После выбора этих признаков производительность $R^2$ и $RMSE$ улучшилась с 0.
Data Science
Мне нужно проводить какие-либо статистические тесты на результатах?
00
Вопрос или проблема Я провожу кампанию по email-рассылке. Перед тем как отправить письма пользователям, я разделил свою пользовательскую базу на опытную и контрольные группы (50-50). Я разделил группы так, чтобы не было разницы в поведении пользователей.
Data Science
Машинное обучение, статистика и математика
00
Вопрос или проблема Я только начал углубляться в машинное обучение, и каждый раз, когда я пытаюсь разобраться в концепциях или коде, я сталкиваюсь с математическими задачами и их запутанными обозначениями. Имея опыт в компьютерных науках, я немного их
Data Science
Измерение полноты или уровня ложных отрицаний в сильно несбалансированном наборе данных
00
Вопрос или проблема Мы хотим измерить полноту (или уровень ложных отрицаний) для нашей модели машинного обучения. Проблема в том, что Положительные случаи встречаются только в
Вопросы и ответы
Какой быстрый и статистически мощный способ эвристического удаления дубликатов из множества (неупорядоченных) множеств?
00
Вопрос или проблема У меня есть приложение, в котором я (эвристически) создаю большой набор тестовых кандидатов, которые сами по себе представляют собой большие наборы элементов в произвольном порядке. Чтобы не использовать один и тот же тестовый кандидат
Data Science
Разделение датафрейма на основе содержимого строк
00
Вопрос или проблема У меня есть датафрейм с 50000 строк и 5 столбцов. В столбце VarName есть два типа данных: 1 – DatiStatistica_CombiWeight, 2 – DatiStatistica_TargetWeight Я отфильтровал строки, содержащие DatiStatistica_TargetWeight Я хотел
Data Science
Альтернативные минимальные квадраты
00
Вопрос или проблема Может ли кто-нибудь объяснить разницу между Alternating Least Squares (ALS) и системами推荐? Будет полезно, если вы приведете пример. Системы推荐, например рекомендации фильмов Netflix, предположительно достаточно понятны.
Data Science
Есть ли безопасный и простой способ оценить стандартное отклонение для следующего подмножества?
00
Вопрос или проблема В случае, если я получаю только стандартное отклонение от датчика значения $v$ (которое, кстати, нормально распределено) каждые 4 минуты, но мне нужно предоставить стандартное отклонение $\sigma$ каждые 15 минут, есть ли безопасный способ это сделать.
Data Science
Индекс стабильности населения против Индекса точности населения
00
Вопрос или проблема Может ли кто-нибудь объяснить мне разницу между Индексом Стабильности Популяции (PSI) и Индексом Точности Популяции (PAI)? Стабильность популяции относится к тому, изменяется ли распределение объясняющих переменных со временем.
Data Science
Работа с несколькими экземплярами конкретной целевой функции в большом наборе данных.
00
Вопрос или проблема У меня есть данные о машине, которая включает в себя различные компоненты. Все детали взаимодействуют, данные отслеживаются для этих частей, учитывается потребление энергии и множество других измерений, связанных с их характеристиками.
Data Science
Методы выборки для текстовых наборов данных (NLP)
00
Вопрос или проблема Я работаю с двумя наборами текстовых данных, один из которых содержит 68 тысяч образцов текста, а другой – 100 тысяч образцов. Я закодировал текстовые наборы в векторы BERT. Образец текста > 'Я работаю с NLP' ==>
Data Science
Как построить график, подобный тепловой карте, для категориальных признаков?
00
Вопрос или проблема Я был бы очень признателен, если бы вы рассказали, как построить график, похожий на heatmap, для категориальных признаков? На самом деле, согласно этому посту, связь между категориальными переменными следует вычислять с использованием V Крамера.
Data Science
Прогнозирование изменения форм/координат
00
Вопрос или проблема Я пытаюсь найти способ предсказать/рассчитать, как форма (например, контур ледника) изменится в будущем, исходя из ее истории (предыдущей формы) и дополнительных факторов (например, Δтемпературы). В моем примере: у меня есть форма/координаты
Data Science
Подходящий статистический тест
00
Вопрос или проблема Я работаю над проектом, в котором у меня есть профили пользователей Twitter и их твиты. Пользователи разделены на две группы в зависимости от количества подписчиков (g1 и g2). Затем для каждого пользователя из g1 был сопоставлен один
Unix-подобные системы
Как я могу увидеть статистику ввода/вывода для процесса, который работает кратковременно?
00
Вопрос или проблема Для длительных процессов, таких как init, я могу делать такие вещи, как $ cat /proc/[pid]/io Что я могу сделать, если хочу увидеть статистику для кратковременно работающего процесса, например, утилиты командной строки, такой как ls?
Data Science
Отношения между группами признаков и независимыми переменными
00
Вопрос или проблема У меня есть несколько групп признаков, которые я хотел бы протестировать в отношении независимых переменных. Идея заключается в том, чтобы выяснить, с какими группами в большей степени ассоциируется конкретное значение независимой переменной.
Data Science
Как рассчитать стабильный/приростный рост?
00
Вопрос или проблема У меня есть данные по временным рядам для акций с интервалом в одну минуту. Как лучше всего рассчитать инкрементный рост, например, если у меня есть цена акции с 9 утра до 2 дня с интервалом в минуту, как я могу рассчитать инкрементный рост.
Data Science
Как выполнить (модифицированный) t-тест для нескольких переменных и моделей в Python (машинное обучение)
00
Вопрос или проблема Я создал и проанализировал около 16 моделей машинного обучения, используя WEKA. В данный момент у меня есть CSV-файл, который показывает метрики моделей (такие как percent_correct, F-measure, recall, precision и т.
Data Science
Статистическое обучение для систем с ограниченными данными
00
Вопрос или проблема В настоящее время я провожу обзор количественных методов, используемых для тропического пресноводного рыболовства. Одна из основных проблем для методов моделирования в тропическом пресноводном рыболовстве заключается в нехватке доступных данных.
Data Science
Прогнозирование продаж скрытых товаров магазина
00
Вопрос или проблема Я работаю над задачей прогнозирования продаж. Я могу предоставить алгоритму данные о том, какие товары были проданы, а какие нет.Как можно предоставить алгоритму информацию о товарах, которых нет в магазине?