Data Science
Машинное обучение и временные данные
00
Вопрос или проблема Я хочу предсказать коэффициенты конверсии для интернет-магазина. У меня есть данные из Google Analytics с такими характеристиками, как средняя продолжительность сессии, показатель отказов, количество посетителей по источникам и т.
Data Science
Каково толкование квадратных функций?
00
Вопрос или проблема Я работаю с книгой Прикладное предсказательное моделирование и столкнулся с чем-то, что оказалось немного запутанным. В ней обсуждалось добавление нелинейности в модель для улучшения её подгонки – этот момент мне понятен. Например: $x^2 + 2x –
Data Science
Помощь в интерпретации стандартной ошибки
00
Вопрос или проблема Я провел стандартную ошибку на своей модели машинного обучения для предсказания структуры белка. График, который я здесь показываю, является отрывком фактических данных, и я удалил некоторую несущественную информацию.
Data Science
В Orange Data Mining, как я могу использовать результаты кластеризации обучающего набора для тестирования и оценки тестового набора?
00
Вопрос или проблема Я проводил анализ известного набора данных ‘Adult’, доступного на UCI, с использованием Orange Data Mining. В своей диссертации Pelleg (2004; стр. 79) использует неконтролируемую кластеризацию заданного обучающего набора
Data Science
Пользовательская функция потерь
00
Вопрос или проблема Можно ли применить пользовательскую функцию потерь в модели регрессии (или любом другом алгоритме для прогнозирования непрерывной переменной)? Я работаю над моделью прогнозирования фондового рынка, и мне нужно максимизировать следующую
Data Science
Градиентный спуск сильно расходится.
00
Вопрос или проблема Я вручную создал случайный набор данных вокруг некоторого среднего значения и попытался использовать градиентный спуск для линейной регрессии, чтобы предсказать это простое среднее значение. Я сделал точно так же, как в руководстве
Data Science
Смысленная предсказательная аналитика для небольшого (n=114) набора данных с всего лишь 1 объясняющей переменной и 1 ответной переменной?
00
Вопрос или проблема Мне дана сводная таблица Excel, которая агрегирует данные из довольно большого источника данных (таблица базы данных с 1,9 миллиона записей и другая с около 490 тысяч). Данные внутри файла Excel состоят из 3 колонок: даты понедельников
Data Science
Вывод производной первого порядка для рядов Тейлора в авторегрессионной модели.
00
Вопрос или проблема Я написал пост в блоге, в котором я вычислил ряд Тейлора авторегрессионной функции. Это не строго ряд Тейлора, а какая-то его вариация (как я полагаю). Меня больше всего беспокоит, выглядят ли производные нормально.
Data Science
Моделирование с помощью нейронных сетей
00
Вопрос или проблема Предположим, что существует коллекция физических параметров и коллекция выходных переменных, которые могут зависеть от физических параметров. Пример в обучающем наборе данных состоит из вектора с фактическими измерениями физических
Data Science
Какую предсказательную модель выбрать?
00
Вопрос или проблема Я полностью потерялся, пытаясь выбрать тип предсказательной модели для своей задачи. Это авторегрессионная модель, нелинейная временная серия, марковская цепь или что-то другое? Может кто-то дать мне совет?
Data Science
Как работать с очень маленьким набором данных в прогнозировании временных рядов?
00
Вопрос или проблема У меня есть набор данных о расходах, по которому мне нужно прогнозировать на 5 лет вперед с очень ограниченными данными (только 10 данных за 5 лет). Мне нужно предсказать каждый период в году, где январь-июнь (первый срок) и июль-декабрь (второй срок).
Data Science
Улучшения Омнибуса и R-квадрата для модели OLS
00
Вопрос или проблема Проверяю в этом сообществе, может кто-то сможет помочь с этой проблемой, опубликованной на Cross Validated. Подробный вопрос представлен ниже: Результаты OLS регрессии ===============================================================================
Data Science
Существует ли подходящий тест гипотезы: Два образца, один из которых состоит только из одной точки данных, ненормальный?
00
Вопрос или проблема У меня есть два “образца”. Первый состоит примерно из 400 физических измерений величины (взятых за один час, и реальная ситуация не является стационарной). Они показывают сильно скошенное распределение, для которого теоретическая
Data Science
Почему мои предсказания неверны при выполнении сегментации изображений с помощью TensorFlow?
00
Вопрос или проблема Я пытаюсь выполнить семантическую сегментацию изображений с помощью TensorFlow. Чтобы просто заставить что-то работать, я беру одно учебное изображение, тренирую сеть на этом изображении некоторое время, а затем “
Data Science
Несбалансированный класс в моем наборе данных
00
Вопрос или проблема Я работаю с несбалансированным набором данных для предсказания инсультов, где положительный класс (возникновение инсульта) значительно недопредставлен. Сначала я использовал логистическую регрессию, но из-за несбалансированности классов
Data Science
Обновите сохранённую модель после тренировки.
00
Вопрос или проблема Сохранение обученной модели таким образом даст мне модель, обученную на каждом куске данных, или только на последнем куске? df = pd.read_csv(, chunksize=10000) for chunk in df: text = chunk['body'] label = chunk['user_id'] print(text.
Data Science
Инженерия признаков: признак свежести
00
Вопрос или проблема У меня есть проблема с оценкой клиентов, над которой я работаю, в частности, с прогнозированием конверсии и подсчетом вероятностного балла конверсии (в данный момент используется классификатор xgboost). Есть один признак, который я
Data Science
Определение участников, которые, вероятно, перейдут на продукт с более низкой стоимостью.
00
Вопрос или проблема Обзор: Я ищу технические рекомендации от сообщества ML/науки о данных о том, как я мог бы решить свою бизнес-проблему. Контекст: В двух словах, у меня есть группа клиентов, которые неоднократно покупают продукты из определенной категории
Data Science
Анализ прогнозов выживания вне выборки (CoxTimeVaryingFitter)
00
Вопрос или проблема Я пытаюсь предсказать вероятность выживания клиентов в течение следующих 24 месяцев. Я использую CoxTimeVaryingFitter из библиотеки lifelines. У меня есть столбец, указывающий, как долго клиенту уже предоставляются услуги (длительность отношений).
Data Science
Как решить, кого продвигать? Кластеризация или дерево решений?
00
Вопрос или проблема Я работаю с набором данных, который имеет достаточно наблюдений и около 10 переменных, половина переменных числовые другая половина переменных категориальные с 2-3 уровнями (демографические) одна переменная идентификатора одна последняя