Data Science
Проблема вычисления коэффициента кликов (CTR)
00
Вопрос или проблема Итак, я выполняю практическое задание для собеседования в компании, и один из вопросов заключается в том, чтобы вычислить CTR для алгоритма сортировки. Мой вопрос: следует ли мне исключить операции, в которых не было показано никаких
Data Science
Метрики для представления результата RNN/LSTM
00
Вопрос или проблема Я работаю над двумя различными архитектурами на основе модели LSTM для прогнозирования следующего действия пользователя на основе предыдущих действий. Мне интересно, какой лучший способ представить результат?
Data Science
Является ли чувствительность тем же самым, что и полнота в многоклассовой классификации?
00
Вопрос или проблема В Википедии говорится: “В двоичной классификации показатель recall называется чувствительностью” в разделе о Recall. Отличаются ли они в случае многоклассовой классификации? коротко: не совсем, recall и точность очень похожи
Data Science
Получить зависимые вероятности в многоклассовой классификации
00
Вопрос или проблема После обучения моей модели CatBoostClassifier я вызываю функцию get_proba, которая возвращает мне список вероятностей. Проблема начинается с другой стороны… Я переношу эти данные в датафрейм, затем в Excel, после чего суммирую
Data Science
Как измерить точность предсказания маршрута
00
Вопрос или проблема Я разработал новый алгоритм предсказания маршрутов и пытаюсь найти метрику, которая бы информировала о том, насколько хорошим было предсказание. Эта метрика предназначена для использования в оффлайн-режиме, то есть цель — не измерять
Data Science
Использование Z-теста для оценки эффективности модели
00
Вопрос или проблема Я думаю, что знаю ответ на этот вопрос, но мне нужно подтверждение: уместно ли использовать z-тест для оценки производительности моей модели? У меня есть бинарная модель, которую я разработал с помощью нейронной сети в Keras.
Data Science
Как мониторить модели классификации машинного обучения в производстве?
00
Вопрос или проблема Я часто слышал о таких мерах, как индекс стабильности населения и индекс стабильности характеристик. Возможно, я ошибаюсь, но они, похоже, более применимы для анализа изменений в унивариантных распределениях и более линейны.
Data Science
Каковы будут основные и ключевые критерии для оценки библиотеки auto-sklearn?
00
Вопрос или проблема Я провожу эксперименты с использованием контрольных наборов данных и auto-sklearn, чтобы увидеть, как его производительность отличается от стандартной библиотеки sklearn, поскольку automl выполняет исчерпывающий поиск по параметрам
Data Science
Матрица путаницы неправильно синхронизирована в DDP с PyTorch Lightning
00
Вопрос или проблема Я работаю над типичной задачей классификации, используя набор данных MNIST и обучая с помощью PyTorch Lightning и DDP. Я сталкиваюсь с проблемой, когда суммы строк в матрице неточностей не сохраняются, хотя сумма всех элементов в матрице корректна.
Data Science
Какой метрика ошибок хороша для измерения точности
00
Вопрос или проблема Я оцениваю глубину воды с помощью спутниковых данных (предсказанное значение) и хотел бы проверить свой результат, используя данные батиметрии, собранные на местности и считающиеся более точными (наблюдаемое значение).
Data Science
Какие методы доступны для оценки сходства между различными алгоритмами кластеризации?
00
Вопрос или проблема Я провожу обширный анализ сегментации клиентов и на данный момент реализовал модели гауссовских смесей, алгоритм K-средних и иерархическую кластеризацию. В большинстве случаев алгоритмы согласны по структуре кластеров и количеству (7-8).
Data Science
Стандартная метрика для расстояния между двумя кластерами
00
Вопрос или проблема Пусть $A=\{A_1,A_2,\cdots,A_m\}$ и $B=\{B_1,B_2,\cdots,B_n\}$ — это два множества точек в $k$-мерном евклидовом пространстве. Каждая точка $A_i$ или $B_i$ может рассматриваться как вектор признаков выборки данных.
Data Science
Как определить квадратичную взвешенную каппу в качестве метрики оценки в классификаторе CatBoost
00
Вопрос или проблема Я использую catboost для задачи многоклассовой классификации. Я хочу использовать квадратный взвешенный каппа в качестве метрики оценки. Catboost уже имеет WKappa в качестве eval_metric, но это линейная взвешенная версия, а не квадратичная.
Data Science
Как оценить точность на большом наборе данных?
00
Вопрос или проблема Учитывая, что у меня есть модель глубокого обучения (передача от бывшего коллеги). По какой-то причине наборы для обучения и валидации отсутствовали. В моей ситуации я хочу классифицировать свои данные на 100 категорий.
Data Science
YOLO: почему изменение порога достоверности изменяет [email protected]?
00
Вопрос или проблема Я обучил модель YOLOv7 для задачи обнаружения. У меня только один класс, который является объектом, который я хочу обнаружить. Я запустил test.py с –conf-thresh равным 0.001 (по умолчанию) и второй раз с –
Data Science
RMSE и R-квадрат
00
Вопрос или проблема Вопрос: Какой из метрик лучше для сравнения разных моделей: RMSE или R-квадрат? Я немного поискал, обычно все блоги говорят, что обе метрики объясняют разные идеи: R-квадрат является мерой того, сколько вариации объясняет модель, а
Data Science
Является ли это подходящим способом для расчета диаграммы надежности многоклассовой модели для калибровки?
00
Вопрос или проблема Я пытаюсь обобщить диаграммы надежности [1] для многоклассового классификатора и реализовать это с использованием pytorch и pytorch-metrics. Пока все хорошо, но я немного запутан в определении точности и том, как это применимо к пересечению
Data Science
Порядок предварительной обработки, избегание утечек и метрики
00
Вопрос или проблема У меня есть набор данных с ~40k записей и 16 столбцами (включая целевой) и я хочу понять правильный процесс всего процессаData Science. Вот что я сделал: Провел EDA, в результате чего я удалил два столбца, так как они были сосредоточены
Data Science
MPE (Наиболее Вероятное Объяснение) против MAP (Максимум Апостериори)
00
Вопрос или проблема Что такое MPE? Как MPE и MAP различаются? Есть ли пример, когда они дадут разные результаты? Что такое MPE? Ответ=> MPE в машинном обучении означает Максимальная Апостериорная Оценка. Это метод, используемый для нахождения наиболее
Data Science
Как правильно измерить время вывода и FLOPs модели?
00
Вопрос или проблема Почему-то я не могу найти встроенные решения (неужели?) в keras и tensorflow, в то время как на сайте https://keras.io/api/applications/ они предоставляют время (мс) на каждый шаг вывода (ЦП), но по какой-то причине не описали, как