statistics - ответы на вопросы - Page 2 of 6

Data Science

Использование Z-теста для оценки эффективности модели

00

Вопрос или проблема Я думаю, что знаю ответ на этот вопрос, но мне нужно подтверждение: уместно ли использовать z-тест для оценки производительности моей модели? У меня есть бинарная модель, которую я разработал с помощью нейронной сети в Keras.

Data Science

Проблема с медианной абсолютной девиацией

00

Вопрос или проблема Я использую медиану абсолютных отклонений (MAD) для обнаружения выбросов. Но проблема с MAD заключается в том, что если 50% или больше значений в выборке идентичны, то MAD = 0, что нежелательно. Есть ли способ решить эту проблему?

Data Science

Набор данных имеет коэффициент асимметрии = 1 с пропущенными данными. Стандартное отклонение вокруг медианы равно 1,5. Сколько данных будет затронуто?

00

Вопрос или проблема Нет другой информации о данных, не указано, является ли оно унивариантным, бивариантным и т.д., также не указан тип распределения. Недавно я наткнулся на этот вопрос, мне бы хотелось узнать, как асимметрия влияет на процент не затронутых данных.

Data Science

Гипотеза против гиперплоскости в машинном обучении

00

Вопрос или проблема Мне трудно понять четкое различие между гипотезой и гиперплоскостью. Я знаю, что гипотеза — это кандидат в модель, которая соотносит входы с выходами после обучения. А гиперплоскость — это граница принятия решений в алгоритме классификации.

Data Science

Статистический тест значимости в глубоких нейронных сетях для задач регрессии

00

Вопрос или проблема Я читал учебник “Тест на статистическую значимость для сравнения алгоритмов машинного обучения”, в котором предлагается использовать k-слой и применять соответствующий статистический тест. Предположим, что у меня есть обучающая

Data Science

Удаление выбросов из массива изображений в Python

00

Вопрос или проблема Может кто-нибудь подсказать, какой будет лучший способ удалить такое огромное количество выбросов из изображения. Обычное обрезание диапазона данных в массиве numpy просто уменьшит форму данных, и восстановление изображения не будет

Data Science

Как добавить шум в контролируемый (бинарный классификатор)?

00

Вопрос или проблема Примечание: Вопрос не о валидации/тестировании обученной модели. Пусть у меня есть набор признаков без меток, я хочу приблизительно определить истинные метки (ради аргумента допустим, что это задача бинарной классификации).

Data Science

Интуиция: почему активации ReLu являются линейными границами?

00

Вопрос или проблема Каково обоснование того, что границы ReLu выглядят линейными при построении в 2D? Обобщается ли это на более высокие размеры, так что границы в больших измерениях также являются линейными гиперплоскостями? Например, в игровой площадке

Data Science

Какие статистические параметры более полезны для обнаружения аномалий и выбросов? Среднее, максимум, минимум, дисперсия?

00

Вопрос или проблема Этот временной ряд содержит некоторые временные рамки, каждая из которых составляет 8K (частоты)*151 (временные выборки) за 0.5 секунды [всего 1.2288 миллиона выборок за полсекунды] Мне нужно найти аномальные значения на основе различных строк (частот).

Wordpress

В чем разница между Главная страница / Архивы и страницей, установленной в качестве главной?

01

Вопрос или проблема На изображении ниже я установил страницу Добро пожаловать! в качестве своей главной страницы. На эту страницу нет ссылки, и единственный способ перейти на главную страницу — это кликнуть по баннеру. Тем не менее, в статистике есть

Data Science

Сильно выраженная мультиколлинеарность влияет на решение линейной регрессии методом градиентного спуска?

00

Вопрос или проблема Поскольку метод наименьших квадратов может дать сбой при наличии серьезной/почти идеальной мультиколлинеарности, как будет работать градиентный спуск в такой ситуации? Он будет сходиться к минимуму? (Мое предположение –

Программное обеспечение

Какое лучшее статистическое программное обеспечение для множественной регрессии и прогнозирования с большим объемом данных?

00

Вопрос или проблема Нам требуется надежное статистическое программное обеспечение, которое может обрабатывать наборы данных объемом 10~13 миллионов записей для поддержки бизнес-решений, в основном прогнозирования и анализа множественной регрессии.

Unix-подобные системы

Использование прерываемых дисков для пользователей?

00

Вопрос или проблема Я хочу получить для каждого пользователя моей системы (или, по крайней мере, для каждого с домашним каталогом в /home) объем дискового пространства, используемого их файлами. У меня есть доступ root, но –

Data Science

метрики оценки для нескольких значений за сессию

00

Вопрос или проблема У меня есть приложение, которое выполняет мою функцию foo() несколько раз для каждой сессии пользователя. Существуют 2 альтернативных алгоритма, которые я могу реализовать в качестве функции foo(), и моя цель — оценить их на основе задержки выполнения.

Data Science

Какой лучший способ сравнить эти маленькие распределения?

00

Вопрос или проблема У меня есть одно распределение размера 30. Это результаты (ROC-AUC, например) обучения нейронной сети 30 раз подряд с одинаковыми гиперпараметрами, но поскольку они инициализируются случайным образом, результат всегда немного отличается.

Data Science

Вероятность для N-го места в гонке на основе модели Бредли-Терри: входные и выходные данные.

00

Вопрос или проблема Я создал модель прогнозирования гонок на мотоциклах, которая принимает пары гонщиков и выводит вероятность того, что каждый гонщик обгонит другого в каждом парном сравнении. Эта информация затем обрабатывается с использованием модели

Data Science

Постериорные оценки гиперпараметров

00

Вопрос или проблема Если среднее значение априорного распределения параметра не фиксировано, а оценивается, неправильно ли говорить о максимальной апостериорной оценке априорного среднего? Ответ или решение Вопрос о том, правильно ли называть максимальную

Data Science

Тест Крамера-Армана требует слишком много ресурсов.

00

Вопрос или проблема Я занимаюсь анализом данных и использую тест Крамера — фон Мизеса, чтобы проверить, происходят ли две выборки из одного распределения. Я использую реализацию cramervonmises_2samp из scipy.stats. Изначально, выборки, которые я использовал

Data Science

Размер наборов данных за годы

00

Вопрос или проблема Я ищу статистику, чтобы понять, как изменялся размер (публичного) набора данных на протяжении лет. Я только что нашел следующую статистику: Опрос KDnuggets, который на самом деле показывает, что на протяжении лет следующее: Гигабайты

Data Science

Переобучение в линейной регрессии

01

Вопрос или проблема Я только начинаю изучать машинное обучение, и мне трудно понять, как может произойти переобучение в модели линейной регрессии. Учитывая, что мы используем только 2 признака для обучения модели, как может плоская плоскость быть переобученной по набору данных?