Data Science
Использование Z-теста для оценки эффективности модели
00
Вопрос или проблема Я думаю, что знаю ответ на этот вопрос, но мне нужно подтверждение: уместно ли использовать z-тест для оценки производительности моей модели? У меня есть бинарная модель, которую я разработал с помощью нейронной сети в Keras.
Data Science
Проблема с медианной абсолютной девиацией
00
Вопрос или проблема Я использую медиану абсолютных отклонений (MAD) для обнаружения выбросов. Но проблема с MAD заключается в том, что если 50% или больше значений в выборке идентичны, то MAD = 0, что нежелательно. Есть ли способ решить эту проблему?
Data Science
Набор данных имеет коэффициент асимметрии = 1 с пропущенными данными. Стандартное отклонение вокруг медианы равно 1,5. Сколько данных будет затронуто?
00
Вопрос или проблема Нет другой информации о данных, не указано, является ли оно унивариантным, бивариантным и т.д., также не указан тип распределения. Недавно я наткнулся на этот вопрос, мне бы хотелось узнать, как асимметрия влияет на процент не затронутых данных.
Data Science
Гипотеза против гиперплоскости в машинном обучении
00
Вопрос или проблема Мне трудно понять четкое различие между гипотезой и гиперплоскостью. Я знаю, что гипотеза — это кандидат в модель, которая соотносит входы с выходами после обучения. А гиперплоскость — это граница принятия решений в алгоритме классификации.
Data Science
Статистический тест значимости в глубоких нейронных сетях для задач регрессии
00
Вопрос или проблема Я читал учебник “Тест на статистическую значимость для сравнения алгоритмов машинного обучения”, в котором предлагается использовать k-слой и применять соответствующий статистический тест. Предположим, что у меня есть обучающая
Data Science
Удаление выбросов из массива изображений в Python
00
Вопрос или проблема Может кто-нибудь подсказать, какой будет лучший способ удалить такое огромное количество выбросов из изображения. Обычное обрезание диапазона данных в массиве numpy просто уменьшит форму данных, и восстановление изображения не будет
Data Science
Как добавить шум в контролируемый (бинарный классификатор)?
00
Вопрос или проблема Примечание: Вопрос не о валидации/тестировании обученной модели. Пусть у меня есть набор признаков без меток, я хочу приблизительно определить истинные метки (ради аргумента допустим, что это задача бинарной классификации).
Data Science
Интуиция: почему активации ReLu являются линейными границами?
00
Вопрос или проблема Каково обоснование того, что границы ReLu выглядят линейными при построении в 2D? Обобщается ли это на более высокие размеры, так что границы в больших измерениях также являются линейными гиперплоскостями? Например, в игровой площадке
Data Science
Какие статистические параметры более полезны для обнаружения аномалий и выбросов? Среднее, максимум, минимум, дисперсия?
00
Вопрос или проблема Этот временной ряд содержит некоторые временные рамки, каждая из которых составляет 8K (частоты)*151 (временные выборки) за 0.5 секунды [всего 1.2288 миллиона выборок за полсекунды] Мне нужно найти аномальные значения на основе различных строк (частот).
Wordpress

В чем разница между Главная страница / Архивы и страницей, установленной в качестве главной?

01
Вопрос или проблема На изображении ниже я установил страницу Добро пожаловать! в качестве своей главной страницы. На эту страницу нет ссылки, и единственный способ перейти на главную страницу — это кликнуть по баннеру. Тем не менее, в статистике есть
Data Science
Сильно выраженная мультиколлинеарность влияет на решение линейной регрессии методом градиентного спуска?
00
Вопрос или проблема Поскольку метод наименьших квадратов может дать сбой при наличии серьезной/почти идеальной мультиколлинеарности, как будет работать градиентный спуск в такой ситуации? Он будет сходиться к минимуму? (Мое предположение –
Программное обеспечение
Какое лучшее статистическое программное обеспечение для множественной регрессии и прогнозирования с большим объемом данных?
00
Вопрос или проблема Нам требуется надежное статистическое программное обеспечение, которое может обрабатывать наборы данных объемом 10~13 миллионов записей для поддержки бизнес-решений, в основном прогнозирования и анализа множественной регрессии.
Unix-подобные системы
Использование прерываемых дисков для пользователей?
00
Вопрос или проблема Я хочу получить для каждого пользователя моей системы (или, по крайней мере, для каждого с домашним каталогом в /home) объем дискового пространства, используемого их файлами. У меня есть доступ root, но –
Data Science
метрики оценки для нескольких значений за сессию
00
Вопрос или проблема У меня есть приложение, которое выполняет мою функцию foo() несколько раз для каждой сессии пользователя. Существуют 2 альтернативных алгоритма, которые я могу реализовать в качестве функции foo(), и моя цель — оценить их на основе задержки выполнения.
Data Science
Какой лучший способ сравнить эти маленькие распределения?
00
Вопрос или проблема У меня есть одно распределение размера 30. Это результаты (ROC-AUC, например) обучения нейронной сети 30 раз подряд с одинаковыми гиперпараметрами, но поскольку они инициализируются случайным образом, результат всегда немного отличается.
Data Science
Вероятность для N-го места в гонке на основе модели Бредли-Терри: входные и выходные данные.
00
Вопрос или проблема Я создал модель прогнозирования гонок на мотоциклах, которая принимает пары гонщиков и выводит вероятность того, что каждый гонщик обгонит другого в каждом парном сравнении. Эта информация затем обрабатывается с использованием модели
Data Science
Постериорные оценки гиперпараметров
00
Вопрос или проблема Если среднее значение априорного распределения параметра не фиксировано, а оценивается, неправильно ли говорить о максимальной апостериорной оценке априорного среднего? Ответ или решение Вопрос о том, правильно ли называть максимальную
Data Science
Тест Крамера-Армана требует слишком много ресурсов.
00
Вопрос или проблема Я занимаюсь анализом данных и использую тест Крамера — фон Мизеса, чтобы проверить, происходят ли две выборки из одного распределения. Я использую реализацию cramervonmises_2samp из scipy.stats. Изначально, выборки, которые я использовал
Data Science
Размер наборов данных за годы
00
Вопрос или проблема Я ищу статистику, чтобы понять, как изменялся размер (публичного) набора данных на протяжении лет. Я только что нашел следующую статистику: Опрос KDnuggets, который на самом деле показывает, что на протяжении лет следующее: Гигабайты
Data Science
Переобучение в линейной регрессии
01
Вопрос или проблема Я только начинаю изучать машинное обучение, и мне трудно понять, как может произойти переобучение в модели линейной регрессии. Учитывая, что мы используем только 2 признака для обучения модели, как может плоская плоскость быть переобученной по набору данных?