Data Science

Почему точность уменьшается с увеличением порога?

00

Вопрос или проблема Я обучил модель логистической регрессии, используя класс LogisticRegression из scikit-learn. Я работаю с данными о фондовом рынке, поэтому они довольно шумные и сложно что-то предсказать. При построении графика зависимости порога от

Data Science

Рассчитываем важность признаков по методу перестановки. Два метода дают два разных результата, почему так?

00

Вопрос или проблема 1º метод выводов: Away Attack = 0.152322 и Home Attack = 0.0 2º метод выводов: Away Attack = 0.928571 и Home Attack = 0.071429 Почему так? Точность 69%. У меня много признаков, и я выбрал только эти 2. # Рассчитать важность путем перестановки

Data Science

Как создать модель для отслеживания начала и окончания конкретного события в наборе данных?

00

Вопрос или проблема Это может быть очень широкий и нишевый вопрос, но я в тупике. Чтобы ввести в курс дела, я очень начинающий специалист по работе с данными, у меня больше знаний в области программного обеспечения, чем в области обработки данных, поэтому

Data Science

Что такое C в логистической регрессии sklearn?

00

Вопрос или проблема В sklearn.linear_model.LogisticRegression есть параметр C согласно документации Cfloat, по умолчанию = 1.0 Обратная величина к силе регуляризации; должно быть положительное число с плавающей точкой. Как и в машинах опорных векторов

Data Science

Кластеризация с пользовательским критерием (минимальный вес кластера)

00

Вопрос или проблема Правка: в соответствии с комментарием от @anony-mousse, я изменяю вопрос, чтобы искать общий подход кластеризации, который соответствует этому критерию (минимальный вес на кластер). Мне нужно использовать метод кластеризации на наборе

Data Science

00

Вопрос или проблема Я пытаюсь создать систему, где пользователь приходит на платформу, выбирает тему (несколько заранее определенных тем), и тогда мы соединяем его с любым случайным пользователем онлайн, который выбрал ту же тему.

Data Science

Как нормализовать данные с комплексными значениями?

00

Вопрос или проблема Я беру абсолютные значения всех элементов, вычисляю среднее, вычитаю его из исходных значений. Мне кажется, что это неверно и может изменить векторы. Я также делю на стандартное отклонение, но я довольно уверен в этом, зная, что это

Data Science

Общие практики построения инкрементальной обучающей модели, которая никогда не забывает?

00

Вопрос или проблема Я новичок в области науки о данных и ценю ваш мудрый совет! Мне нужно построить модель с инкрементальным обучением, и я понимаю, что в это вкладывается много усилий, но я хотел бы выделить самое фундаментальное, абстрактное требование

Data Science

Можно ли использовать метод главных компонент (PCA) для уменьшения размерности данных, закодированных методом One-Hot-Encoding?

00

Вопрос или проблема Я читал пару раз, что метод PCA используется для сокращения размерности для данных, закодированных с помощью One-Hot-Encoding. Однако, также были комментарии, что использование PCA не является хорошей идеей, так как One-Hot-Encoded

Data Science

Сегментируйте аудио длительностью 5-7 минут на аудиоклипы по предложениям для создания набора данных для распознавания речи.

00

Вопрос или проблема Я пытаюсь создать набор данных для распознавания речи, особенно для индийских акцентов. Я собираю данные от коллег для этого. Каждый день я отправляю ссылку на статью и прошу их записать и загрузить запись на Google Drive.

Data Science

Как отсортировать многоуровневый DataFrame в pandas по определённому столбцу?

00

Вопрос или проблема Я хотел бы отсортировать многоиндексный DataFrame pandas по столбцу, но не хочу, чтобы весь DataFrame сортировался сразу. Я предпочел бы отсортировать по одному из индексов. Вот пример того, что я имею в виду: Ниже приведен пример

Data Science

LFR как синтезированные данные для методов обнаружения динамических сообществ

00

Вопрос или проблема В современных методах для обнаружения сообществ в динамических сетях используется эталон LFR в качестве генератора динамических наборов данных, но я думал, что он предназначен для генерации статических данных о сообществах.

Data Science

Вопрос о коллапсировании переменной и сверхвыборке меньшинств.

00

Вопрос или проблема У меня есть несбалансированные данные, состоящие из девяти классов, и я планирую объединить их в два класса. Я провел стратифицированную (пропорциональную) выборку между тестовыми, валидационными и обучающими наборами данных в соответствии с девятью классами.

Data Science

Сегментация легких с помощью K-means содержит белую границу.

00

Вопрос или проблема Я новичок в обработке изображений, я пытаюсь сегментировать КТ изображения легких с помощью Kmeans следующим образом: import numpy as np import re import pandas as pd from skimage import morphology from skimage import measure from

Data Science

Процесс аналитической иерархии – коэффициент согласованности выше 50%

00

Вопрос или проблема У меня есть такие данные парного сравнения. Я вычислил коэффициент согласованности для этих данных и получил 56%. Это слишком высоко для получения релевантных результатов. Возможно ли изменить исходные данные, чтобы улучшить согласованность

Data Science

Градиенты CNN с разной величиной

00

Вопрос или проблема У меня есть архитектура CNN с двумя функциями кросс-энтропии потерь $\mathcal{L}_1$ и $\mathcal{L}_2$, которые суммируются в общую потерю $\mathcal{L} = \mathcal{L}_1 + \mathcal{L}_2$. Задача, которую я хочу решить, — это неконтролируемая адаптация домена.

Data Science

Можно ли вывести зависимость между переменными из данных? И если да, то как?

00

Вопрос или проблема У меня есть набор данных $X$, который состоит из $m$ векторов $\vec{x}$ с $n$ компонентами, имеющими действительные значения. Каждая компонента вектора лежит в соответствующем предопределенном интервале допустимых значений, который

Data Science

Как я могу изменить этот код для запуска сверточной нейронной сети, чтобы получить 2-мерный вывод?

00

Вопрос или проблема У меня есть модель движения, для которой я могу моделировать данные. Она имеет два параметра, а выходными данными являются широта и долгота в N равномерно распределенных временных точках. Моя цель – использовать сверточную нейронную

Data Science

Неожиданный идентификатор функции в наборе данных Yahoo! Webscope ydata-frontpage-todaymodule-clicks-v1_0

00

Вопрос или проблема Я работаю с набором данных Yahoo! Webscope ydata-frontpage-todaymodule-clicks-v1_0 (в частности, с журналами кликов за первые десять дней мая 2009 года). Описание набора данных гласит, что каждый пользователь и статья имеют 6 признаков

Data Science

Метод проверки потерь продолжает колебаться относительно метода обучения потерь.

00

Вопрос или проблема Я обучаю модель Keras для многомерной регрессии, используя пользовательскую функцию потерь с целью получить прогнозы с точностью до ниже 0.01 в отношении этой функции потерь. Как видно из приведенного ниже графика функций потерь, как