Data Science
Взаимосвязь между двумя непрерывными переменными в данных временных рядов
00
Вопрос или проблема У меня есть набор данных, который собирает ежедневные данные на основе транзакций между двумя субъектами. Я хочу выяснить силу, направление и вид отношения между двумя непрерывными переменными, т.е. количеством транзакций (No_of_transactions)
Data Science
Spark: Как запустить PCA параллельно? Используется только один поток.
00
Вопрос или проблема Я использую pySpark и настраиваю свою конфигурацию следующим образом: spark = (SparkSession.builder.master("local[*]") .config("spark.driver.memory", "20g") .config("spark.executor.memory", "10g") .config("spark.
Data Science
Оптимизированные алгоритмы для устранения признаков на основе корреляции
00
Вопрос или проблема У меня есть большой датафрейм с почти миллионом строк и 2000 столбцов. Я пытаюсь сделать отбор признаков, используя корреляцию между переменными. Проблема в том, что для набора из n признаков нам нужна корреляция между nC2 или n*(n-1)/2
Data Science
Частая дообучаемость на новых данных может привести к переобучению?
00
Вопрос или проблема У меня есть модель бинарной классификации, которую я обучил на обучающем наборе. На валидационном наборе ее точность составляет примерно 85%. Я настроил раннее остановку, которая завершила обучение, когда потери на валидации увеличились.
Data Science
Почему Faster R-CNN использует оптимизатор SGD вместо Adam?
00
Вопрос или проблема Я только начинаю изучать Faster R-CNN и у меня есть некоторые сомнения по поводу оптимизатора этой сети. Насколько я понимаю, оптимизатор Adam работает гораздо лучше, чем SGD во многих сетях. Тем не менее, в статье о Faster R-CNN выбирается
Data Science
Как выбрать архитектуру нейронной сети?
00
Вопрос или проблема Как выбрать архитектуру нейронной сети? Примеры: «Что если мне нужно переводить слова?» «Генерировать текст, изображения?» «Играть в обычную игру?» «Играть в игру, которая меняется в зависимости от действий игрока, то есть нейронная
Data Science
Как объяснить относительную разницу между макро-AUC и макро-F1 в задаче многоклассовой классификации?
00
Вопрос или проблема На днях я опубликовал статью, в которой результат модели с учителем следующий. Все метрики усредненные по классу. Меня попросили прокомментировать разницу между AUC и другими метриками, в частности F1. Быстро это относительно сбалансированная задача.
Data Science
Как рассчитывается ошибка с несколькими выходными нейронами в нейронной сети?
00
Вопрос или проблема Книги по машинному обучению в общем описывают, что ошибка, рассчитанная для данной выборки $i$, определяется следующим образом: $e_i = y_i – \hat{y_i}$ Где $\hat{y}$ — это целевой выход, а $y$ — это фактический выход, получаемый сетью.
Data Science
Путаница в применении k-кратной кросс-валидации к набору данных
00
Вопрос или проблема У меня есть набор данных, который уже разделен на 10 частей, при этом каждая часть содержит обучающие, валидационные и тестовые наборы. Я не понимаю, как применить 10-кратную кросс-валидацию к этому набору данных.
Data Science
Как использовать текст в качестве входных данных для нейронной сети – задача регрессии? Сколько лайков/апплодисментов получит статья?
00
Вопрос или проблема Я пытаюсь предсказать количество лайков, которые статья или пост получит, используя нейронную сеть. У меня есть датафрейм с ~70,000 строк и 2 столбцами: “text” (предиктор – строки текста) и “
Data Science
Прогнозирование частичного ввода
00
Вопрос или проблема В контексте контролируемого машинного обучения существует ли способ сделать прогноз по частичному вводу (т.е. некоторые признаки неизвестны) в общем? Если нет, существуют ли модели, которые поддерживают эту функцию?
Data Science
несбалансированный целевой набор данных (многоклассовый)
00
Вопрос или проблема У меня есть задача предсказания с многими классами но 300 классов несбалансированы должен ли я сбалансировать все 300 классов, чтобы получить лучший результат? существует ли более простой способ решить эту задачу?
Data Science
Ошибка Keras NasNetlarge без верхнего уровня
00
Вопрос или проблема Я пытаюсь использовать NasNetlarge в Keras без верхней части, но не могу избавиться от верхней части: from keras.applications import NASNetLarge model = NASNetLarge(input_shape=(224, 224, 3), include_top=False, weights="imagenet")
Data Science
Как использовать LSTM для системы аутентификации на основе динамики нажатия клавиш
00
Вопрос или проблема Итак, мне нужно создать модель для системы аутентификации. В sklearn мы можем использовать ORC для автоматического создания меток для истинных и фальшивых оценок. Но как мне сделать это для LSTM? Ответ или решение Использование LSTM
Data Science
Является ли HDBSCAN агломеративной иерархической кластеризацией?
00
Вопрос или проблема Я смотрю на HDBSCAN и задаюсь вопросом, является ли он делительным или агломеративным? Я понимаю оба подхода, но не понимаю, какой из них использует HDBSCAN. Ищу пояснения. Ответ дан в Пропозиции 1 в статье по HDBSCAN 1.
Data Science
Не удается установить пакет spacy на Windows 10 через pip.
00
Вопрос или проблема У меня следующая среда. ОС: Windows 10 Python: Python 3.7.4 PIP: pip 19.3.1 Я пытаюсь установить spacy на свою ОС Windows 10. У меня возникает следующая ошибка. ОШИБКА: Команда завершилась с кодом выхода 1: команда: 'd:\rajesh\python\env1\scripts\python.
Data Science
Прогнозирование будущих продаж автомобилей
00
Вопрос или проблема Я новичок в области машинного обучения. В последнее время я стараюсь создать модель, чтобы прогнозировать продажи определенной марки и модели автомобиля у дилера и местоположение, где они будут проданы. Данные, которые мне предоставили
Data Science
Почему я получаю другой ответ в методе главных компонент для уменьшения размерности?
00
Вопрос или проблема Проблема: Рассмотрите двумерные образы (2, 1), (3, 5), (4, 3), (5, 6), (6, 7), (7, 8). Вычислите главную компоненту, используя алгоритм PCA. Используйте алгоритм PCA для преобразования образа (2, 1) на собственный вектор.
Data Science
Каков предпочтительный подход к этой проблеме?
00
Вопрос или проблема У меня есть данные о 10,000 пользователей и их временных сессиях на сайте/в приложении: время входа, время выхода и активность пользователя. Данные доступны в течение 60 дней (на пользователя). Используя эти 60-дневные данные для 10
Data Science
Результат теста выше результата обучения
00
Вопрос или проблема Я реализовал классификатор наивного байесовского метода с гауссовским предположением, и у меня результат теста (99,99%) оказался выше, чем результат обучения (96,87%). Нормально это или это означает, что моя модель недостаточно обучена?