Data Science
Применение KNN в Orange
00
Вопрос или проблема Я долго пытался найти KNN, надеюсь, вы сможете помочь. У нас есть набор данных с идентификатором пользователя (51) и оценками 6 фильмов (1-5). С помощью KNN мы должны предсказать оценку нового пользователя T01.
Data Science
Как построить загрузки PCA в зависимости от спектрального региона
00
Вопрос или проблема Я пытаюсь построить график загрузок PCA против спектров. Пока я могу получить координаты PCA для каждого наблюдения. В инструкции я видел, что существует виджет под названием кривые для этого. Он делает именно то, что мне нужно, но
Data Science
Найти повторяющиеся даты в небольшом наборе (и избавиться от неповторяющихся)
00
Вопрос или проблема Мне нужна помощь в анализе проблемы категоризации. Дан набор дат (небольшой набор: максимум 20 элементов), я хотел бы сгруппировать даты, которые равномерно распределены (с учетом допустимой погрешности). Это могут быть, например
Data Science
Не IID переменные и классификатор SVM
00
Вопрос или проблема Я обучаю модель SVM для предсказания тренда цен на акции (предсказания на один день вперед. Задача классификации). Совершенно забыл, что SVM предполагает IID данные, пока не поговорил с другом. Это заставило меня переосмыслить свой
Data Science
Увеличение данных в Keras: длина данных
00
Вопрос или проблема Я запутался, когда добавляю аугментацию данных, должен ли я получить больше данных или те же данные? Я протестировал длину x_train, чтобы это подтвердить, но получил ту же длину до аугментации и после аугментации, это правильно или
Data Science
Как Naive Bayes делает предсказания на основе scikit-learn?
00
Вопрос или проблема Мне нужно понять, как алгоритм многомерного наивного байеса может делать предсказания на основе реализации в scikit-learn. Я увидел исходный код, но хочу понять математику, стоящую за этим. Не могли бы вы объяснить математику этого предсказания?
Data Science
Нестированная кросс-валидация: ошибка обобщения для нескольких моделей
00
Вопрос или проблема Я имею в виду этот вопрос: Вложенная кросс-валидация и выбор лучшей модели регрессии – является ли это правильным процессом SKLearn? В ответах говорится, что вложенная кросс-валидация может оценивать ошибку обобщения оптимизации
Data Science
Как просмотреть среднее значение награды Ep при использовании TensorBoard с Stable Baselines 3
01
Вопрос или проблема Я не вижу ep_rwd_mean при запуске tensorboard. Я вижу только train/fps train/approx_kl train/clip_fraction train/clip_range train/entropy_loss train/explained_variance train/learning_rate train/loss train/policy_gradient_loss train/value_loss
Data Science
Как дроп-аут ведет себя как усреднение моделей?
00
Вопрос или проблема Утверждается Сривастава, Хинтон, и др., что “дропаут может быть эффективно применён и в скрытых слоях, и что его можно интерпретировать как форму усреднения модели” и что “обучение нейронной сети с дропаутом можно
Data Science
Как извлечь векторные представления категориальных переменных
00
Вопрос или проблема Я немного запутался с кодированием категориальных переменных. Есть другие посты/блог-посты по этой теме, но ни один из них не обсуждает проблему, с которой я сталкиваюсь. У меня есть набор данных со смешанными переменными (то есть
Data Science
Как я могу извлечь причину судебной компенсации из судебного отчета?
00
Вопрос или проблема Я работаю над проектом, связанным с судом. На определенном этапе мне нужно извлечь причину юридической компенсации. Например, рассмотрим эти предложения (из судебного отчета) Приказать мистеру Иксу выплатить 5000 евро в качестве компенсации
Data Science
Улучшение наборов данных путем добавления новых узлов
00
Вопрос или проблема У меня есть идея по добавлению новых узлов в направленный граф для достижения численно стабильного графа Фурье для анализа сигналов в области графов. Чтобы оценить ее эффективность, я ищу реальные наборы данных, структурированные как
Data Science
Как мне рассчитать матрицу сходства с использованием ядра Стюдента-t?
00
Вопрос или проблема Как указано в заглавии, как мне рассчитать матрицу сходства с ненормализованным ядром Стюдента? Я пытаюсь рассчитать дивергенцию Кульбака-Лейблера для различных запусков t-SNE, но для этого мне нужна матрица Q.
Data Science
Инструменты, подходящие для полуаавтоматической разметки видео?
00
Вопрос или проблема Пока что я использовал labelme для разметки объектов в видео, которые использую для обучения, но это довольно трудоемко. Существуют ли хорошие инструменты, которые могут помочь с этим? Я думал о инструменте, где я разметил бы несколько
Data Science
Среднее значение метрик с использованием 10-кратной проверки
00
Вопрос или проблема Я работаю с 10-кратной кросс-валидацией и хочу усреднить метрики, но не могу это сделать с помощью sklearn. Вот как я это делаю, и метрики выводятся по каждому разделению. from sklearn.model_selection import KFold from sklearn.
Data Science
PySpark: Как указать ось dropna в преобразовании PySpark?
00
Вопрос или проблема Я хотел бы удалить столбцы, которые содержат только значения null, используя dropna(). В Pandas это можно сделать, установив аргумент ключевого слова axis="columns" в dropna(). Вот пример в посте на GitHub. Как это сделать в PySpark?
Data Science
Отделение данных признаков от целевой переменной в X и y до или после пайплайна?
00
Вопрос или проблема У меня есть следующее: train_set, test_set = train_test_split(arbres_df, test_size=0.2, random_state=42) Это старая train_test_split, которую мы знаем. А затем я разделяю признаки и целевую переменную: train_feat = train_set.
Data Science
Как указать версию для зависимостей, чтобы каждая из них была совместима и оставалась в рамках лимита по размеру?
00
Вопрос или проблема Я пытаюсь развернуть веб-приложение на Heroku. Бесплатный тариф ограничен 500 МБ. Я использую свою модель resnet34 в виде файла .pkl. Я создаю модель с его помощью, используя библиотеку fastai. Этот проект требует torch и torchvision как зависимости.
Data Science
Стандартизация ввода для глубокого обучения – правильное масштабирование
00
Вопрос или проблема Как правило, входные данные для нейронной сети (НС) преобразуются так, чтобы иметь нулевое среднее значение и стандартное отклонение 1. Мне интересно, почему стандартное отклонение должно быть 1? Как насчет других масштабов?
Data Science
Как нейронные сети могут обрабатывать входные данные разного размера?
00
Вопрос или проблема У меня есть набор данных с сообщениями (строка) и связанным настроением. Я пытаюсь использовать нейронную сеть для предсказания одного из 6 настроений, используя закодированные входные данные. Вот как выглядит мой X_train: array([list([1