Data Science

Как мне рассчитать матрицу сходства с использованием ядра Стюдента-t?

00

Вопрос или проблема Как указано в заглавии, как мне рассчитать матрицу сходства с ненормализованным ядром Стюдента? Я пытаюсь рассчитать дивергенцию Кульбака-Лейблера для различных запусков t-SNE, но для этого мне нужна матрица Q.

Data Science

Инструменты, подходящие для полуаавтоматической разметки видео?

00

Вопрос или проблема Пока что я использовал labelme для разметки объектов в видео, которые использую для обучения, но это довольно трудоемко. Существуют ли хорошие инструменты, которые могут помочь с этим? Я думал о инструменте, где я разметил бы несколько

Data Science

Среднее значение метрик с использованием 10-кратной проверки

00

Вопрос или проблема Я работаю с 10-кратной кросс-валидацией и хочу усреднить метрики, но не могу это сделать с помощью sklearn. Вот как я это делаю, и метрики выводятся по каждому разделению. from sklearn.model_selection import KFold from sklearn.

Data Science

PySpark: Как указать ось dropna в преобразовании PySpark?

00

Вопрос или проблема Я хотел бы удалить столбцы, которые содержат только значения null, используя dropna(). В Pandas это можно сделать, установив аргумент ключевого слова axis="columns" в dropna(). Вот пример в посте на GitHub. Как это сделать в PySpark?

Data Science

Отделение данных признаков от целевой переменной в X и y до или после пайплайна?

00

Вопрос или проблема У меня есть следующее: train_set, test_set = train_test_split(arbres_df, test_size=0.2, random_state=42) Это старая train_test_split, которую мы знаем. А затем я разделяю признаки и целевую переменную: train_feat = train_set.

Data Science

Как указать версию для зависимостей, чтобы каждая из них была совместима и оставалась в рамках лимита по размеру?

00

Вопрос или проблема Я пытаюсь развернуть веб-приложение на Heroku. Бесплатный тариф ограничен 500 МБ. Я использую свою модель resnet34 в виде файла .pkl. Я создаю модель с его помощью, используя библиотеку fastai. Этот проект требует torch и torchvision как зависимости.

Data Science

Стандартизация ввода для глубокого обучения – правильное масштабирование

00

Вопрос или проблема Как правило, входные данные для нейронной сети (НС) преобразуются так, чтобы иметь нулевое среднее значение и стандартное отклонение 1. Мне интересно, почему стандартное отклонение должно быть 1? Как насчет других масштабов?

Data Science

Как нейронные сети могут обрабатывать входные данные разного размера?

00

Вопрос или проблема У меня есть набор данных с сообщениями (строка) и связанным настроением. Я пытаюсь использовать нейронную сеть для предсказания одного из 6 настроений, используя закодированные входные данные. Вот как выглядит мой X_train: array([list([1

Data Science

Предобработка данных для прогнозирования временных рядов

00

Вопрос или проблема У меня есть набор данных со следующей структурой [ [ [ продукт 1 , номер полки, позиция на подносе, время нахождения на полке, был продан?], # Час 1 [ продукт 1 , номер полки, позиция на подносе, время нахождения на полке, был продан?

Data Science

Реализация LDA (Скрытое распределение Дирихле) для задач классификации

00

Вопрос или проблема До сих пор я использовал LDA только для моделирования тем. Мне хотелось бы узнать, какая самая простая реализация алгоритма LDA для задач классификации. Вы можете использовать LDA на ваших обучающих данных, чтобы построить их темпредставление

Data Science

Предобработка данных

00

Вопрос или проблема Я просто хочу знать, как определить, следует ли удалять отсутствующие значения или заполнять их средним, медианой или модой. Обычно я удаляю отсутствующие значения, но это уменьшает размер датасета более чем на 50%.

Data Science

Извлечение информации из PDF с использованием глубокого обучения

00

Вопрос или проблема У нас есть задача извлечения информации из документа кредитной истории. Обычно это PDF-документ, сгенерированный компьютером. Поскольку эти PDF-файлы создаются разными источниками, макет документа будет отличаться в зависимости от источника.

Data Science

Найдите корреляцию между двумя списками текстов.

00

Вопрос или проблема Допустим, у меня есть несколько списков текстов, такие как: A = ["девочка", "женщина", "королева"] B = ["мальчик", "мужчина", "король"] C = ["пожарный", "строительный рабочий", "механик"] D = ["медсестра", "учитель начальных классов"

Data Science

Помощь в модели для прогнозирования количества заявок предстоящей когорты.

00

Вопрос или проблема Мы – онлайн-школа, новые группы начинаются в первый день каждого месяца. В течение (примерно) 45 дней, предшествующих первому дню, мы получаем отчет дважды в неделю, который информирует нас о количестве лидов, полученных до сих

Data Science

Как работать с данными (особенно изображениями), когда входные и выходные данные также являются изображениями?

00

Вопрос или проблема У меня есть входной набор данных в виде изображений, а выходные данные также являются изображениями, вместо того чтобы быть размеченными данными. Поэтому это не совсем задача классификации и не совсем задача регрессии.

Data Science

Глубокое Q-обучение: как установить Q-значение для невыбранных действий?

00

Вопрос или проблема Я изучаю глубокое Q-обучение, применяя его к реальной проблеме. Я ознакомился с несколькими учебниками и статьями, доступными в интернете, но не смог найти решение для следующего задания. Предположим, у нас есть $N$ возможных действий в каждом состоянии.

Data Science

Почему значение потерь моей модели возрастает?

00

Вопрос или проблема Я экспериментирую с ML5JS и Mediapipe, чтобы обучить модель на языке жестов (в частности, движущихся жестах). Мой код заставляет mediapipe собирать 3780 кадров, обрабатывать их и сохранять в переменной, которая выглядит так: { "label": "wave", "vector": [ 0.

Data Science

Моделирование тем с множеством синонимов – как извлечь ‘скрытые темы’

00

Вопрос или проблема Вот мой корпус { 0: "собаки милые", # собаки дружелюбные 1: "метисы добрые", # собаки дружелюбные 2: "псинки прекрасные", # собаки дружелюбные ..., 3: "кошки злые", # кошки недружелюбные 4: "могги противные", # кошки недружелюбные

Data Science

Использование LSTM для многометровой классификации

00

Вопрос или проблема Я пытаюсь использовать LSTM для обучения и предсказания авторов, используя данные отзывов и метаданные. автор телефон страна день отзыв джеймс iphone чили вторник книга была действительно потрясающей Как мне передать все эти признаки в сеть?

Data Science

Я пытаюсь построить модель логистической регрессии.

00

Вопрос или проблема У меня есть данные временного ряда о том, как семья тратит деньги на разные продукты. Каждый продукт отнесён к категории (это может быть путь категории из двух уровней), например, (Еда > Курица) или (Личные принадлежности > Макияж).