preprocessing - ответы на вопросы

Data Science

Тонкая настройка GPT на данных эскизов (штрих-3)

00

Вопрос или проблема В эти последние дни я начал личный проект, в рамках которого хотел бы создать модель, которая, получив незавершенный эскиз, сможет его закончить. Я планировал использовать некоторые предварительно обученные модели, доступные в HuggingFace

Data Science

Keras MLP не работает

00

Вопрос или проблема Для моего итогового проекта я работаю с Keras и пытаюсь создать разные модели ИИ. У меня возникают трудности с многослойным перцептроном (MLP). Сначала я обрабатываю набор данных UNSW-NB15, а затем использую его в нейронной сети.

Data Science

Кластеризация временных рядов на основе монотонного сходства

00

Вопрос или проблема Контекст Я занимаюсь задачей кластеризации 1500 временных рядов из 500 наблюдений в несколько кластеров. Временные ряды обладают одинаковыми наблюдаемыми свойствами в разных пространственных положениях, но реагируют на одни и те же экзогенные переменные.

Data Science

Фиктивные переменные для невидимых данных в R

00

Вопрос или проблема У меня возникла следующая проблема: когда я обучал свою модель, я создал фиктивные переменные (до разделения на тренировочную и тестовую выборки) следующим образом: dummy <- dummyVars(formula = CLASS_INV ~ .

Data Science

Насколько “нормальными” должны быть мои входные данные?

00

Вопрос или проблема Когда я обучаю нейронную сеть, я понимаю ценность нормализации входных данных до значения средней = 0 и стандартного отклонения = 1 (стандартизации данных). Но я часто вижу, что люди делают данные еще более “

Data Science

Предварительная обработка временной последовательности

00

Вопрос или проблема У меня есть длинный список событий (400 уникальных событий, последовательность длиной ~10 млн). Я хочу обучить RNN предсказывать следующее событие. Шаги предобработки следующие: (1) преобразование в OneHotEncoding с использованием pandas: vector = pd.

Data Science

Как правильно выполнять нормализацию данных в автоэнкодере?

00

Вопрос или проблема Работаю над задачей обнаружения аномалий. Я использую автоэнкодер для устранения шума из заданного ввода. Я обучал сеть на нормальных данных (свободных от аномалий), поэтому модель предсказывает нормальное состояние заданного ввода.

Data Science

Как узнать оптимальное количество признаков для использования?

00

Вопрос или проблема Я заметил, что при разработке моделей машинного обучения очень важным шагом в инженерии признаков является добавление новых признаков, которые могут лучше объяснить целевую переменную. Недавно я столкнулся с ситуацией, когда добавление

Data Science

Предобработка данных для задачи множественной линейной регрессии

00

Вопрос или проблема Для задачи множественной линейной регрессии у меня есть как категориальные, так и числовые переменные в данных. Я проверяю корреляцию для числовых переменных для EDA и стандартизирую их, взяв логарифм. Остальные столбцы категориальных

Data Science

Существуют ли инструменты для визуализации и манипуляции данными?

00

Вопрос или проблема У меня есть набор данных временных рядов, который мне нужно вручную пометить для обучения с учителем. То, что я сейчас делаю, это использую Excel для построения графиков, и когда я вижу нужный мне паттерн, я навожу курсор на данные

Data Science

Строка в число в случае наличия миллионов уникальных значений

00

Вопрос или проблема В настоящее время я работаю над предварительной обработкой больших наборов данных для целей машинного обучения. У меня возникли трудности с кодированием строк в числа. У меня есть набор данных с несколькими транзакциями блокчейна

Data Science

Как кодировать и масштабировать IP-адреса в качестве входных данных для моделей машинного обучения

00

Вопрос или проблема В настоящее время я работаю над обнаружением аномалий при проведении транзакций. В качестве части данных, которые я извлек, у меня есть IP-адреса лиц, совершивших транзакцию. Поскольку IP-адрес не имеет связного смысла и является произвольным

Data Science

Настройте функцию потерь для генерации музыки с помощью LSTM (?)

00

Вопрос или проблема Мне нужно выполнить проект по генерации музыки для курса глубокого обучения, который я прохожу в этом семестре, и я использую Pytorch. Датасет состоит из песен в формате midi, и я использую библиотеку python mido для извлечения данных из каждой песни.

Data Science

параллельная работа с KNN в Python

00

Вопрос или проблема У меня есть вопрос, связанный с параллельной работой на Python. Как я могу использовать Processors =1,2,3… в алгоритме k ближайших соседей, когда K=1, 2, 3,.. для нахождения изменения времени, затраченного на выполнение, ускорения и эффективности.

Data Science

Предобработка для детекции мелких объектов

00

Вопрос или проблема В настоящее время я работаю над проектом по обнаружению объектов, в котором я пытаюсь обнаружить очень маленькие объекты 50×50 в 2k изображении. EfficientDet дает очень низкий результат, если я просто использую сырые аннотации и начинаю обучение.

Data Science

Обработка большого набора данных, состоящего из файлов npy

00

Вопрос или проблема У меня есть большое количество файлов npy (448 файлов), каждый из которых состоит примерно из 12 тысяч кадров (изображения RGB 150×150), которые вместе составляют входные данные для моей нейронной сети (X).

Data Science

Предварительная обработка категориальных данных для обучения алгоритма

00

Вопрос или проблема У меня есть учебный набор данных, где значения столбца “Выход” зависят от трех столбцов (которые являются категориальными [без упорядочивания]). Inp1 Inp2 Inp3 Выход A,B,C AI,UI,JI Яблоко,Бат,Собака Животные L,M,N LI,DO,LI

Data Science

Прогнозирование спроса в логистике с 20 000 различными временными рядами

00

Вопрос или проблема Я пытаюсь решить очень сложную задачу и буду признателен за вашу помощь. В моей организации есть множество различных товаров, которые могут потребоваться нашим клиентам. Эти товары также могут быть возвращены на наши склады.

Data Science

Предобработка текста для обнаружения двух слов без разделяющего пробела (или разделённых дефисом).

00

Вопрос или проблема Предположим, у меня есть текстовый корпус с неконсистентно написанными биграммами. Примером может быть “би грам”, “би-грам”, “биграм”. Существует ли какой-либо стандартный метод предварительной обработки

Data Science

Эффективный способ очистить 8752 изображения от очень похожих.

00

Вопрос или проблема У меня есть 8752 картинки, которые были получены из, более или менее, часового видеозаписи с CCTV с помощью скрипта на Python, снимающего скриншоты. Мой руководитель сказал мне очистить данные от примерно схожих.