preprocessing
Data Science
Вопрос или проблема В эти последние дни я начал личный проект, в рамках которого хотел бы создать модель, которая, получив незавершенный эскиз, сможет его закончить. Я планировал использовать некоторые предварительно обученные модели, доступные в HuggingFace
Data Science
Вопрос или проблема Для моего итогового проекта я работаю с Keras и пытаюсь создать разные модели ИИ. У меня возникают трудности с многослойным перцептроном (MLP). Сначала я обрабатываю набор данных UNSW-NB15, а затем использую его в нейронной сети.
Data Science
Вопрос или проблема Контекст Я занимаюсь задачей кластеризации 1500 временных рядов из 500 наблюдений в несколько кластеров. Временные ряды обладают одинаковыми наблюдаемыми свойствами в разных пространственных положениях, но реагируют на одни и те же экзогенные переменные.
Data Science
Вопрос или проблема У меня возникла следующая проблема: когда я обучал свою модель, я создал фиктивные переменные (до разделения на тренировочную и тестовую выборки) следующим образом: dummy <- dummyVars(formula = CLASS_INV ~ .
Data Science
Вопрос или проблема Когда я обучаю нейронную сеть, я понимаю ценность нормализации входных данных до значения средней = 0 и стандартного отклонения = 1 (стандартизации данных). Но я часто вижу, что люди делают данные еще более “
Data Science
Вопрос или проблема У меня есть длинный список событий (400 уникальных событий, последовательность длиной ~10 млн). Я хочу обучить RNN предсказывать следующее событие. Шаги предобработки следующие: (1) преобразование в OneHotEncoding с использованием pandas: vector = pd.
Data Science
Вопрос или проблема Работаю над задачей обнаружения аномалий. Я использую автоэнкодер для устранения шума из заданного ввода. Я обучал сеть на нормальных данных (свободных от аномалий), поэтому модель предсказывает нормальное состояние заданного ввода.
Data Science
Вопрос или проблема Я заметил, что при разработке моделей машинного обучения очень важным шагом в инженерии признаков является добавление новых признаков, которые могут лучше объяснить целевую переменную. Недавно я столкнулся с ситуацией, когда добавление
Data Science
Вопрос или проблема Для задачи множественной линейной регрессии у меня есть как категориальные, так и числовые переменные в данных. Я проверяю корреляцию для числовых переменных для EDA и стандартизирую их, взяв логарифм. Остальные столбцы категориальных
Data Science
Вопрос или проблема У меня есть набор данных временных рядов, который мне нужно вручную пометить для обучения с учителем. То, что я сейчас делаю, это использую Excel для построения графиков, и когда я вижу нужный мне паттерн, я навожу курсор на данные
Data Science
Вопрос или проблема В настоящее время я работаю над предварительной обработкой больших наборов данных для целей машинного обучения. У меня возникли трудности с кодированием строк в числа. У меня есть набор данных с несколькими транзакциями блокчейна
Data Science
Вопрос или проблема В настоящее время я работаю над обнаружением аномалий при проведении транзакций. В качестве части данных, которые я извлек, у меня есть IP-адреса лиц, совершивших транзакцию. Поскольку IP-адрес не имеет связного смысла и является произвольным
Data Science
Вопрос или проблема Мне нужно выполнить проект по генерации музыки для курса глубокого обучения, который я прохожу в этом семестре, и я использую Pytorch. Датасет состоит из песен в формате midi, и я использую библиотеку python mido для извлечения данных из каждой песни.
Data Science
Вопрос или проблема У меня есть вопрос, связанный с параллельной работой на Python. Как я могу использовать Processors =1,2,3… в алгоритме k ближайших соседей, когда K=1, 2, 3,.. для нахождения изменения времени, затраченного на выполнение, ускорения и эффективности.
Data Science
Вопрос или проблема В настоящее время я работаю над проектом по обнаружению объектов, в котором я пытаюсь обнаружить очень маленькие объекты 50×50 в 2k изображении. EfficientDet дает очень низкий результат, если я просто использую сырые аннотации и начинаю обучение.
Data Science
Вопрос или проблема У меня есть большое количество файлов npy (448 файлов), каждый из которых состоит примерно из 12 тысяч кадров (изображения RGB 150×150), которые вместе составляют входные данные для моей нейронной сети (X).
Data Science
Вопрос или проблема У меня есть учебный набор данных, где значения столбца “Выход” зависят от трех столбцов (которые являются категориальными [без упорядочивания]). Inp1 Inp2 Inp3 Выход A,B,C AI,UI,JI Яблоко,Бат,Собака Животные L,M,N LI,DO,LI
Data Science
Вопрос или проблема Я пытаюсь решить очень сложную задачу и буду признателен за вашу помощь. В моей организации есть множество различных товаров, которые могут потребоваться нашим клиентам. Эти товары также могут быть возвращены на наши склады.
Data Science
Вопрос или проблема Предположим, у меня есть текстовый корпус с неконсистентно написанными биграммами. Примером может быть “би грам”, “би-грам”, “биграм”. Существует ли какой-либо стандартный метод предварительной обработки
Data Science
Вопрос или проблема У меня есть 8752 картинки, которые были получены из, более или менее, часового видеозаписи с CCTV с помощью скрипта на Python, снимающего скриншоты. Мой руководитель сказал мне очистить данные от примерно схожих.