Data Science
Тонкая настройка GPT на данных эскизов (штрих-3)
00
Вопрос или проблема В эти последние дни я начал личный проект, в рамках которого хотел бы создать модель, которая, получив незавершенный эскиз, сможет его закончить. Я планировал использовать некоторые предварительно обученные модели, доступные в HuggingFace
Data Science
Keras MLP не работает
00
Вопрос или проблема Для моего итогового проекта я работаю с Keras и пытаюсь создать разные модели ИИ. У меня возникают трудности с многослойным перцептроном (MLP). Сначала я обрабатываю набор данных UNSW-NB15, а затем использую его в нейронной сети.
Data Science
Кластеризация временных рядов на основе монотонного сходства
00
Вопрос или проблема Контекст Я занимаюсь задачей кластеризации 1500 временных рядов из 500 наблюдений в несколько кластеров. Временные ряды обладают одинаковыми наблюдаемыми свойствами в разных пространственных положениях, но реагируют на одни и те же экзогенные переменные.
Data Science
Фиктивные переменные для невидимых данных в R
00
Вопрос или проблема У меня возникла следующая проблема: когда я обучал свою модель, я создал фиктивные переменные (до разделения на тренировочную и тестовую выборки) следующим образом: dummy <- dummyVars(formula = CLASS_INV ~ .
Data Science
Насколько “нормальными” должны быть мои входные данные?
00
Вопрос или проблема Когда я обучаю нейронную сеть, я понимаю ценность нормализации входных данных до значения средней = 0 и стандартного отклонения = 1 (стандартизации данных). Но я часто вижу, что люди делают данные еще более “
Data Science
Предварительная обработка временной последовательности
00
Вопрос или проблема У меня есть длинный список событий (400 уникальных событий, последовательность длиной ~10 млн). Я хочу обучить RNN предсказывать следующее событие. Шаги предобработки следующие: (1) преобразование в OneHotEncoding с использованием pandas: vector = pd.
Data Science
Как правильно выполнять нормализацию данных в автоэнкодере?
00
Вопрос или проблема Работаю над задачей обнаружения аномалий. Я использую автоэнкодер для устранения шума из заданного ввода. Я обучал сеть на нормальных данных (свободных от аномалий), поэтому модель предсказывает нормальное состояние заданного ввода.
Data Science
Как узнать оптимальное количество признаков для использования?
00
Вопрос или проблема Я заметил, что при разработке моделей машинного обучения очень важным шагом в инженерии признаков является добавление новых признаков, которые могут лучше объяснить целевую переменную. Недавно я столкнулся с ситуацией, когда добавление
Data Science
Предобработка данных для задачи множественной линейной регрессии
00
Вопрос или проблема Для задачи множественной линейной регрессии у меня есть как категориальные, так и числовые переменные в данных. Я проверяю корреляцию для числовых переменных для EDA и стандартизирую их, взяв логарифм. Остальные столбцы категориальных
Data Science
Существуют ли инструменты для визуализации и манипуляции данными?
00
Вопрос или проблема У меня есть набор данных временных рядов, который мне нужно вручную пометить для обучения с учителем. То, что я сейчас делаю, это использую Excel для построения графиков, и когда я вижу нужный мне паттерн, я навожу курсор на данные
Data Science
Строка в число в случае наличия миллионов уникальных значений
00
Вопрос или проблема В настоящее время я работаю над предварительной обработкой больших наборов данных для целей машинного обучения. У меня возникли трудности с кодированием строк в числа. У меня есть набор данных с несколькими транзакциями блокчейна
Data Science
Как кодировать и масштабировать IP-адреса в качестве входных данных для моделей машинного обучения
00
Вопрос или проблема В настоящее время я работаю над обнаружением аномалий при проведении транзакций. В качестве части данных, которые я извлек, у меня есть IP-адреса лиц, совершивших транзакцию. Поскольку IP-адрес не имеет связного смысла и является произвольным
Data Science
Настройте функцию потерь для генерации музыки с помощью LSTM (?)
00
Вопрос или проблема Мне нужно выполнить проект по генерации музыки для курса глубокого обучения, который я прохожу в этом семестре, и я использую Pytorch. Датасет состоит из песен в формате midi, и я использую библиотеку python mido для извлечения данных из каждой песни.
Data Science
параллельная работа с KNN в Python
00
Вопрос или проблема У меня есть вопрос, связанный с параллельной работой на Python. Как я могу использовать Processors =1,2,3… в алгоритме k ближайших соседей, когда K=1, 2, 3,.. для нахождения изменения времени, затраченного на выполнение, ускорения и эффективности.
Data Science
Предобработка для детекции мелких объектов
00
Вопрос или проблема В настоящее время я работаю над проектом по обнаружению объектов, в котором я пытаюсь обнаружить очень маленькие объекты 50×50 в 2k изображении. EfficientDet дает очень низкий результат, если я просто использую сырые аннотации и начинаю обучение.
Data Science
Обработка большого набора данных, состоящего из файлов npy
00
Вопрос или проблема У меня есть большое количество файлов npy (448 файлов), каждый из которых состоит примерно из 12 тысяч кадров (изображения RGB 150×150), которые вместе составляют входные данные для моей нейронной сети (X).
Data Science
Предварительная обработка категориальных данных для обучения алгоритма
00
Вопрос или проблема У меня есть учебный набор данных, где значения столбца “Выход” зависят от трех столбцов (которые являются категориальными [без упорядочивания]). Inp1 Inp2 Inp3 Выход A,B,C AI,UI,JI Яблоко,Бат,Собака Животные L,M,N LI,DO,LI
Data Science
Прогнозирование спроса в логистике с 20 000 различными временными рядами
00
Вопрос или проблема Я пытаюсь решить очень сложную задачу и буду признателен за вашу помощь. В моей организации есть множество различных товаров, которые могут потребоваться нашим клиентам. Эти товары также могут быть возвращены на наши склады.
Data Science
Предобработка текста для обнаружения двух слов без разделяющего пробела (или разделённых дефисом).
00
Вопрос или проблема Предположим, у меня есть текстовый корпус с неконсистентно написанными биграммами. Примером может быть “би грам”, “би-грам”, “биграм”. Существует ли какой-либо стандартный метод предварительной обработки
Data Science
Эффективный способ очистить 8752 изображения от очень похожих.
00
Вопрос или проблема У меня есть 8752 картинки, которые были получены из, более или менее, часового видеозаписи с CCTV с помощью скрипта на Python, снимающего скриншоты. Мой руководитель сказал мне очистить данные от примерно схожих.