Data Science
Как выбрать выборку из набора данных с учетом заданной категориальной или числовой переменной на основе заданного произвольно выбранного распределения? (Python)
00
Вопрос или проблема Предположим, у меня есть набор данных за некоторый прошлый период. Теперь появляются новые данные, и для данной переменной в данных мы находим, что распределения изменились (например, с “возрастом”
Data Science
Прогнозирование временных рядов для продаж в нескольких магазинах с одновременными временными метками
00
Вопрос или проблема У меня есть набор данных по продажам, в котором каждый магазин имеет уникальный идентификатор. Набор данных содержит ежедневные данные о продажах для каждого магазина за период около двух лет. Я хочу построить модель прогнозирования
Data Science
Как использовать новый набор данных на предобученной модели нейронной сети?
00
Вопрос или проблема Я собрал набор данных, который хотел бы передать предобученной модели для выполнения некоторых прогнозов. Я ищу несколько шагов/процессов, которые могли бы направить меня в этом. Должен ли я дообучить? Если да, то что именно нужно дообучить?
Data Science
Как сбалансировать набор данных, извлеченный с помощью image_dataset_from_directory
00
Вопрос или проблема Я новичок в tensorflow, и сейчас я пытаюсь найти лучший способ сбалансировать классы в наборе данных, который я загружаю с помощью image_dataset_from_directory. Но я не нашёл способ это сделать. Я видел из разных источников, что SMOTE
Data Science
Какой алгоритм использовать для транзакционных данных
00
Вопрос или проблема Мне предоставили набор данных о транзакциях и попросили найти полезные идеи для бизнеса. Я совершенно нов в области машинного обучения и науки о данных и только начал работать с KMeans. Набор данных имеет следующие характеристики
Data Science
Небольшой бесплатный набор данных для 3D-реконструкции из 2D-изображений.
00
Вопрос или проблема Я пытаюсь начать кодировать 3D-реконструкцию изображений из 2D-изображений (то есть сопоставлять изображения с 3D-точечным облаком). Может кто-нибудь порекомендовать небольшой бесплатный набор данных для начала?
Data Science
Запрос на помощь в получении разнообразного набора данных по крикам для исследовательского проекта
00
Вопрос или проблема Я работаю над исследовательским проектом, направленным на классификацию детских哭ов в зависимости от их потребностей. Однако я столкнулся с трудностями в получении подходящего набора данных о哭ах. Единственный набор данных, к которому
Data Science
Ошибка загрузки и обучения на наборе данных “Команды речи” Tensorflow
00
Вопрос или проблема Я пытаюсь воспроизвести самую базовую версию этого примера Google LEAF. У меня возникли проблемы с загрузкой набора данных команд речи в Tensorflow. Я загружаю наборы данных как TFRecord: tfds.load('speech_commands', download='true'
Data Science
В чем разница между SMOTE до PCA и после PCA?
00
Вопрос или проблема Все мы знаем, что PCA (Анализ главных компонент) – это популярный статистический инструмент для уменьшения размерности в наборе данных. SMOTE (Метод синтетического увеличения выборки для меньшинства) позволяет генерировать данные
Data Science
Ищу наборы данных о информации об автомобилях для машинного обучения.
00
Вопрос или проблема Я начинаю проект в области машинного обучения, который требует обширного набора данных о деталях автомобилей. Цель состоит в том, чтобы обучить модель, которая сможет идентифицировать и классифицировать различные автомобильные детали
Data Science
Новости о дублирующем наборе данных
00
Вопрос или проблема Я ищу набор данных новостей с семантически дублирующимися новостными статьями. В основном все новостные статьи, которые говорят об одной и той же истории, должны быть сгруппированы. Истории могут быть сформулированы по-разному, но
Data Science
Как собрать обучающие данные для простых голосовых команд?
00
Вопрос или проблема Я пытаюсь создать модель машинного обучения для распознавания простых голосовых команд, таких как “вверх”, “вниз”, “влево” и т. д. При решении подобных задач, основанных на изображениях, я бы просто
Data Science
Несбалансированный набор данных для классификации изображений, лучше ли потерять образцы и сбалансировать его?
00
Вопрос или проблема Я занимаюсь бинарным классификатором изображений. Я использую сверточную нейронную сеть (CNN), чтобы предсказать, является ли изображение положительным или отрицательным. Проблема в том, что положительный класс составляет только 2%
Data Science
Сравните неизвестные спектры с эталоном.
00
Вопрос или проблема В настоящее время я использую Orange Data Mining для анализа спектров Рамана. Мне нужно проанализировать порошки неизвестных соединений, и у меня есть несколько спектров известных соединений (референсов). Я хотел бы знать, возможно
Data Science
Как объединить два временно зависимых набора данных?
00
Вопрос или проблема Я совершенно новый в области науки о данных, так что, пожалуйста, будьте снисходительны. У меня есть набор данных, который содержит записи о случаях возникновения пожаров за последние 35 лет (+-700.000 строк).
Data Science
Как написать пользовательский алгоритм деидентификации на Python?
00
Вопрос или проблема Я попробовал простой алгоритм для анонимизации своих данных, используя технику деидентификации. Но код не работает для меня. Я хочу анонимизировать данные, слегка изменив значения. Образец данных доступен здесь import pandas as pd
Data Science
Почему неправильно обучать и тестировать модель на одном и том же наборе данных?
00
Вопрос или проблема Каковы подводные камни такого подхода и почему это плохая практика? Может ли так случиться, что модель начинает запоминать изображения “наизусть” вместо того, чтобы понимать лежащую в основе логику?
Data Science
Почему было бы неправильно вычислять и использовать средние значения тестового набора?
00
Вопрос или проблема У меня есть 2 вопроса касательно всей темы набора данных в машинном обучении, и я был бы рад получить ответ 🙂 1. Почему неправильно вычислять и использовать средние значения и стандартные отклонения тестового набора?
Data Science
Удаление выбросов из многомерного набора данных и Увеличение данных
00
Вопрос или проблема Удаление выбросов из одноберных данных можно легко выполнить, убирая точки, которые находятся за пределами диапазона IQR. Но как должен проходить процесс обнаружения и удаления выбросов, если набор данных состоит из нескольких измерений?
Data Science
Как я могу выявить шаблоны и/или ключевые слова или фразы?
00
Вопрос или проблема Я собираю данные в базе данных через php из apache. Меня интересует обнаружение паттернов в каждом столбце на данный момент. Например, ручное исследование данных показывает, что паттерн phpmyadmin встречается в различных формах и написании