Data Science
Структура проекта – многие проекты используют один и тот же большой набор данных.
00
Вопрос или проблема У меня есть множество проектов для работы, которые в значительной степени не связаны друг с другом, за исключением того, что они используют одни и те же данные, которые занимают довольно много места на диске в формате csv.
Data Science
Обучение нейронной сети с ДВУМЯ возможными правильными выходами для одного входа
00
Вопрос или проблема У меня есть система в виде черного ящика, которая имеет два правильных вывода для одного входного образца. Теперь я хочу обучить нейронную сеть, чтобы она генерировала хотя бы один из правильных выводов для этого входного образца.
Data Science
Как на нормализацию влияют выбросы? И как их избежать?
00
Вопрос или проблема У меня есть набор данных, который сводится к трем столбцам: 1. Название поставщика 2. Количество транзакций с поставщиком 3. Общая стоимость этих транзакций. Я пытаюсь найти лучший способ ранжирования всех поставщиков на основе этих
Data Science
Импорт файла C4.5 в датафрейм R
00
Вопрос или проблема Я хочу преобразовать входные данные, доступные в формате файла C4.5, в дата-фрейм R. Набор данных можно скачать по следующей ссылке https://archive.ics.uci.edu/ml/machine-learning-databases/communities/ и он доступен в виде файлов .
Data Science
Набор данных с чрезвычайно низкоразмерными изображениями для PCA
00
Вопрос или проблема Я ищу публичный набор данных изображений, которые отличаются друг от друга лишь незначительно, так что после применения PCA их можно будет реконструировать с небольшой ошибкой из очень небольшого количества коэффициентов PCA.
Data Science
Как построить модель, в которой несколько точек данных способствуют результату
00
Вопрос или проблема Я пытаюсь разобраться, как обработать данные и смоделировать следующий сценарий: Посетители ресторана оценивают качество обслуживания по шкале от 1 до 10. У меня есть данные о взаимодействиях между официантами и клиентами.
Data Science
В чем разница между Pachyderm и Git?
00
Вопрос или проблема Я узнал, что такие инструменты, как Pachyderm, версионируют данные, но я не вижу никакой разницы между этим инструментом и Git. Я узнал из этого поста, что: Он хранит все ваши данные в центральном доступном месте Он обновляет все зависимые
Data Science
Набор данных для многомасштабного управления с высокими дискретными и низкими непрерывными управлениями
00
Вопрос или проблема Мне нужен набор данных с дискретными контролями на более высоком уровне и непрерывными на более низком. Примером могут служить робототехника или автономия, где решения на более высоком уровне – это такие действия, как остановка или поворот.
Data Science
Как правильно обучаться на расширенном наборе данных
00
Вопрос или проблема Я обучил свой классификатор на изображениях с смесью нескольких классов на каждом изображении, например, A-F. Классификатор способен (почти) правильно сегментировать эти классы на изображениях. Теперь у меня есть больше данных с изображениями, показывающими класс G.
Data Science
Должен ли я удалить дубликаты по признакам, но без цели?
00
Вопрос или проблема Я веду дебаты с кем-то по поводу проблемы, где есть дубликаты по признакам (т.е. $ X_1 = X_2 $, но $ Y_1 != Y_2 $). С моей точки зрения, мы должны сохранить эти данные, так как они могут быть показательными и, следовательно, интересными
Data Science
Как подделать данные на основе условия и веса
00
Вопрос или проблема Я пытаюсь создать поддельные данные для кафе. У меня есть две характеристики: возраст и меню. Меню включает в себя различные типы напитков, таких как кофе [латте, эспрессо, мокко и т.д.], чай [молочный чай, лимонный чай], молоко [свежие
Data Science
разный диапазон целевых значений в нейронной сети
00
Вопрос или проблема Я работаю над кодом регрессии с использованием нейронной сети. Набор данных включает 14 признаков в диапазоне значений от -1 до 1, в то время как целевая переменная изменяется от (0.000759) до (1100). Целевые значения масштабируются тремя методами.
Data Science
Как обрабатывать столбец значений типа int, разделенных запятыми, как строку в наборе данных для обучения модели?
00
Вопрос или проблема Я работаю над проектом машинного обучения для прогнозирования победителя матчей по кабадди с использованием набора данных. Одной из важных характеристик является состав команды. У меня есть столбец в DataFrame, который содержит идентификаторы
Data Science
Является ли набор данных линейно разделимым, если его можно разделить только с помощью нескольких гиперпланов?
00
Вопрос или проблема Например, в статье Википедии о линейной разделимости приведен следующий пример: Говорится: “Следующий пример требует двух прямых линий и, следовательно, не является линейно разделимым”. С другой стороны, в книге Бишопа “
Data Science
Что означает, что обучающие данные генерируются вероятностным распределением по наборам данных?
00
Вопрос или проблема Я читал книгу “Глубокое обучение” и наткнулся на следующий абзац (страница 109, второй абзац): Данные для обучения и тестирования генерируются распределением вероятностей по наборам данных, называемым процессом генерации данных.
Data Science
Как можно генерировать аномалии в наборе данных?
00
Вопрос или проблема Я создаю модель TensorFlow для выявления аномалий в данных смарт-метра электроэнергии и использую набор данных UK-DALE. Как я могу ввести аномалии в данные, чтобы протестировать модель? Аномалии обычно означают точки данных, которые
Data Science
Поиск предсказаний из 4 наборов данных
00
Вопрос или проблема Четвёртый набор данных содержит (train_data, test_data, previous_data и information_history_data). Цель состоит в том, чтобы найти рейтинг пользователя по кредиту в банке. Я запутался с первым шагом в этом процессе, потому что существует
Data Science
Как обеспечить обобщение при наличии очень-очень маленьких данных?
00
Вопрос или проблема У меня есть 21 наблюдение с более чем 10000 признаков. Проблема заключается в бинарной классификации, и данные сбалансированы. Используя метод выбора признаков, я нашел 5 признаков. Теперь у меня есть 21 наблюдение с 5 признаками.
Data Science
Исследовательский анализ данных на наборе, разделенном на победителей и проигравших
00
Вопрос или проблема У меня есть набор данных о характеристиках победителей теннисных турниров и о характеристиках проигравших: возраст_победителя, рейтинг_победителя / возраст_проигравшего, рейтинг_проигравшего Чтобы провести надлежащий EDA, мне нужно
Data Science
Низкоразмерные бинарные классификационные наборы данных
00
Вопрос или проблема Если кто-то хочет изучить аспекты нейронных сетей (например, в академической статье) и хочет экспериментировать с бинарной классификацией векторов в низкоразмерном пространстве (например, размерность = 2 или размерность < 6);