dataset
Data Science
Вопрос или проблема В настоящее время я использую Orange Data Mining для анализа спектров Рамана. Мне нужно проанализировать порошки неизвестных соединений, и у меня есть несколько спектров известных соединений (референсов). Я хотел бы знать, возможно
Data Science
Вопрос или проблема Я совершенно новый в области науки о данных, так что, пожалуйста, будьте снисходительны. У меня есть набор данных, который содержит записи о случаях возникновения пожаров за последние 35 лет (+-700.000 строк).
Data Science
Вопрос или проблема Я попробовал простой алгоритм для анонимизации своих данных, используя технику деидентификации. Но код не работает для меня. Я хочу анонимизировать данные, слегка изменив значения. Образец данных доступен здесь import pandas as pd
Data Science
Вопрос или проблема Каковы подводные камни такого подхода и почему это плохая практика? Может ли так случиться, что модель начинает запоминать изображения “наизусть” вместо того, чтобы понимать лежащую в основе логику?
Data Science
Вопрос или проблема У меня есть 2 вопроса касательно всей темы набора данных в машинном обучении, и я был бы рад получить ответ 🙂 1. Почему неправильно вычислять и использовать средние значения и стандартные отклонения тестового набора?
Data Science
Вопрос или проблема Удаление выбросов из одноберных данных можно легко выполнить, убирая точки, которые находятся за пределами диапазона IQR. Но как должен проходить процесс обнаружения и удаления выбросов, если набор данных состоит из нескольких измерений?
Data Science
Вопрос или проблема Я собираю данные в базе данных через php из apache. Меня интересует обнаружение паттернов в каждом столбце на данный момент. Например, ручное исследование данных показывает, что паттерн phpmyadmin встречается в различных формах и написании
Data Science
Вопрос или проблема У меня есть множество проектов для работы, которые в значительной степени не связаны друг с другом, за исключением того, что они используют одни и те же данные, которые занимают довольно много места на диске в формате csv.
Data Science
Вопрос или проблема У меня есть система в виде черного ящика, которая имеет два правильных вывода для одного входного образца. Теперь я хочу обучить нейронную сеть, чтобы она генерировала хотя бы один из правильных выводов для этого входного образца.
Data Science
Вопрос или проблема У меня есть набор данных, который сводится к трем столбцам: 1. Название поставщика 2. Количество транзакций с поставщиком 3. Общая стоимость этих транзакций. Я пытаюсь найти лучший способ ранжирования всех поставщиков на основе этих
Data Science
Вопрос или проблема Я хочу преобразовать входные данные, доступные в формате файла C4.5, в дата-фрейм R. Набор данных можно скачать по следующей ссылке https://archive.ics.uci.edu/ml/machine-learning-databases/communities/ и он доступен в виде файлов .
Data Science
Вопрос или проблема Я ищу публичный набор данных изображений, которые отличаются друг от друга лишь незначительно, так что после применения PCA их можно будет реконструировать с небольшой ошибкой из очень небольшого количества коэффициентов PCA.
Data Science
Вопрос или проблема Я пытаюсь разобраться, как обработать данные и смоделировать следующий сценарий: Посетители ресторана оценивают качество обслуживания по шкале от 1 до 10. У меня есть данные о взаимодействиях между официантами и клиентами.
Data Science
Вопрос или проблема Я узнал, что такие инструменты, как Pachyderm, версионируют данные, но я не вижу никакой разницы между этим инструментом и Git. Я узнал из этого поста, что: Он хранит все ваши данные в центральном доступном месте Он обновляет все зависимые
Data Science
Вопрос или проблема Мне нужен набор данных с дискретными контролями на более высоком уровне и непрерывными на более низком. Примером могут служить робототехника или автономия, где решения на более высоком уровне – это такие действия, как остановка или поворот.
Data Science
Вопрос или проблема Я обучил свой классификатор на изображениях с смесью нескольких классов на каждом изображении, например, A-F. Классификатор способен (почти) правильно сегментировать эти классы на изображениях. Теперь у меня есть больше данных с изображениями, показывающими класс G.
Data Science
Вопрос или проблема Я веду дебаты с кем-то по поводу проблемы, где есть дубликаты по признакам (т.е. $ X_1 = X_2 $, но $ Y_1 != Y_2 $). С моей точки зрения, мы должны сохранить эти данные, так как они могут быть показательными и, следовательно, интересными
Data Science
Вопрос или проблема Я пытаюсь создать поддельные данные для кафе. У меня есть две характеристики: возраст и меню. Меню включает в себя различные типы напитков, таких как кофе [латте, эспрессо, мокко и т.д.], чай [молочный чай, лимонный чай], молоко [свежие
Data Science
Вопрос или проблема Я работаю над кодом регрессии с использованием нейронной сети. Набор данных включает 14 признаков в диапазоне значений от -1 до 1, в то время как целевая переменная изменяется от (0.000759) до (1100). Целевые значения масштабируются тремя методами.
Data Science
Вопрос или проблема Я работаю над проектом машинного обучения для прогнозирования победителя матчей по кабадди с использованием набора данных. Одной из важных характеристик является состав команды. У меня есть столбец в DataFrame, который содержит идентификаторы