dataset - ответы на вопросы - Page 5 of 7

Data Science

Сравните неизвестные спектры с эталоном.

00

Вопрос или проблема В настоящее время я использую Orange Data Mining для анализа спектров Рамана. Мне нужно проанализировать порошки неизвестных соединений, и у меня есть несколько спектров известных соединений (референсов). Я хотел бы знать, возможно

Data Science

Как объединить два временно зависимых набора данных?

00

Вопрос или проблема Я совершенно новый в области науки о данных, так что, пожалуйста, будьте снисходительны. У меня есть набор данных, который содержит записи о случаях возникновения пожаров за последние 35 лет (+-700.000 строк).

Data Science

Как написать пользовательский алгоритм деидентификации на Python?

00

Вопрос или проблема Я попробовал простой алгоритм для анонимизации своих данных, используя технику деидентификации. Но код не работает для меня. Я хочу анонимизировать данные, слегка изменив значения. Образец данных доступен здесь import pandas as pd

Data Science

Почему неправильно обучать и тестировать модель на одном и том же наборе данных?

00

Вопрос или проблема Каковы подводные камни такого подхода и почему это плохая практика? Может ли так случиться, что модель начинает запоминать изображения “наизусть” вместо того, чтобы понимать лежащую в основе логику?

Data Science

Почему было бы неправильно вычислять и использовать средние значения тестового набора?

00

Вопрос или проблема У меня есть 2 вопроса касательно всей темы набора данных в машинном обучении, и я был бы рад получить ответ 🙂 1. Почему неправильно вычислять и использовать средние значения и стандартные отклонения тестового набора?

Data Science

Удаление выбросов из многомерного набора данных и Увеличение данных

00

Вопрос или проблема Удаление выбросов из одноберных данных можно легко выполнить, убирая точки, которые находятся за пределами диапазона IQR. Но как должен проходить процесс обнаружения и удаления выбросов, если набор данных состоит из нескольких измерений?

Data Science

Как я могу выявить шаблоны и/или ключевые слова или фразы?

00

Вопрос или проблема Я собираю данные в базе данных через php из apache. Меня интересует обнаружение паттернов в каждом столбце на данный момент. Например, ручное исследование данных показывает, что паттерн phpmyadmin встречается в различных формах и написании

Data Science

Структура проекта – многие проекты используют один и тот же большой набор данных.

00

Вопрос или проблема У меня есть множество проектов для работы, которые в значительной степени не связаны друг с другом, за исключением того, что они используют одни и те же данные, которые занимают довольно много места на диске в формате csv.

Data Science

Обучение нейронной сети с ДВУМЯ возможными правильными выходами для одного входа

00

Вопрос или проблема У меня есть система в виде черного ящика, которая имеет два правильных вывода для одного входного образца. Теперь я хочу обучить нейронную сеть, чтобы она генерировала хотя бы один из правильных выводов для этого входного образца.

Data Science

Как на нормализацию влияют выбросы? И как их избежать?

00

Вопрос или проблема У меня есть набор данных, который сводится к трем столбцам: 1. Название поставщика 2. Количество транзакций с поставщиком 3. Общая стоимость этих транзакций. Я пытаюсь найти лучший способ ранжирования всех поставщиков на основе этих

Data Science

Импорт файла C4.5 в датафрейм R

00

Вопрос или проблема Я хочу преобразовать входные данные, доступные в формате файла C4.5, в дата-фрейм R. Набор данных можно скачать по следующей ссылке https://archive.ics.uci.edu/ml/machine-learning-databases/communities/ и он доступен в виде файлов .

Data Science

Набор данных с чрезвычайно низкоразмерными изображениями для PCA

00

Вопрос или проблема Я ищу публичный набор данных изображений, которые отличаются друг от друга лишь незначительно, так что после применения PCA их можно будет реконструировать с небольшой ошибкой из очень небольшого количества коэффициентов PCA.

Data Science

Как построить модель, в которой несколько точек данных способствуют результату

00

Вопрос или проблема Я пытаюсь разобраться, как обработать данные и смоделировать следующий сценарий: Посетители ресторана оценивают качество обслуживания по шкале от 1 до 10. У меня есть данные о взаимодействиях между официантами и клиентами.

Data Science

В чем разница между Pachyderm и Git?

00

Вопрос или проблема Я узнал, что такие инструменты, как Pachyderm, версионируют данные, но я не вижу никакой разницы между этим инструментом и Git. Я узнал из этого поста, что: Он хранит все ваши данные в центральном доступном месте Он обновляет все зависимые

Data Science

Набор данных для многомасштабного управления с высокими дискретными и низкими непрерывными управлениями

00

Вопрос или проблема Мне нужен набор данных с дискретными контролями на более высоком уровне и непрерывными на более низком. Примером могут служить робототехника или автономия, где решения на более высоком уровне – это такие действия, как остановка или поворот.

Data Science

Как правильно обучаться на расширенном наборе данных

00

Вопрос или проблема Я обучил свой классификатор на изображениях с смесью нескольких классов на каждом изображении, например, A-F. Классификатор способен (почти) правильно сегментировать эти классы на изображениях. Теперь у меня есть больше данных с изображениями, показывающими класс G.

Data Science

Должен ли я удалить дубликаты по признакам, но без цели?

00

Вопрос или проблема Я веду дебаты с кем-то по поводу проблемы, где есть дубликаты по признакам (т.е. $ X_1 = X_2 $, но $ Y_1 != Y_2 $). С моей точки зрения, мы должны сохранить эти данные, так как они могут быть показательными и, следовательно, интересными

Data Science

Как подделать данные на основе условия и веса

00

Вопрос или проблема Я пытаюсь создать поддельные данные для кафе. У меня есть две характеристики: возраст и меню. Меню включает в себя различные типы напитков, таких как кофе [латте, эспрессо, мокко и т.д.], чай [молочный чай, лимонный чай], молоко [свежие

Data Science

разный диапазон целевых значений в нейронной сети

00

Вопрос или проблема Я работаю над кодом регрессии с использованием нейронной сети. Набор данных включает 14 признаков в диапазоне значений от -1 до 1, в то время как целевая переменная изменяется от (0.000759) до (1100). Целевые значения масштабируются тремя методами.

Data Science

Как обрабатывать столбец значений типа int, разделенных запятыми, как строку в наборе данных для обучения модели?

00

Вопрос или проблема Я работаю над проектом машинного обучения для прогнозирования победителя матчей по кабадди с использованием набора данных. Одной из важных характеристик является состав команды. У меня есть столбец в DataFrame, который содержит идентификаторы