Unix-подобные системы
отрежьте мой .fam файл, используя .txt файл с именами
00
Вопрос или проблема У меня есть файл .fam в формате plink, он выглядит так 1 I001.HO 0 0 1 1 2 I002.HO 0 0 1 1 3 IREJ-T006.HO 0 0 1 1 4 IREJ-T009.HO 0 0 1 1 5 IREJ-T022.HO 0 0 1 1 6 IREJ-T023.HO 0 0 1 1 7 IREJ-T026.HO 0 0 1 […]
Data Science
Ищу наборы данных о информации об автомобилях для машинного обучения.
00
Вопрос или проблема Я начинаю проект в области машинного обучения, который требует обширного набора данных о деталях автомобилей. Цель состоит в том, чтобы обучить модель, которая сможет идентифицировать и классифицировать различные автомобильные детали
Data Science
Почему неправильно обучать и тестировать модель на одном и том же наборе данных?
00
Вопрос или проблема Каковы подводные камни такого подхода и почему это плохая практика? Может ли так случиться, что модель начинает запоминать изображения “наизусть” вместо того, чтобы понимать лежащую в основе логику?
Data Science
Удаление выбросов из многомерного набора данных и Увеличение данных
00
Вопрос или проблема Удаление выбросов из одноберных данных можно легко выполнить, убирая точки, которые находятся за пределами диапазона IQR. Но как должен проходить процесс обнаружения и удаления выбросов, если набор данных состоит из нескольких измерений?
Data Science
Azure Devops для Data Science
00
Вопрос или проблема Моя команда (7 человек) переходит на git, используя Azure Devops. Я немного запутался, как это настроить для команды по работе с данными. Я использовал его для личных проектов, которые довольно просты: разрабатываешь в одной ветке
Data Science
Корреляция пропущенных значений
00
Вопрос или проблема Стоит ли изучать корреляцию пропусков между столбцами? Если у вас сильно коррелированные отсутствующие значения (скажем, между двумя столбцами, A и B), как это изменит или повлияет на ваш взгляд на данные? Добавляет ли это новую информацию при анализе данных?
Программное обеспечение
Программное обеспечение (веб-приложение или iOS) для управления и визуализации данных и взаимосвязей для продуктов и блюд.
00
Вопрос или проблема Я хотел бы поддерживать наборы данных о продуктах и визуализировать их связь с блюдами. Авокадо я бы использовал в салате или на кусочке хлеба. Апельсин я бы использовал для приготовления свежевыжатого сока или в салате.
Data Science
Кросс-валидация с однолассной классификацией в Python
00
Вопрос или проблема Я пытаюсь выполнить кросс-валидацию с использованием классификации одного класса – я использую библиотеку PyOD – но не знаю, делаю ли я это правильно. Точность слишком низка, и я также не могу вывести среднее и стандартное отклонение F1.
Data Science
Доброта на тестовом или обучающем наборе?
00
Вопрос или проблема Я разделил свой набор данных на обучающую (80%) и тестовую (20%) выборки. Обучил модель логистической регрессии на обучающем наборе. Теперь хочу проверить адекватность модели с помощью хи-квадрат теста на согласие, на каком наборе
Data Science
Структура проекта – многие проекты используют один и тот же большой набор данных.
00
Вопрос или проблема У меня есть множество проектов для работы, которые в значительной степени не связаны друг с другом, за исключением того, что они используют одни и те же данные, которые занимают довольно много места на диске в формате csv.
Data Science
Данные о поведении, необходимые для прогнозирования оттока.
00
Вопрос или проблема Я пытаюсь создать модель предсказания оттока клиентов, которая будет определять клиентов, которые, вероятно, уйдут. Я определяю ушедшего пользователя как того, кто не совершал транзакций в течение 60 дней. 90% всех транзакций происходят
Data Science
Как на нормализацию влияют выбросы? И как их избежать?
00
Вопрос или проблема У меня есть набор данных, который сводится к трем столбцам: 1. Название поставщика 2. Количество транзакций с поставщиком 3. Общая стоимость этих транзакций. Я пытаюсь найти лучший способ ранжирования всех поставщиков на основе этих
Data Science
В чем разница между Pachyderm и Git?
00
Вопрос или проблема Я узнал, что такие инструменты, как Pachyderm, версионируют данные, но я не вижу никакой разницы между этим инструментом и Git. Я узнал из этого поста, что: Он хранит все ваши данные в центральном доступном месте Он обновляет все зависимые
Data Science
Каков ваш опыт начала работы во фрилансе?
00
Вопрос или проблема Я исследую мир фриланса и хотел бы услышать от тех, кто только начинает или недавно начал. Хотя у меня еще нет профессионального опыта в области Data Science, я участвовал в нескольких дататонах и хакатонах и принимал участие во многих проектах.
Data Science
Современные библиотеки R и/или Python делают SQL устаревшим?
00
Вопрос или проблема Я работаю в офисе, где SQL Server является основой всего, что мы делаем, от обработки данных до их очистки и трансформации. Мой коллега специализируется на написании сложных функций и хранимых процедур для методической обработки входящих
Программное обеспечение
Поиск совета: возможные решения для нового программного портала
00
Вопрос или проблема В кратце, для чего используется программное обеспечение Мы управляем обширным сбором данных, обрабатываем сложные формы и опросы, а также предоставляем безопасную платформу для пользователей, чтобы они могли отправлять запросы, модификации и обязательные отчеты.
Data Science
Должен ли я продолжать учиться или это бесполезно для меня?
00
Вопрос или проблема Итак, у меня 16 лет опыта в развитии бизнеса, и в течение последних 8 лет я работал в компаниях, которые предлагают аутсорсинг услуг в области аналитики больших данных и исследования рынка. Если честно, эта область меня действительно
Data Science
Импорт данных в формате Excel в R/R Studio и использование пакета glmnet?
00
Вопрос или проблема У меня нет проблем с импортом данных формата Excel в R/R Studio и использованием всех других пакетов R, которые я использую. Но, когда я хочу использовать пакет glmnet для разработки модели регуляризации, я неизменно сталкиваюсь со
Data Science
Должен ли я удалить дубликаты по признакам, но без цели?
00
Вопрос или проблема Я веду дебаты с кем-то по поводу проблемы, где есть дубликаты по признакам (т.е. $ X_1 = X_2 $, но $ Y_1 != Y_2 $). С моей точки зрения, мы должны сохранить эти данные, так как они могут быть показательными и, следовательно, интересными
Программное обеспечение
Провайдер веб-почты, позволяющий легко мигрировать данные из Yahoo Mail.
00
Вопрос или проблема Эксперты выразили серьезную озабоченность по поводу политики конфиденциальности Yahoo Mail, поскольку она изменяется их новой материнской компанией, Oath. Обычно рекомендуется перейти на другого провайдера веб-почты.