Data Science
Нечеткое сопоставление имен между двумя файлами Excel для заполнения сумм в Python
00
Вопрос или проблема В рамках моей стажировки я работаю над проектом, где мне нужно обработать два файла Excel: Файл 1 содержит имена и числа. Файл 2 содержит имена и пустую колонку для сумм. Цель — сопоставить имена из Файла 1 с именами в Файле 2 и правильно
Data Science
В RAG, для большого набора данных, какое сходство работает? Почему? как решить проблему с размером матрицы в косинусном сходстве?
00
Вопрос или проблема Если мы хотим реализовать RAG для большого набора данных, какое сходство работает? Почему? Также как справиться с проблемой размера матрицы в косинусном сходстве? Ответ или решение Вопрос о выборе подходящей меры сходства и обработке
Data Science
Как применяется сигнал вознаграждения к LLM во время обучения с подкреплением? Это все еще обратное распространение ошибки?
00
Вопрос или проблема Если я правильно понимаю, SFT похожа на предобучение: потери рассчитываются на каждый токен, и градиент*потери применяется для обратного распространения ошибки, суммируя по батчу. У RL одно скалярное вознаграждение для всего вывода.
Data Science
Почему в общем случае значение температуры 0.7 является значением по умолчанию для LLMs?
00
Вопрос или проблема Я недавно прочитал много документации и статей о крупных языковых моделях (LLMs) и пришел к выводу, что 0.7 чаще всего является значением по умолчанию для параметра температуры. Ниже представлены несколько примеров, где значение по умолчанию либо 0.
Data Science
Bertopic в сочетании с поэтапным анализом
00
Вопрос или проблема Мне интересно узнать о bertopic и его использовании в прогнозировании важности будущих тем. Это скорее вопрос для обсуждения, так как я пытаюсь разобраться в логике. Bertopic — это метод тематического моделирования, который использует
Data Science
Извлечение триплетов из немецких текстовых документов, относящихся к конкретной области.
00
Вопрос или проблема Я ищу решение для извлечения триплетов из немецких доменно-специфических документов для построения графа знаний. Документы сочетают в себе право и физику. Существует ограничение, которое позволяет использовать документы только локально –
Программное обеспечение
Язык модели, соответствующий определению Open Source Artificial Intelligence от OSI.
00
Вопрос или проблема Инициатива открытого кода (Open Source Initiative) выпустила свое определение открытого кода для искусственного интеллекта: https://opensource.org/ai/open-source-ai-definition Кстати, мне нужно встроить LLM в мое Android-приложение
Data Science
Модель кодирования LLM цитируется в статье ACM, но не хватает деталей.
01
Вопрос или проблема В этой статье An Exploration of Large Language Models in Malicious Source Code Detection упоминается “code-mutl-model”, но они не предоставляют информацию о происхождении этой модели (аналогично code-llama).
Программное обеспечение
Как использовать краудсорсинг для получения ответов AICore LLM на различных устройствах Android
00
Вопрос или проблема Контекст Дорогие телефоны, такие как последние премиальные устройства Pixel/Samsung/Motorola/Xiaomi/Realme, имеют встроенные LLM, доступные для приложений через Google AI Edge SDK / AICore для Android, они могут отвечать на запросы
Data Science
Обнаружение ссылок и цитат в документах
00
Вопрос или проблема Я ищу решение для обнаружения ссылок и цитат в документах. Например, ссылка выглядит как “[..] относится к разделу 3.1 документа XY“. Насколько я знаю, есть два подхода к решению этой задачи: –
Программное обеспечение
Тестирование LLM E2E
00
Вопрос или проблема Какие бесплатные и платные инструменты можно использовать для тестирования приложений LLM – Тестирование интерфейса пользователя LLM Тестирование API LLM Тестирование производительности LLM Какие факторы следует учитывать при
Программное обеспечение
Какие существуют альтернативы для langchain в Python?
00
Вопрос или проблема Какие есть альтернативы для Langchain на Python? Библиотека, являющаяся абстракцией для взаимодействия с другими библиотеками, такими как OpenAI’s. https://github.com/deepset-ai/haystack — это довольно популярная альтернатива Langchain.
Data Science
Тонкая настройка LLM с ограниченным количеством документов и иерархией
00
Вопрос или проблема Привет, энтузиасты LLM. Интересно, есть ли современные подходы к тонкой настройке модели в соседнем проекте, если: область документов ограничена (но больше, чем просто несколько), эти документы регулярно имеют взаимосвязи.
Data Science
Как направить приложение для работы с текстом на следование правилам из файла и извлечение данных из другого файла?
00
Вопрос или проблема Как обрабатывать сложные файлы RAG локально? Сложные файлы RAG Привет, я работаю над проектом, связанным с созданием чат-приложения на Streamlit, которое позволяет пользователям (владельцам проектов) продвигать свои проекты на различных
Data Science
Научите LLM генерировать код с использованием конкретной библиотеки.
00
Вопрос или проблема Мне интересно узнать, после того как я увидел хорошие примеры кода, созданные Github copilot. Я задаюсь вопросом, могу ли я создать агента, который в основном принимает команды на обычном английском и генерирует код на основе одной конкретной библиотеки.
Программное обеспечение
Есть ли альтернативы langchain?
00
Вопрос или проблема Существуют ли альтернативы для langchain на Python? Библиотека, которая является абстракцией для взаимодействия с другими библиотеками, такими как OpenAI. Ответ или решение Альтернативы Langchain для Python: Подробный Анализ Вопрос
Программное обеспечение
Конвертация данных экспорта ChatGPT из формата JSON в разговоры Markdown
00
Вопрос или проблема В OpenAI ChatGPT можно скачать дамп данных. Перейдите в правый верхний угол, чтобы открыть параметры, нажмите “Настройки”, затем “Управление данными” и затем “экспорт”. Вы получите ссылку для скачивания.
Программное обеспечение
Плагин Visual Studio для сохранения ответов Github Copilot
00
Вопрос или проблема По сути, это идентично этому браузерному расширению для ChatGPT, за исключением того, что это плагин/дополнение для Visual Studio, который обрабатывает вывод Github Copilot. Одним из недостатков Copilot является то, что вы не можете
Программное обеспечение
Расширение для браузера для сохранения разговора с ChatGPT в формате Markdown
00
Вопрос или проблема В образовательных целях мне нужно отслеживать разговоры с ChatGPT, поэтому я хочу сохранять их в виде файлов Markdown. Он должен интегрироваться в браузер, будь то Firefox, Chrome или Opera. Он сохраняет один чат как один файл Markdown.
Программное обеспечение
Какова была бы лучшая рекомендация для инструмента, который суммирует книги, используя оглавление?
00
Вопрос или проблема Это всё, я ищу инструмент, который поможет мне кратко изложить каждую главу/раздел книги независимо (с некоторым контекстом предыдущих глав, как если бы вы её читали). Сначала я хотел бы начать с чтения pdf-файлов.