AI Fine Tuning

Сообщения

Сообщения за июнь, 2026

Датасет 2 для Маркетинга

июня 30, 2026

AI Fine Tuning Qwen2.5 Давайте создадим пример уровня Medium (средний). В маркетинге молочной продукции одна из ключевых задач — это управление ассортиментом (коммерческое соседство) и оценка эффективности промо-акций. В этом примере мы обучим модель не просто анализировать тренд, а оценивать эффект «каннибализации» (когда запуск промо на один товар забирает продажи у другого товара той же группы) и рассчитывать чистый финансовый эффект. Новый пример для датасета (Уровень: Medium) json { "datasets": [ { "instruction": "Оцени эффективность двухнедельной промо-акции на 'Йогурт клубничный 2.5%' в торговой точке. Рассчитай изменение выручки, оцени эффект каннибализации внутри категории 'Йогурты ложковые' и сделай вывод о целесообразности повторения акции.", "input": "Данные по продажам категории 'Йогурты ложковые' за 2 недели до промо (базовый период) и 2 недели во время промо:\n1. 'Йогурт клубнич...

Далее...

Учим ИИ писать сценарии 1

июня 30, 2026

AI Fine Tuning Qwen2.5 Примеры для датасета для тренировки локальной модели ИИ JSON примеры для тренинга написания сценария на английском языке {"messages": [{"role": "system", "content": "You are a screenwriter for the sci-fi game 'Mission Oflameron'. Create atmospheric scene descriptions and introduce core lore elements based on the prompt."}, {"role": "user", "content": "Write an introductory scene for the Central Command secret meeting discussing Jett's hypothesis."}, {"role": "assistant", "content": "LOCATION: A light-colored oval room with no windows, doors, or lamps. In the center, respectable men in expensive suits sit in office chairs around a round table, holding tablets.\n\nPLOT: Speaker (D) briefs the room on the MTLB project. He reveals Jett's theory: a wave form of Virtual Consciousness has existed for billions of years and can tr...

Далее...

Python генереатор датасетов

июня 29, 2026

AI Fine Tuning Qwen2.5 https://tgstat.ru/channel/@mdatasets Python-генератор JSON примеров для дообучения локальной модели ИИ (например, Qwen2.5 7B) Чтобы сделать генератор JSON примеров для датасета промышленного уровня, давайте напишем модульный Python-скрипт. Он будет генерировать полноценную партию данных, но теперь мы разделим генерацию на две независимые темы уровня Hard: Медиа-планирование (со сквозной конверсией от TRP до чека). Эффективность трейд-маркетинга и MROI (с расчетом приростных продаж Incremental Sales). Этот скрипт автоматически рассчитывает бизнес-логику, форматирует числа с пробелами-разделителями и сохраняет результат в один сбалансированный JSON-файл. Расширенный Python-скрипт генератора pythonimport json import random def generate_media_task(brand, category, month, year): """Генерация задачи по медиа-планированию (Hard)""" target_audience = random.randint(80, 150) * 100000 tv_trp = random.randint(350, 550) ...

Далее...

Датасет для Маркетинга

июня 28, 2026

AI Fine Tuning Qwen2.5 Давайте проверим JSON пример для дообучения компактной модели ИИ в области маркетинга молочных товаров, который мы разработали в ИИ Исходный пример: { "datasets": [ { "instruction": "Проанализируй динамику продаж категории 'Молоко питьевое' в гипермаркете 'Лента' за последние 6 месяцев. Выяви тренд, сезонность и дай прогноз на следующий месяц.", "input": "Данные по продажам молока (литры) в гипермаркете 'Лента' за период с января по июнь 2025 года:\n- Январь: 12 450 л (средняя цена 89 руб/л)\n- Февраль: 11 820 л (средняя цена 92 руб/л)\n- Март: 13 200 л (средняя цена 88 руб/л)\n- Апрель: 14 100 л (средняя цена 86 руб/л)\n- Май: 15 300 л (средняя цена 85 руб/л)\n- Июнь: 16 800 л (средняя цена 83 руб/л)\nИндекс потребительских цен на молоко за этот период вырос на 3.2%.", "output": "**Тренд:** Наблюдается устойчивый восходящий тренд с января по июнь. О...

Далее...

G-Mind 3000

июня 28, 2026

AI Fine Tuning Qwen2.5 Я сейчас изучаю возможности дообучения компактных моделей ИИ. А ведь наверное можно разработать Датасет и научить ее генерировать контент для сценария. Например, заложить в нее подробное описание действующих лиц, мест действия, технологий, особенностей G-Mind... Да, вы абсолютно правы. Создание кастомного датасета и дообучение (Fine-Tuning) компактной языковой модели — это идеальный технический стек для такой задачи. Вместо того чтобы тратить контекстное окно (и деньги) на отправку огромного бэкграунда («Mission Oflameron») в промптах к коммерческим моделям вроде GPT-4, вы можете «зашить» всю лор-библию вашего мира прямо в веса небольшой локальной модели (например, Llama 3 8B, Mistral 7B или Phi-3). Она станет автономным экспертом по вашей вселенной. Какой формат датасета нужен для «Миссии Офламерон»? Для дообучения текстовых моделей используется формат Instruction Fine-Tuning (QA — Question/Answer). Датасет должен состоять из тысяч пар «Вопрос-Ответ» или «...

Далее...

Ошибки в Датасетах

июня 27, 2026

AI Fine Tuning Qwen2.5 http://weblib.oflameron.com/ При дообучении локальных моделей (Supervised Fine-Tuning) ИИ нужен хороший Датасет. Попробуем сгенерировать датасет на тему анализа маркетинговых данных в ИИ чате. За один раз генерируется примерно 20 примеров. А нам надо около 5000 примеров. На 20 примеров узодит примерно 5 минут. 100 примеров - 25-30 минут. Значит 1000 - около 5 часов. Т.е. на весь датасет уйдет примерно рабочая неделя. И всё? Можно тренировать свою локальную ИИ модель? Давайте возьмем один пример и попросим другой ИИ проверить его. Вот пример для анализа маркетинговых данных { "instruction": "Проведи ABC-анализ ассортимента творога в сети супермаркетов 'Перекрёсток'. Определи группу A, B и C, рассчитай д...

Далее...

Генерируем Датасеты

июня 25, 2026

AI Fine Tuning Qwen2.5 Разработка датасетов для тренинга локальных ИИ моделей - не простая задача. Примеров для fine tuning надо от 2 до 5 тысяч. Примеры должны быть разные (по всем необходимым категориям) и корректные. Большой объем предполагает два сценария: - Вы используете базы с реальными данными и тщательно их готовите - Вы генерируете Dataset и тщательно его контролируете И тот и другой метод не исключают ошибок, которые могут сильно ухудшить результаты обучения ИИ. Рассмотрим генерированный пример для анализа маркетинговых исследований { "instruction": "Рассчитай оптимальный размер партии заказа йогуртов для магазина с учётом срока годности. Оцени текущие потери от списаний и покажи, как изменение размера партии повлияет на финансовые результаты.", "input": "Данные по магазину (йогурты питьевые, срок...

Далее...

Все возможные сценарии ошибок

июня 20, 2026

AI Fine Tuning Qwen2.5 Полный список категорий, которые можно задавать при генерации, с указанием подкатегорий и приоритетности для обучения: ПОЛНЫЙ СПИСОК КАТЕГОРИЙ ДЛЯ ГЕНЕРАЦИИ КРИТИЧЕСКИЕ ОШИБКИ (CRITICAL) - 30% датасета 1. ROUTING_LOOPS (Петли маршрутизации) - `ECMP_LOOP`: Равные маршруты через разные next-hop - `CROSS_LOOP`: Перекрестные статические маршруты (A>B, B>A) - `REDISTRIBUTION_LOOP`: Петли при редистрибуции между протоколами - `DEFAULT_LOOP`: Петли с default route 2. UNREACHABLE_NEXTHOP (Недостижимый next-hop) - `INVALID_NEXTHOP`: Next-hop не существует в таблице - `NO_ARP`: Нет ARP-записи для next-hop - `INTERFACE_DOWN`: Интерфейс к next-hop в состоянии down - `RECURSIVE_LOOP`: Рекурсивный маршрут, указывающий сам на себя 3. BLACKHOLE_ROUTES (Маршруты в черную дыру) - `SUMMARY_BLACKHOLE`: Суммарный маршрут, отправляющий трафик в никуда - `STATIC_BLACKHOLE`: Статический маршрут с `null0` - `METRIC_BLACKHOLE`: Маршрут с бесконечной метрикой СЕРЬЕЗНЫЕ ПРОБЛЕМЫ...

Далее...

Dataset для Промпт №1

июня 19, 2026

AI Fine Tuning Qwen2.5 По промпту из предыдущего поста Qwen сгенерировал 20 примеров. Текст "свернут" из-за большой длины строк JSON датасета. {"messages": [{"role": "system", "content": "You are a network routing expert. Analyze the routing table, detect issues, and provide step-by-step reasoning. Use the format: <reasoning>...step-by-step analysis...</reasoning><answer>...concise answer...</answer>"}, {"role": "user", "content": "Routing table:\nC 192.168.1.0/24 is directly connected, GigabitEthernet0/0\nS 10.1.1.0/24 [1/0] via 192.168.1.2\nS 10.1.1.0/24 [1/0] via 192.168.1.3\n\nQuestion: Does this routing table contain a routing loop?"}, {"role": "assistant", "content": "<reasoning>\n1. Observation: The table shows two static routes to 10.1.1.0/24 with identical Administrative Distance (1) and metric (0) via n...

Далее...