Подготовка Дата Сета

 AI Fine Tuning Qwen2.5

Рекомендации по подготовке датасета (JSONL)

Формат файла: Сохраняйте эти примеры в файл с расширением .jsonl (каждый JSON-объект на новой строке). Это стандартный формат для скриптов fine-tuning (например, через llama-factory или axolotl, которые отлично работают с Qwen).

Масштабирование: Для эффективного fine-tuning 7B модели вам понадобится минимум 300–500 таких качественных примеров.

Напишите Python-скрипт, который генерирует шаблоны show ip route.

Случайным образом подменяйте IP-адреса, добавляйте или удаляйте строки, создавая как "здоровые" (Negative samples), так и "больные" (Positive samples) состояния.

Соотношение в датасете: ~70% примеров с ошибками (разных типов) и ~30% примеров, где модель должна ответить {"error_type": "None", "severity": "Normal", "analysis": "Ошибок не обнаружено..."}. Это предотвратит галлюцинации, когда модель начнет искать ошибки там, где их нет.

Экранирование: Обратите внимание, что в поле content ассистента строка JSON начинается с { и использует экранированные кавычки \". При генерации датасета через Python используйте json.dumps(response_dict, ensure_ascii=False), чтобы избежать ошибок с экранированием.


https://chat.qwen.ai/s/t_75661d68-9a80-49bc-a8af-5e05245e14c5?fev=0.2.64


Модели для fine tuning https://huggingface.co/models?sort=trending&search=qwen


AI Fine Tuning Qwen2.5





Комментарии

Популярные сообщения из этого блога

Рекомендуемый размер датасета

Fine Tuning Data Set

Адреса сетей в JSON