Бывший инженер OpenAI Андрей Карпатый представил на GitHub новый проект nanochat.
Это открытый набор инструментов, который позволяет обучить собственную языковую модель почти с нуля.
Карпатый показал, что создать свой ChatGPT-подобный бот теперь может почти любой разработчик. Nanochat включает всё необходимое: токенизатор, скрипты для обучения, код для запуска чата и даже веб-интерфейс, где можно сразу пообщаться с моделью.
Что включает проект
► Токенизатор: новая реализация на Rust
► Предварительная подготовка: корпус FineWeb для оценки CORE и других метрик
► Среднесрочное обучение; диалоги пользователя с помощником (SmolTalk), тесты и данные использования инструментов
► SFT (Supervised Fine-Tuning): проверка знаний мира, математики (GSM8K) и программирования (HumanEval)
► Обучение с использованием GRPO на задачах GSM8K
► Механизм вывода. поддерживает кэширование, инструментальные вызовы (например, интерпретатор Python), взаимодействие с CLI и WebUI в стиле ChatGPT
► Автоотчёты. система сама формирует Markdown-карточки с результатами и игровыми метриками
Чтобы обучить такую модель, понадобится сервер с восемью видеокартами Nvidia H100. На это уйдёт около 4 часов и примерно $100 при аренде оборудования в облаке. Запуск происходит командой speedrun.sh.
За 12 часов и примерно $1000 модель сможет превзойти GPT-2 по метрике CORE и способна решать базовые задачи по математике, программированию и тестам с несколькими вариантами ответов. [Habr]
Тем временем Apple не может научить разговаривать Siri…