Что на самом деле привлекает(и что нет) в DeepSeek
Система DeepSeek Модель R1, выпущенная на прошлой неделе, вызвала шок в мире технологий. Как и многие из вас, мы в Every были очарованы недорогой, высокопроизводительной моделью китайского стартапа и инновациями, которые были необходимы для ее достижения.
Что касается последствий? Есть с чем считаться, и мы все еще только выясняем, на что способна эта новая модель. Инвесторы в основном посчитали, что появление R1 на сцене не было хорошей новостью для американских операторов AI, а акции Nvidia и других производителей чипов пострадали особенно сильно. Тем временем строители, в том числе некоторые из нас здесь, в Every, очень взволнованы.
DeepSeek R1 — это переход от «хорошо звучать» к «думать лучше»
Большинство больших языковых моделей (LLM) полагаются на обучение с подкреплением (RL) для уточнения того, насколько «полезными и безвредными» они звучат. Печально известно, что OpenAI использовала дешевую рабочую силу в Кении для маркировки и фильтрации токсичных выходных данных, тонко настраивая свои модели для создания более приемлемого языка.
DeepSeek R1 пошел по другому пути: вместо того, чтобы сосредотачиваться на том, чтобы звучать правильно, он сосредотачивается на том, чтобы быть правым, особенно в математике, программировании и логике. Вместо того, чтобы учиться на основе субъективных человеческих предпочтений, R1 следует ориентированному на рассуждения RL, которое вознаграждает модель только в том случае, если ее код компилируется и проходит тесты или если ее математические решения бесспорно верны. Поскольку «правильность» легче определить для этих задач, R1 может масштабировать свое обучение, не нуждаясь в армиях маркировщиков данных. Удивительно, но даже для более субъективных задач, таких как творческое письмо, этот акцент на логической последовательности, как правило, также дает лучшие результаты.
Скачок в возможностях и эффективности R1 был бы невозможен без базовой модели DeepSeek-V3, которая была выпущена в декабре 2024 года. V3 сама по себе большая — 671 миллиард параметров (для сравнения, GPT4-o, по слухам, 1,8 триллиона, или в три раза больше) — но при этом она удивительно экономична в использовании. Это связано с тем, что в V3 используется смешанный подход экспертов (MoE), где модель разделена на специализированные разделы, каждый из которых функционирует как «эксперт» в определенной области. Когда поступает запрос, «загорается» только экспертный раздел — около 5 процентов модели, или 37 миллиардов параметров. Это значительно снижает необходимую вычислительную мощность. В 2024 году MoE набрало обороты благодаря командам таких компаний, как Mistral, xAI и Databricks, которые показали, что они легко интегрируются, хорошо масштабируются и обеспечивают значительный прирост эффективности.
Кроме того, V3 внедрила прогнозирование нескольких токенов (MTP). Вместо того, чтобы предсказывать текст по одному слову за раз и вдохновленный идеями команды Meta FAIR (Fundamental AI Research) по созданию «лучших и быстрых больших языковых моделей с помощью прогнозирования нескольких токенов», он предсказывает несколько слов одновременно. Наконец, трюк под названием FP8 помогает V3 работать еще быстрее и дешевле, используя «округленные» числа (с более низкой точностью). Такой подход сокращает затраты на вычисления, использование памяти и зависимость от огромных кластеров графических процессоров, что особенно важно в эпоху контроля экспорта оборудования.
Важно отметить, что благодаря новому подходу R1 к дистилляции для поддержания производительности с моделями меньших размеров, эти продвинутые навыки рассуждения не требуют инфраструктуры размером с Google. Методы дистилляции DeepSeek позволяют использовать возможности R1 в более компактных версиях модели. Вы даже можете запустить дистиллированный вариант локально на своем MacBook Pro с помощью всего одной строки кода. В сочетании с лицензией с открытым исходным кодом эта эффективность привела к тому, что многие поставщики облачных услуг, такие как Groq, предоставили доступ к собственной версии модели R1. Наличие вариантов дает потребителям больше выбора, учитывая такие факторы, как скорость, надежность, цена и конфиденциальность.
Возможно, самым большим прорывом R1 является подтверждение того, что вам больше не нужны огромные дата-центры или тысячи маркировщиков, чтобы раздвинуть границы LLM. Если вы можете определить, что означает «правильность» в вашей области — будь то кодирование, финансы, медицинская диагностика или творческое письмо, — вы можете применить ориентированный на рассуждение RL для обучения или тонкой настройки своей собственной модели. Вы выбираете контрольные показатели; Вы контролируете цель «хорошо». Между тем, базовая архитектура V3 и оптимизация позволяют избежать больших затрат. Отделяя «производительность» от чистого масштаба и смещая ее в сторону четко определенных стандартов корректности, а также будучи готовым делиться своими инновациями, DeepSeek R1 предоставляет больше возможностей исследователям, предпринимателям и даже любителям — всем, кто готов экспериментировать над тем, как мы обучаем и оцениваем ИИ.
Добро пожаловать в эпоху пост-тренингов для стартапов
Обучение LLM можно разделить на два основных этапа: предтренинговый и посттренинговый. Этап предварительного обучения — это чрезвычайно дорогостоящий процесс, который включает в себя обучение общей модели на основе большого массива данных. Даже в случае с DeepSeek один цикл обучения стоит 6 миллионов долларов, в то время как по оценкам модель Llama 3 от Meta стоит 120 миллионов долларов. Снижение затрат на DeepSeek — это огромный прорыв, но они все еще слишком дороги для большинства организаций.
Большинство компаний за пределами больших лабораторий сосредотачиваются на пост-обучении: мы работаем на основе «предварительно обученной» модели, такой как Llama, чтобы обучить ее, чтобы она хорошо справлялась с нашими желаемыми задачами. Существует широко распространенное мнение, что языковые модели после обучения просто отображают данные из предварительного обучения, а это означает, что языковые модели могут интерполировать только планы или шаблоны рассуждений, наблюдаемые в ходе предварительного обучения. Я думаю, что теперь это явно опровергнуто. DeepSeek R1 показывает, что LLM могут учиться новым вещам непосредственно после обучения с помощью обучения с подкреплением (RL).
DeepSeek R1 представляет революционные методы постобучения, которые можно применять в различных программах с открытым исходным кодом, таких как LLama, что делает разработку ИИ более доступной и эффективной, особенно для небольших организаций. Использование обучения с подкреплением похоже на дрессировку собаки: вы даете ей награду каждый раз, когда она поступает правильно. Если вы можете автоматически генерировать вознаграждение, вы можете обучить ИИ выполнять задачу, даже не предоставляя ему множество примеров. ИИ может учиться на собственном опыте, а не только на человеческих примерах.
Традиционная тонкая настройка LLM требует обширных размеченных наборов данных, что создает барьеры для небольших команд. Методы DeepSeek R1 RL решают эту проблему, позволяя моделям тонко настраиваться на небольших специализированных наборах данных, которые легче собирать небольшим командам. Это особенно ценно в таких областях, как математика, где результаты могут быть автоматически проверены на соответствие известным решениям или спецификациям.
Организации с глубокими знаниями в предметной области могут использовать эти методы RL, создавая индивидуальные оценочные наборы и обучающие среды. Например, стартапы в сфере здравоохранения могут разрабатывать сценарии, имитирующие принятие клинических решений, в то время как финансовые учреждения могут разрабатывать функции вознаграждения на основе результатов управления рисками.
Ключевым преимуществом этих усовершенствований RL является их универсальная применимость к любой модели с открытым исходным кодом. Такая гибкость позволяет организациям защитить свои инвестиции в ИИ в будущем, используя лучшие текущие модели и повторно используя данные и рабочий процесс для повторного обучения при появлении более совершенной модели. Например, ИИ службы поддержки клиентов может внедрить новые базовые модели, сохранив при этом свои устоявшиеся системы вознаграждения за качество ответа.
Однако у DeepSeek R1 есть несколько ограничений:
- Он уступает DeepSeek-V3 в сложных задачах, таких как использование инструментов, сложные диалоги и ролевая игра в качестве персонажей.
- Его многоязычная поддержка ограничена в основном английским и китайским языками, с нестабильной производительностью на других языках.
- Он проявляет чувствительность к подсказкам, при этом производительность снижается, когда в подсказке используется небольшое количество примеров (часто называемая подсказкой нескольких кадров).
Несмотря на эти проблемы, постобучающие методы RL DeepSeek R1 представляют собой значительный шаг вперед в развитии искусственного интеллекта. Повышая адаптивность, подчеркивая компетентность в предметной области и обеспечивая универсальную применимость, они позволяют организациям создавать более специализированные и эффективные системы ИИ.
Эта технология особенно полезна для стартапов и небольших команд, которые теперь могут более эффективно конкурировать в пространстве искусственного интеллекта, сосредоточившись на своем уникальном опыте, а не на сборе данных. Вместо того, чтобы собирать тысячи идеальных примеров, вам просто нужно определить, как выглядит «хорошо» для вашего конкретного случая использования. Как и в случае с дрессировкой собаки, вам не нужны примеры всех возможных трюков — вам нужно только вознаграждать правильное поведение. Стартапы могут сосредоточиться на своем уникальном опыте в предметной области и создании отличных продуктов, а не тратить месяцы на сбор и маркировку обучающих данных. Если вы можете автоматически оценивать, хорошо ли ваш ИИ справляется с вашей конкретной задачей, вы можете обучить его становиться лучше методом проб и ошибок, как это сделал бы человек. — Эдмар Феррейра
Взгляд с рынков
Предположим, вы верите в общий искусственный интеллект (AGI). Также предположим, что вы верите, что технические инновации DeepSeek позволяют достичь этого. Помня об этих убеждениях, спросите себя: сколько лет и сколько долларов до достижения ОИИ?
Последствия для R1 связаны не столько с текущей полезностью работы DeepSeek, которая находится на одном уровне с другими моделями, сколько с тем, можно ли использовать эти методы для реализации AGI в нашей существующей инфраструктуре.
Вчера акции крупных технологических компаний были наказаны не потому, что доказали, что их модели бесполезны, а потому, что завышенные ожидания по доходам от ИИ — и центры обработки данных, построенные для поддержки этих убеждений — были просто слишком агрессивными в мире, где модели в стиле DeepSeek могут предложить выводы за одну десятую стоимости.
Существует мир, в котором, с большим количеством интеллектуальных ресурсов и более дешевыми ценами, разработчики начинают требовать еще больше вычислительных ресурсов. Вполне возможно, что это так! Тем не менее, время использования центра обработки данных имеет значение. Одна только Meta прогнозирует, что только в этом году потратит около 65 миллиардов долларов на центры обработки данных.Облачные гиперскейлеры, такие как Microsoft или Amazon Web Services, прогнозируют аналогичный уровень расходов на центры обработки данных, в то время как компании, занимающиеся искусственным интеллектом, такие как OpenAI, создают центры обработки данных стоимостью 100 миллиардов долларов, и потребности в логических выводах для этих центров сократились всего на 90 процентов! Когда-нибудь, каким-то образом, эти центры достигнут 100-процентной загрузки, но прогнозируемый рост затрат на обучение и логические выводы, на которых основывались эти инфраструктурные проекты, только что сильно изменился.
Инфраструктура, созданная во время пузыря, в конечном итоге привела к тому, что потребители выиграли в долгосрочной перспективе. Перед лицом новостей о DeepSeek выдвигаются аналогичные аргументы в пользу расточительных путей больших технологий. Тем не менее, есть три причины поставить под сомнение эту версию:
- Пузырь доткомов на самом деле не окупился до тех пор, пока Google и Meta не воспользовались им, почти через десять лет после того, как были проложены оптоволоконные кабели.
- Центры обработки данных, заполненные графическими процессорами, имеют в лучшем случае четыре года срока годности, прежде чем они быстро потеряют ценность. Чипы изнашиваются так же, как и любое другое оборудование, а новые модели позволяют использовать их в более мощном режиме.
- На данный момент, вероятно, во всем мире доход от приложений ИИ составляет гораздо меньше 50 миллиардов долларов. ChatGPT, безусловно, лучшее в мире монетизированное приложение для искусственного интеллекта, в 2024 году принесло всего 4 миллиарда долларов дохода по всему миру.
R1 не означает конец больших технологий. Это ускоряет сроки и, вероятно, вынуждает некоторые компании сокращать строительство своих центров обработки данных (или, по крайней мере, обосновывать их более тщательно, чем они делали до сих пор).
Неясно, оправдана ли вчерашняя реакция рынка на 17-процентное падение акций Nvidia. Наша команда все еще обсуждает последствия и проведет дальнейшие эксперименты, в которых мы сами используем некоторые из этих обучающих моделей. Некоторые из нас шортят Nvidia; другие покупают.