Sep 19
Китайский DeepSeek потряс мир технологий. Разработчик только что раскрыл стоимость обучения модели ИИ.
Китайский разработчик искусственного интеллекта DeepSeek потратил всего 294 000 долларов на обучение своей модели R1, что значительно меньше заявленных затрат у американских конкурентов, говорится в статье компании, опубликованной в академическом журнале Nature. Эта информация, представленная в среду, стала первым официальным оценочным показателем стоимости обучения R1 и, вероятно, вновь разожжет споры о месте Пекина в гонке ИИ.
Выпуск DeepSeek в январе более дешёвых ИИ-систем вызвал панику на мировых фондовых рынках: инвесторы начали массово продавать акции технологических компаний из-за опасений, что новые модели могут подорвать доминирование лидеров отрасли, включая Nvidia.
С тех пор компания и её основатель Лян Вэньфэн почти не появлялись в публичном пространстве, за исключением редких обновлений продуктов.
Гендиректор американской компании OpenAI Сэм Альтман в 2023 году говорил, что обучение базовых моделей обошлось «намного дороже 100 миллионов долларов», хотя точные цифры для своих релизов OpenAI не раскрывала.
Затраты на обучение больших языковых моделей, которые лежат в основе чат-ботов с ИИ, связаны с расходами на запуск кластеров мощных чипов на недели или месяцы для обработки огромных массивов текста и кода.
В статье Nature, где Лян был указан как один из соавторов, говорилось, что обучение R1, ориентированного на логические рассуждения, обошлось в 294 000 долларов и использовало 512 чипов Nvidia H800. В более ранней версии статьи, опубликованной в январе, этих данных не было.
Некоторые заявления DeepSeek о стоимости разработки и применённых технологиях ставились под сомнение американскими компаниями и чиновниками.
Чипы H800 были созданы Nvidia специально для китайского рынка после того, как США в октябре 2022 года запретили экспорт в Китай более мощных чипов H100 и A100.
Американские чиновники сообщили Reuters в июне, что DeepSeek якобы имела доступ к «большим объёмам» H100, полученным уже после введения экспортных ограничений. Nvidia тогда заявила Reuters, что DeepSeek использовала законно приобретённые H800, а не H100.
В дополнительном документе к статье в Nature компания впервые признала, что владеет чипами A100, и уточнила, что использовала их на подготовительных этапах разработки.
«В рамках исследований DeepSeek-R1 мы использовали графические процессоры A100 для подготовки экспериментов с меньшей моделью», — написали исследователи. После этой начальной фазы модель R1 обучалась в течение 80 часов на кластере из 512 чипов H800, добавили они.
Дистилляция моделей
DeepSeek также впервые, пусть и косвенно, ответила на утверждения советника Белого дома и других представителей американской индустрии ИИ, сделанные в январе, о том, что компания якобы намеренно «дистиллировала» модели OpenAI в свои собственные.
Этот термин обозначает методику, при которой одна ИИ-система обучается на основе другой, что позволяет новой модели использовать плоды вложенных ранее ресурсов и вычислительной мощности без соответствующих затрат.
DeepSeek постоянно защищала дистилляцию, называя её способом добиться более высокой производительности моделей при значительно меньших расходах и тем самым обеспечить более широкий доступ к ИИ-технологиям.
В январе компания заявила, что использовала открытую модель Llama от Meta для некоторых дистиллированных версий своих собственных моделей.
В статье в Nature DeepSeek отметила, что обучающие данные для её модели V3 были собраны с веб-страниц, которые содержали «значительное количество ответов, сгенерированных моделями OpenAI, что могло привести к тому, что базовая модель косвенно усвоила знания других мощных моделей». Но при этом компания подчеркнула, что это было не преднамеренно, а произошло случайно.
OpenAI не дала немедленного комментария по запросу.
Latest from our blog
Golden Academy is a learning platform with a vision of providing life-transforming educational experiences to all kind of learners around the world.
Legal
Copyright © 2024