Print Friendly, PDF & Email

Человечество с переменным успехом пытается научить машины говорить на естественном языке и создать искусственный интеллект начиная с 1950-х гг.  Может показаться, что мы уже совсем близко: в последние несколько лет медиа регулярно рассказывают о монструозных языковых моделях, способных писать эссе, отвечать на вопросы и переводить. Китай активно развивает технологии  — как в частных компаниях, так и в научных лабораториях. Для того, чтобы лучше уловить “китайскую специфику” языковых моделей, нужно понимать контекст их разработки в США — главного конкурента КНР, который создает передовые проекты и задает правила игры. Попутно разберем, из чего состоят большие языковые модели, как эти решения могут быть использованы и какие у них ограничения.

ИИ-оптимизм и расцвет NLP

Опыт показывает, что развитие искусственного интеллекта (ИИ) происходит рывками — от прорыва к многолетнему застою, от “весны” к “зиме”. Сначала новое решение стимулирует прогресс в области, но медиа-шум стихает, когда прогресс упирается в ограничения, часто связанные с вычислительными мощностями. Темой продолжают заниматься ученые и исследователи — наступает “зима”.

Благодаря эффективному применению нейросетей в 2010-х в последние несколько лет мир переживает новую волну ИИ-оптимизма. Современная ситуация отличается тем, что сейчас влияние ИИ-приложений ощущается особенно сильно. Сегодня автоматизация и “интеллектуализация” проникают в повседневную жизнь, что приносит выгоду и создает риски.

Образовательные и научные организации открывают профильные исследовательские центры, например, Stanford Institute for Human-Centered Artificial Intelligence (HAI). Госорганы принимают новые законы и стратегии развития с учетом новой нормальности. Бизнес тратит деньги на разработку ИИ-решений и внедряет их в производство. Согласно статистике HAI, в 2021 г. глобальные частные инвестиции в ИИ составили около $93,5 млрд — более чем в два раза выше показателя 2020 г. Активнее всего инвестировали в новое направление американские и китайские компании — приблизительно $52,9 млрд и $17,2 млрд соответственно.

Статистика AI Index Report 2022 показывает, что самый высокий уровень внедрения ИИ приходится на телекоммуникации и финансовые услуги. По данным McKinsey, в 2021 г. в первую пятерку из 39 самых распространенных сценариев использования ИИ входят оптимизация сервисных операций (27%), улучшение продуктов на основе ИИ (22%), автоматизация работы контакт-центров (22%), оптимизация характеристик продуктов (20%) и прогностические сервисы (17%). Реальные сценарии внедрения ИИ оказываются тесно связаны с естественным языком.

Язык помогает нам оперировать знаниями и обмениваться информацией. Неудивительно, что моделирование языка стало активным направлением в ИИ. Сделать тексты доступными для цифровой обработки помогает Natural Language Processing (“обработка естественного языка”, NLP) — прикладная дисциплина на стыке лингвистики, компьютерных наук и машинного обучения.

Мы часто не обращаем внимания на NLP-решения, хотя используем их каждый день. С их помощью смартфоны предугадывают следующее слово в сообщении, почтовые сервисы фильтруют спам, а иностранный язык становится понятнее после машинного перевода. NLP помогает при поиске релевантной информации в Интернете и делает возможной работу приложений, которые дают на выходе текст, например, чат-ботов и вопросно-ответных систем. Обработка естественного языка используется в журналистике. Современный этап развития дисциплины связан с применением нейронных сетей и глубокого обучения — технологий, известных со второй половины XX в. Но только в 2010-х с появлением необходимых мощностей стало возможным их применение в масштабе. Так появились большие языковые модели (large language models). Они стали технологией, которая во многом определяет тренды современного ИИ.

Попугаи-трансформеры

Статистическая языковая модель — это распределение вероятностей по последовательностям токенов. Такие модели предсказывает наиболее вероятный порядок слов в контексте. Как и нейросети с глубоким обучением, языковые модели — не новое изобретение. Разговоры о них вышли за пределы научных лабораторий после того, как стали известны их возможности при увеличении масштаба и добавлении новых технологических решений.

В 2017 г. исследователи из Google Brain представили нейросетевую архитектуру, без которой сложно представить современную индустрию ИИ, — трансформер. Решение, основанное на механизме внимания, позволило значительно повысить качество машинного перевода и сократить период обучения моделей. В 2018 г. Google выпустили BERT (Bidirectional Encoder Representations from Transformers) — языковую модель-трансформер, которая показала state-of-the-art (SOTA) результаты при выполнении 11 задач. BERT оказалась настолько эффективной, что была встроена в поисковую систему Google, а затем и в Bing от Microsoft. Высокими результатами модель во многом обязана “предобученности” (pre-training).

“Предобученность” означает, что модель сначала тренируют на большом наборе данных, после чего ее можно “тонко настроить” (fine-tuning) для решения конкретных задач. Эффективной модели нужен огромный набор данных. Pre-training позволяет модели определить универсальные языковые репрезентации, которые затем используются для решения других задач. Подобный перенос так и называется — “передача знаний” (transfer learning). Предобученность, transfer learning и архитектура трансформер стали ключевыми слагаемыми нового поколения языковых моделей, о которых пишут СМИ.

В 2020 г. фурор произвела GPT-3 (Generative Pre-Training Transformer 3) — третье поколение генеративной языковой модели от OpenAI. Повышенное внимание к новой языковой модели объясняется наглядностью возможностей системы, а именно: даже без fine-tuning модель может имитировать эссе, прозу и стихи, отвечать на вопросы и переводить. Другой вариант модели DALL-E 2 может генерировать изображения по текстовому описанию. На этом фоне журналисты и некоторые исследователи даже объявляют о скором приходе ИИ, равного человеческому в свойствах обобщения (Artificial General Intelligence, AGI).

Не нужно наделять эти модели излишней эвристичностью и субъектностью — о мышлении, сознании и здравом смысле речи не идет (в этом можно убедиться, посмотрев небольшой анализ DALL-E 2). Как метко заметили в нашумевшей статье “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?” Э.М. Бендер, Т. Гебру и др., связность текстов — в глазах наблюдателя. Несмотря на огромный “суп” из данных, который варится в “черном ящике”, у машины (по крайней мере, пока) нет модели мира — онтологических оснований для оперирования смыслами. Языковые модели сегодня — это не AGI из рассказов футурологов и визионеров, а стохастические попугаи. Имитация связного текста еще не говорит об овладении знаковой системой, потому что форма — это только один из ее компонентов. Если мы хотим избежать анекдотических и опасных инцидентов, связанных с неправильной интерпретацией способностей подобных систем, то нельзя забывать о проблемах смысла и понимания. Глядя на качественный сгенерированный текст, мы оказываемся в заложниках у собственной психологии и совершаем фундаментальную ошибку атрибуции — наделяем системы свойствами, которых в ней быть не может. Например,  сознанием. Похожие истории происходили еще в 1960-х, когда при общении с ELIZA — простой по сегодняшним меркам программой — люди думали, что переписываются с чем-то антропоморфным.  

Несмотря на необходимость дальнейших научных поисков, определение статистических закономерностей в больших объемах информации дает хорошее подспорье для исследовательских и прикладных проектов. Языковые модели — это инструмент, который может стать основой для специализированного решения. Это возможно благодаря их масштабу.

Размер имеет значение (?)

Ключевая особенность GPT-3 и аналогов — не столько архитектура, сколько размер. Модель включает 175 млрд параметров — в 10 раз больше, чем у любого из предшественников. Обучающие данные включали 570 Гб преимущественно англоязычных текстов. Из-за объема обучающих датасетов и числа параметров такие языковые модели называют большими. Дж. Кларк наглядно проиллюстрировал их суть формулой: большой = {число параметров, затраты на вычисления, количество данных, стоимость обучения}. С революцией глубокого обучения в ИИ началась эпоха больших моделей.

В августе 2021 г. эксперты из Center Research on Foundation Models и HAI  подготовили доклад “On the Opportunities and Risks of Foundation Models” (“О возможностях и рисках базовых моделей”). В исследовании, которое стало одним из главных событий в ИИ-аналитике 2021 г., приведен системный обзор больших моделей, включая технологическую специфику и социально-экономические последствия от внедрения. Исследователи из Стэнфорда называют большие модели “базовыми” (foundation) — так они подчеркивают центральную, но не исчерпывающую роль этих моделей в создании общего ИИ и специализированных приложений.

Базовые модели можно причислить к “технологиям общего назначения” (general-purpose technology — снова GPT). Большинство таких технологий играют роль “вспомогательных”, поскольку открывают новые возможности, но не предлагают окончательные решения. В качестве примеров можно привести паровой двигатель и электричество. Базовые модели, вероятно, существенно повлияют на производительность и структуру труда. По мере распространения и снижения стоимости ИИ-решений, работа, связанная с монотонными и рутинными действиями, может быть автоматизирована вплоть до полной замены человека, как в копирайтинге и рекламе.

Человеческий труд может быть дополнен, особенно в отраслях, где важен творческий компонент, например, в исследованиях и искусстве. И. Суцкевер (I. Sutskever) из OpenAI утверждает, что Copilot, основанный на GPT-3, может писать 30% кода. Есть и другие примеры внедрения GPT-3: Viable помогает анализировать отзывы клиентов, а Sana предоставляет платформу для онлайн-обучения.  ИИ-решения обладают потенциалом если не кардинально изменить мир, то, как минимум, занять важное место в производстве и предоставлении услуг. Лидерство в области можно эффективно монетизировать.

Компании одна за другой объявляют о выпуске очередной модели с хитрой аббревиатурой в названии. В октябре 2021 г. Microsoft и Nvidia объединились для создания Megatron-Turing Natural Language Generation model (MT-NLG) — 530 млрд параметров. В декабре DeepMind представила Gopher — 280 млрд параметров. В апреле 2022 г. в блоге Google AI появилась запись о Pathways Language Model (PaLM), которая содержит 540 млрд параметров.

Четко прослеживается тренд на увеличение размера моделей. Отсюда следует два вывода. Во-первых, ИИ-мейнстрим усвоил “горький урок”: “общие методы, использующие вычисления, в конечном итоге являются наиболее эффективными”. Насколько правильна такая интерпретация успехов и неудач в создании ИИ — это предмет отдельной дискуссии. Факт в том, что самые заметные разработчики действуют в этой парадигме. Во-вторых, большие модели концентрируются в лабораториях технологических компаний, а не научных академий. Дело в том, что разработка моделей в их нынешнем виде — это очень дорого.

Дорого — но непонятно, насколько

Для разработки больших моделей нужны три компонента:

Мощное оборудование. Для обучения и работы модели нужно много высокопроизводительных чипов, в частности, GPU и TPU.

Инвестиции в R&D. Дальнейшее развитие технологических решений и архитектур позволит эффективнее задействовать “железо” и ускорить обучение.

Обучающие данные. Данные нужно собрать, что в ряде случаев уже нетривиальная задача. Если для обучения нужны размеченные данные, то процесс становится еще дороже и сложнее.

Мощное “железо”, R&D и подготовка данных дорого стоят. Microsoft вложила в OpenAI — изначально некоммерческую организацию — $1 млрд. Для обучения GPT-3 использовали Azure — суперкомпьютер, который входил в пятерку мощнейших в 2019 г.

Реальная стоимость обучения GPT-3 не раскрыта. По приблизительным подсчетам, обучающий цикл стоил более $4,6 млн. Обучение требует неоднократного подбора правильной конфигурации и настройки гиперпараметров нейросети — как итог, R&D обойдется в $11,5-27,6 млн. Для запуска модели с приемлемой скоростью необходимо минимум 350 Гб VRAM — подходящее оборудование обойдется в $100–150 тыс. без учета других расходов. Обучение большой модели не только дорого, но и не экологично: углеродный след, оставшийся после обучения BERT, примерно эквивалентен загрязнению после перелета через Америку.

Исследования показывают, что стоимость обучения зависит от количества параметров:

$2,5–50 тыс. — для моделей со 110 миллионов параметров;

$10–200 тыс. — 340 миллионов параметров;

$80 тыс. – 1,6 млн — 1,5 миллиарда параметров.

Высокие затраты на вычисления обусловлены устройством глубокого обучения. Хотя связь между количеством параметров, сложностью модели и вычислительными мощностями до конца не изучена, сегодня доминирует принцип “больше — лучше”. Выходит, что вместе с ростом масштаба модели без оптимизации и применения более производительных чипов затраты будут увеличиваться. Почему относительно грубый и дорогой путь стал мейнстримом в решении сложнейших NLP-задач? Потому что относительно прост и дает нужный результат.

В контексте сокращения затрат важен выпуск модели Chinchilla от Deep Mind: хотя модель содержит 70 млрд параметров, она превосходит по эффективности Gopher, GPT-3 и Megatron-Turing NLG. При этом Chinchilla и Gopher требуется одинаковое количество мощностей. Другой пример оптимизации — архитектура Switch Transformer от Google, которая позволяет увеличить число параметров до более 1 трлн, сохраняя стабильные затраты на вычисления. Эти разработки могут задать тренд на поиск менее жадных до мощностей и более оптимизированных решений, в то же время показав, что “всего и побольше” — не единственный путь. Поиск альтернативных путей — задача научных организаций, которые часто сталкиваются с бюджетными ограничениями для исследований.

Бизнес и наука как два типа мышления

Ученые из США опасаются, что академическое сообщество может оказаться отрезано от технологического фронтира, а специалисты будут переходить в частный сектор из-за более высоких зарплат и доступа к последним разработкам.

Доминирование корпораций может негативно сказаться на развитии ИИ как технологии. Публикации компаний открывают не всю информацию об устройстве моделей. Без полноценного доступа к ним предложить новые фундаментальные решения намного сложнее. Открытость информации нужна для полноценного осмысления и оценки нового решения. Большие языковые модели — как раз та технология, которая требует широкого обсуждения за пределами бизнес-среды. Исправление, фундаментальное с точки зрения науки, при принятии бизнес-решений может показаться необязательным: “работает — не трогай”. ИИ — направление, которое несет слишком высокие потенциальные риски, чтобы его развитие определялось исключительно в бизнес-категориях.

На этом фоне выделяется NLP-стартап Hugging Face, который активно продвигает принципы открытости и прозрачности в машинном обучении. С февраля 2021 г. в рамках Hugging Face международное сообщество исследователей развивает проект BigScience — ИИ-аналог Большого адронного коллайдера от CERN. Проект живет не только на энтузиазме его участников, но и благодаря ресурсной поддержке: BigScience получил грант на использование французского суперкомпьютера Jean Zay. Основная цель проекта — сделать вклад в исследования через издание публикаций, организацию семинаров, хакатонов и других мероприятий. Сообщество разрабатывает открытую большую модель T0 и прикладное ПО.

Свой вклад в открытость ИИ делает Meta. Компания открыла для сообщества OPT-175B — аналог GPT-3. Meta позволяет изучить внутренности своей разработки. Прозрачность полезна не только для развития индустрии, но и зарабатывает для Meta репутационные очки.

В результате мы видим разрыв между бизнесом и академической наукой, следствием чего может стать доминирование корпораций в определении развития ИИ. Здесь интересен опыт КНР — главного конкурента США и Западной Европы в отрасли. Китайский “рыночный ленинизм” нашел свой способ сблизить академию и бизнес.

Кто прокладывает китайский путь к ИИ

В последние несколько лет Китай отчетливо демонстрирует свои амбиции в технологическом секторе. Ярлык “мировой фабрики” уже давно жмет стране, чье руководство стремится технологически доминировать и ищет альтернативный вариант модернизации. В этой оптике можно рассматривать программы Made in China 2025 (中国制造2025) и China Standards 2035 (中国标准2035). Ориентация на “развитие, движимое инновациями” (创新驱动发展) не только декларируется политической элитой страны: в Китае растут публикационная активность и количество патентов, а прикладные и фундаментальные исследования щедро финансируют. ИИ — область, которую поддерживает как административный уровень, так и частный сектор.

В Китае есть своя альтернатива FAANG — BAT, т.е. Baidu, Alibaba и Tencent. На этих трех китах держится основная часть ИИ-экосистемы КНР, которая включает финансовые технологии, мессенджеры, поисковые системы и многое другое. Компании собирают огромное количество данных. В контексте развития ИИ в целом и языковых моделей в частности это имеет большое значение, поскольку информация стала “топливом” для интеллектуальных систем.

Технологическое развитие больших моделей в частных лабораториях Китая в целом следует западной логике. Отметим несколько крупнейших разработок. В апреле 2021 г. Huawei и Recurrent AI (循环智能) выпустили крупномасштабную авторегрессивную предобученную модель PanGu-α (盘古 «Паньгу» — по названию первопредка из китайской мифологии). PanGu-α конкурирует с GPT-3 и обходит ее по числу параметров — 200 млрд против 175 млрд. Модель, обученная 1,1 Тб китайских текстов, хорошо проявила себя при выполнении ряда NLP-задач, включая суммаризацию, ответы на вопросы, поддержание диалога. 

Заслуживает внимание то, что китайские игроки “big tech” стараются развивать альтернативные пути, так Baidu в своей модели ERNIE 3.0 фокусируется на понимании естественного языка (Natural language Understanding) и генерации текстов, а не наращивании параметров (их всего 10 млрд). Это шаг в сторону от тренировки гигантских “стохастических попугаев”. Модель ERNIE 3.0, обученная на 4 Тб текстов и графов знаний, достигла SOTA-результатов при выполнении 54 задач и была встроена в поисковый движок Baidu. Развитие альтернативных путей одним из главных игроков китайского “big tech” — фактор, заслуживающий внимания.

В китайском ИИ происходят события важнее, чем выход очередной модели-гиганта. В марте 2022 г. главные ИИ-специалисты из КНР выпустили свой вариант “On the Opportunities and Risks of Foundation Model” — “A Roadmap for Big Model” (”Дорожная карта большой модели”). Дорожная карта очерчивает основные тенденции в индустрии и предлагает будущие направления. В работе обнаружили плагиат (частая история в машинном обучении), хотя организация, ответственная за редакцию и сбор информации к Дорожной карте, уже извинилась. Однако важно не только что там написано, а кто это написал.

Дорожная карта большой модели или объединение двух миров

Объемный доклад (1638 ссылок на источники) составили 100 исследователей из 19 организаций. Среди них авторитетные китайские университеты (Tsinghua University, Renmin University of China, Peking University, Northeastern University, Shanghai Jiao Tong University, BeiHang University), исследовательские институты (Beijing Academy of Artificial Intelligence; Institute of Computing Technology, Institute of Software, Institute of Automation в составе Китайской академии наук; Harbin Institute of Technology) и лаборатории частных компаний (Wechat, Tencent Inc.; Huawei TCS Lab; JD AI Research; Microsoft Research Asia; ByteDance AI Lab). Именно эти организации стоят в авангарде китайского ИИ. При этом большинство — государственные научные организации. В дорожной карте после имен исследователей из иностранных или китайских частных структур стоит сноска: “produced by Beijing Academy of Artificial Intelligence” (BAAI, кит. 北京智源人工智能研究院 “Пекинский исследовательский институт ИИ “Чжиюань” — ”источник мудрости”). В лабораториях BAAI созданы самые амбициозные китайские модели.

BAAI основана в ноябре 2018 г. при поддержке Министерства науки и технологий (中华人民共和国科学技术部), а также горкома и муниципалитета Пекина (北京市委市政府). Большим достижением BAAI стал китайский ответ GPT-3, выпущенный в июне 2021 г. Модель назвали WuDao 2.0 от 悟道 «познать истину»/ «просвещение»: китайские разработчики предпочитают имена с культурными отсылками.

WuDao 2.0 в 10 раз больше GPT-3: количество параметров составило 1,75 трлн. Для обучения WuDao было использовано 4,9 ТБ текста на китайском и английском языках, в то время для GPT-3 — 570 Гб преимущественно англоязычных данных. Как сообщает официальный аккаунт BAAI в Wechat, китайская разработка преодолела технические ограничения зарубежных моделей. Ряд решений выложен в открытый доступ. WuDao 2.0 либо достигла, либо обогнала конкурентов при выполнении контрольных задач-бенчмарков в 9 направлениях, включая поиск данных, заполнение пропусков, генерацию текстов и изображений. По утверждению профессора Тан Цзе (唐杰), модель близка к тому, чтобы пройти тест Тьюринга. На сайте модели можно пройти тест и попробовать определить, кто автор стихотворения, ответа на вопрос, парной надписи (对联) или изображения — нейросеть или человек. Разработчики также представили «виртуальную студентку» Университета Цинхуа — инженерам из КНР тоже хочется впечатлить аудиторию. Не стоит слишком серьезно относится к такой “имитационной игре”: в 2014 г. чат-бот Eugene Goostman уже “проходил” тест Тьюринга, но кто об этом помнит сегодня?

Модель представляет не только научный интерес, как можно ожидать от разработчика со словом “академия” в названии. BAAI делает акцент на применении WuDao 2.0 в реальных сценариях. Например, модель встроена в интеллектуальный помощник Xiaobu (小布) от компании Oppo. Затраты на генерацию одного ответа сократились на 99%. BAAI подписала соглашение о стратегическом партнерстве с 22 организациями, включая Meituan, Xiaomi, Kuaishou, Sogou и новостное агентство Синьхуа.

Другой интересный проект — BaGuaLu. Китайское название  (八卦炉 “печь восьми триграмм”) взято из мифологических сюжетов о волшебной печи, которая могла создавать лекарства. Название отражает суть модели, призванной обеспечить эффективную производительность и масштабируемость. Главная цель BaGuaLu — сделать возможным обучение моделей, сопоставимых по масштабу с человеческим мозгом. Речь идет не о миллиардах, а о сотне триллионов (174) параметров сети — по аналогии с количеством синапсов в человеческом мозге. Масштабные вычисления требуют соответствующих мощностей: модель обучена на New Generation Sunway Supercomputer (Sunway TaihuLight, 神威·太湖之光超级计算机) — №4 в списке 500 мощнейших суперкомпьютеров на ноябрь 2021 г.

Открыв статью о BaGuaLu, снова стоит взглянуть на список авторов. Помимо ученых из BAAI и Университета Цинхуа, в авторах указаны исследователи из DAMO Academy и Zhejiang Lab. DAMO Academy (Discovery, Adventure, Momentum and Outlook, кит. 达摩院) — это R&D-центр Alibaba. Как и Zhejiang Lab (之江实验室) — только с той разницей, что в создании лаборатории участвовали правительство и партийный комитет провинции Чжэцзян. Поддержка властей и одного из крупнейших технологических игроков дает хорошее подспорье в разработке — финансирование, оборудование и инфраструктура уже не проблема для исследователей.

Как итог, китайская наука получает возможность создавать конкурентоспособные большие модели. Более того, лидерство в продвижении к технологическому фронтиру берет на себя научная организация, а не бизнес. При этом частный и государственный секторы оказываются переплетены: они активно взаимодействуют, что дает интересные результаты. На примере разработки больших моделей можно проследить “китайскую специфику” в создании технологий. Она проявляется в совместной работе для достижения одной цели двух миров, чьи мышление и возможности сильно расходятся. В КНР созданы условия для мобилизации и объединения ресурсов — интеллектуальных (академия), финансовых и инфраструктурных (частные компании), которые скрепляются политической волей. Китайский опыт показывает, что наука и бизнес могут работать вместе, особенно, когда речь идет технологиях, способных изменить очень многое.

Вход

Добро пожаловать!
欢迎光临!환영합니다!ようこそ!Chào mừng!
Регистрация
Продолжить в Google

К выбору тем