Генеративные модели естественного языка становятся всё более мощными. Их возможности в обработке текстовой информации прямо зависят от размерности. У кого же языковая модель самая большая и «непревзойдённо точная»?

Крупнейшая на сегодняшний день генеративная модель естественного языка представлена в блоге техногиганта Nvidia — Megatron-Turing (MT-NLG). Созданная в сотрудничестве с Microsoft, она оперирует 530 миллиардами параметров. Для сравнения, предыдущий лидер — модель GPT-3 со 175 миллиардами параметров. Даже сравнительно небольшие, по меркам лидеров индустрии, решения на основе GPT-3 могут многое и работают не только с английским языком — о русскоязычной модели GPT-3 Large с 760 миллионами параметров читайте в прошлогодней статье Сергея Маркова на Хабре.

Предшественники модели — созданная Microsoft Turing NLG 17B и разработка Nvidia — нейросетевая модель-трансформер Megatron-LM.

105-слойная мегамодель требует мегаресурсов. Для работы MT-NLG требуется 280 графических процессоров NVIDIA A100, а для её обучения был задействован один из мощнейших (шестая позиция в рейтинге Top-500) суперкомпьютеров — Selene. В процессе обучения использовалось 11 больших баз данных, среди которых — базы Википедии, PubMed, корпусы художественной литературы.

Разработчики сообщают о некоторых интересных возможностях новой модели. Например, она показывает некоторое «понимание» математики, выходя «за рамки простого запоминания арифметических действий».

Результаты работы модели по-прежнему сильно зависят от качества данных, использованных для обучения. Поэтому MT-NLG может быть «предвзятой и токсичной», перенимая проникающие в тексты стереотипы носителей языка. Это известная проблема, Microsoft и NVIDIA нацелены на её решение, заявляя о приверженности принципам «ответственного ИИ».

Источник: 22century.ru

Добавить комментарий