IBM обучит нейросеть программированию на 14 млн фрагментов кода

IBM обучит нейросеть программированию на 14 млн фрагментов кода

19.05.2021      16671

IBM представила набор данных Project CodeNet, который предназначен для тренировки нейросетей написанию рабочего программного кода. В датасет вошли сведения о 55 языках программирования.

Размер базы

Американская ИТ-компания на конференции сравнила свой проект с приложением Rosetta Stone для изучения иностранных языков, с той лишь разницей, что набор данных позволит обучать программированию искусственный интеллект. Научный сотрудник IBM Ручир Пури рассказал, что датасет не уступает аналогичному комплексу для разработки систем компьютерного зрения ImageNet.

В базу CodeNet вошло множество сведений о различных аспектах разработки приложений. Набор данных содержит 14 млн фрагментов кода и 500 млн строк на 55 языках – от устаревших COBOL и FORTRAN до актуальных Java, C ++ и Python. Также в датасете включено около 4 тыс. задач по программированию.

Проблемы обучения ИИ

По словам авторов проекта, первый шаг в обучении нейросетей программированию – это возможность искусственного интеллекта переводить код с одного языка на другой. Ручир Пури отмечает, что тренировка системы на датасете, который включает несколько языков, позволит применять ИИ в парных операциях. Например, станет возможным переписать COBOL-код на Java или наоборот.

Такой подход поможет упростить понимание, разработку и развертывание приложений. Программирование работает по определенным правилам, но их знания нейросети будет недостаточно для того, чтобы перевести программу с одного языка на другой. Авторы Project CodeNet в качестве примера приводят COBOL, который давно уже устарел, но его все равно продолжают использовать, потому что уже написанные на нем приложения еще применяются в бизнесе. Автоматизировать процесс перехода на современный язык мешает контекст конкретного решения. Без понимания связей перевести возможно не более 60% программы.

Возможности датасета

Набор данных CodeNet уникален не только по объему информации, но и по качеству метаданных и аннотаций к коду. Кроме того, в базу включены описание проблем и примеры их решения средствами программирования.

Поэтому датасет IBM позволяет использовать искусственный интеллект для поиска фрагментов кода и обнаружения клонов. CodeNet также может выступать в роли эталонного набора данных. Каждый образец помечен временем работы процессора и объемом памяти, благодаря чему разработчики имеют возможность проводить регрессионные исследования, создавать собственные системы, поддерживающие автоматическую коррекцию кода.

Изучить данные CodeNet и использовать их в работе можно при помощи репозитория на GitHub.



Источник: https://infostart.ru/journal/news/tekhnologii/ibm-obuchit-neyroset-programmirovaniyu-na-14-mln-fragmentov-koda_1443758/
Автор:
Аналитик


Комментарии
В избранное Подписаться на ответы Сортировка: Древо развёрнутое
Свернуть все
1. Darklight 28 19.05.21 14:03 Сейчас в теме
14млн фрагментов? Всего-то! Надеюсь приложение "Hello World" хоть сможет написать? А при не стандартной постановке?
2. o.nikolaev 208 19.05.21 19:39 Сейчас в теме
(1) Смейся, смейся - кожаный мешок! Это начало конца нашей профессии. Как вовремя я решил выучиться на сварщика-то...
vsesam80; Артано; chg; +3 Ответить
3. Darklight 28 19.05.21 20:07 Сейчас в теме
(2)Роботы сварщики уже давно есть - Вы выучили не ту профессию
4. o.nikolaev 208 19.05.21 20:12 Сейчас в теме
(3) Да нет, это вы ошиблись с выбором.
5. chg 20.05.21 06:54 Сейчас в теме
(4)на сантехника вернее:
- видишь этот кран? Так вот он как стоил пузырь, так и будет стоить.
o.nikolaev; Артано; +2 Ответить
6. Артано 728 20.05.21 07:47 Сейчас в теме
На самом деле не повод для смеха, еще несколько лет назад давал прогноз, что через 20 лет, профессия кодера будет автоматизирована. Останутся архитекторы и сопричастные.
Сейчас всего лишь проводятся первые эксперименты для оценки трудоёмкости, возможных проблем и потенциальной коммерческой эффективности
o.nikolaev; +1 Ответить
7. Darklight 28 20.05.21 10:22 Сейчас в теме
(6)Кодеры - уйдут в прошлое! Но... вряд ли за 20 лет. Но за 100 - скорее всего! И это правильно. А языки программирования должны эволюционировать до более высокоуровневого состояния. 5-его поколение не предел - на него нужно выйти во второй половине XXI века (в массовой разработке прикладных приложений). А в XXII веке нужно будет выйти и на языки 6-го поколения (о них сейчас даже почти никто и не помышляет). Вот только после этого профессия кодера начнёт массово отмирать!
Может я силишкам пессимистичен в прогнозах! Или излишне пессимистичны те, кто предрекает смерть профессии кодера уже в XXI веке (не говоря уже о первой половине XXI века).
Да и много ли Вы знаете кодеров в 1С Предприятие 8? Кодингом да - многие занимаются - но не в меньшей степени чем разработкой, а многие такие "кодеры" ещё и архитекторы СУБД администраторы.
И это положение дел навряд ли сильно изменится даже если к середине века выйдет гипотетическая революционно новая платформа - 1С Предприятие 9 - тут нужно скакнуть аж "через две головы", чтобы свести кодинг в среде 1С Предприятие к минимуму! Но что-то уже не верится в то, что фирма 1С на такое будет способна (даже в 1С Предприятие 10, лет через 70-80-100). Скорее всего то новое поколение разработчиков прикладных решений на специализированных платформах уже перейдут на иные учётные системы - созданные молодыми и амбициозными командами, имеющих, в своём составе, если и не гениев, то хотя бы неординарных специалистов, готовых внедрять новые идеи и перенимать мировые достижения. Старым командам 1С это уже не подсилу... и не понять...
8. Артано 728 21.05.21 04:46 Сейчас в теме
(7)
Скорее всего то новое поколение разработчиков прикладных решений на специализированных платформах уже перейдут на иные учётные системы - созданные молодыми и амбициозными командами, имеющих, в своём составе, если и не гениев, то хотя бы неординарных специалистов, готовых внедрять новые идеи и перенимать мировые достижения. Старым командам 1С это уже не подсилу... и не понять...


Да, в недавнем споре подобный сценарий я и выдвигал как наиболее вероятный применительно к одинесникам. не будет новой платформы, будут принципиально иные решения не требующие штата программистов и кастомизируемых роботами под конкретного клиента. Разумеется, под присмотром архитектора =)

Если хотите знать своё конкретное будущее, то рано или поздно вам скажут, что мы купили новую программу для нашего учета, вместе с сервисом по доработкам и сопровождению. Получается намного дешевле и быстрее и багов меньше чем в твоей нетленке, которую ты пилишь уже 5-10-15 лет.
9. Darklight 28 21.05.21 10:03 Сейчас в теме
(8)
не будет новой платформы, будут принципиально иные решения не требующие штата программистов и кастомизируемых роботами под конкретного клиента

"Не в нашу смену" ;-) не стоит этого ждать в ближайшие лет 100, или я не понимаю вашего мнения.
До подобных систем ещё очень далеко (такого подобия нет ни у кого ещё), всё-таки платформы будут развиваться более плавно. Как я написал выше - моё мнение, что это уровень не ниже 1С Предприятие 10 (а в Вашем описании - технологии, скорее 11-го поколения) - т.е. это уже XXII век - таково моё мнение. Но я скептически отнёсся к тому, что 1С Предприятие доживёт до 10-ой генерации (а если вдруг доживёт - то на ней и загнётся, не в силу конкурировать - разве что Россия к тому времени не будет в полной изоляции и 1С будет иметь около 100% всего рынка за неимением доступа конкурентов извне, если только в России не появятся свои новые конкуренты к тому времени). Но в то, что рано или поздно выйдет 1С Предприятие 9 - я верю (не верю, что скоро выйдет, тут скорее руководство в 1С должно будет в корне поменяться, ну или перед своим уходом Б. Нуралиев выпустить прощальный подарок - своё последнее виденье новой платформы). Но при любом раскладе - вряд ли 1С Предприятие 9 далеко уйдёт от 8-ки - вообще фантазии на эту тему, наверное, достойный отдельной статьи, если эти фантазии, далёкого от компании 1С человека, интересны, а сотрудникам 1С - до сообщества дела нет, тем более до фантазий - от них ждать не стоит.

А моё мнение таково - что в 9-ке поменяется язык (вероятно на основе 1С Исполнителя - а он, лично мне по вкусу не пришёлся), поменяется движок: вероятно перейдёт на Java - что, в общем-то не плохо, возможно и язык конфигураций будет исполняться на Java платформе - что логично (хотя я бы выбрал LLVM или .NET(а для web будет компилироваться в Web-assembler). Вероятно внешнре компоненты можно будет подключать бесшовно, как на OneScript. Переработают язык запросов (но вряд ли он станет менее похотим на SQL). Уйдёт в прошлое 1С-конфигуратор (его заменит EDT - или что-то в этом духе). Появится много инструментов и смарт-помощников для программиста (для анализа, рефакторинга, кодинга...). Архитектура клиент-сервера перейдёт на микросервисы. Возможно, сделают свою СУБД (гибридную, с поддержкой реляционной и нереляционной алгебры) с миркросервисами, которые можно будет и расширять (на каком-то языке - возможно на Java, имея низкоуровневый доступ). Переработают дерево метаданных (не знаю - останется ли жёсткое разделена на справочники, документы и т.п. - считаю это всё пережитком прошлого, хоть это и ключевая фишка платформы - но её можно оставить через логические представления - видимые для пользователей). Структура метаданных станет более гибкой и вложенной. Появится голосовое управление. Появятся песевдо-AI-помшники для помощи в обработке данных и их анализу. Поддержка национальной локализации архитектуры станет ещё более гибкой. Пожалуй, наверное, всё - чего-то большего ждать за 20-30 лет от компании 1С не стоит. Ну разве, что появится гибкая поддержка модульности (особенно это нужно для национальной лаколизации) - как дальнейшее развитие идеи расширений (но это под вопросом, хотя многие больше всего ждут именно этого). Вероятнее всего поменяется лицензионная политика (не знаю в какую сторону, вероятно на разные микросервисы нужны будут свои лицензии, изменится и лицензионное масштабирование - став более прозрачным, но более дорогим).
В общем - тут много революционных идей, но в целом - ничего особенного и сверхъестественного. Всё уже давно назрело. Без многих идей делать новое поколение платформы просто бессмысленно. Ничего того, что можно было бы сделать уже сейчас тут нет. Бери - да делай - и тут просто нужно время.
И здесь нет ничего, что бы существенно сокращало штат программистов.

Если хотите знать своё конкретное будущее, то рано или поздно вам скажут, что мы купили новую программу для нашего учета, вместе с сервисом по доработкам и сопровождению

Перейдём в разработку таких систем и расширений к ним.
Оставьте свое сообщение

См. также

Инспекторы смогут проводить дистанционные проверки через смартфон

Новость ИТ-новость Мобильные приложения

Минэкономразвития представило мобильное приложение, которое позволит осуществлять надзорные мероприятия бизнеса без посещения офиса. Программа работает через Госуслуги.

28.11.2022    996    VKuser24342747    0       

«Яндекс» представил бесплатный сервис для быстрого поиска в облаке

Новость ИТ-новость Облачные технологии

Сервис Managed Service for OpenSearch от платформы Yandex Cloud предназначен для оптимизации поисковых систем и проверки стабильности и безопасности работы приложений. Услуга доступа в режиме Public Preview.

24.11.2022    1295    VKuser24342747    1       

В декабре начнут действовать новые правила регистрации доменов .RU и .РФ

Новость ИТ-новость Роскомнадзор

С 12 декабря Роскомнадзор получит право прекращать делегирование домена, если он оформлен нелегально, или на сайте содержится запрещенная в России информация.

23.11.2022    1065    VKuser24342747    1       

Stack Overflow запустил проект для оффлайн-доступа к форуму

Новость ИТ-новость Разработка

Проект под названием Overflow Offline позволяет скачать актуальную версию архива вопросов и ответов по разработке ПО. По объему данных база форума уступает только «Википедии».

02.11.2022    1084    VKuser24342747    1       

Минцифры запустило магазин российского ПО из реестра ИТ-решений

Новость Импортозамещение ИТ-новость

Маркетплейс «Руссофт» стал доступен для всех пользователей. С его помощью можно подобрать программы от отечественных разработчиков для решения корпоративных задач бизнеса.

21.10.2022    1599    VKuser24342747    4       

В ноябре начнется создание российского государственного аналога GitHub

Новость ИТ-новость

Правительство озвучило дату запуска эксперимента по разработке отечественного репозитория ПО. Исходники программ, в том числе разработанных для госорганов, будут публиковаться в нем под открытой лицензией.

19.10.2022    2322    VKuser24342747    14       

OpenAI опубликовала код системы распознавания речи Whisper

Новость Искусственный интеллект ИТ-новость

OpenAI открыла исходный код эталонной реализации на базе фреймворка PyTorch и набор уже обученных моделей для использования под лицензией MIT. Нейросеть используется для перевода речи в текст.

28.09.2022    2472    VKuser24342747    0       

Вторая версия среды разработки для плат Arduino вышла из бета-теста

Новость ИТ-новость Микроэлектроника

Arduino IDE 2.0 получила стабильную версию, в которой появилась поддержка автодополнения кода и темная тема. Разработка заняла несколько лет. Программа распространяется бесплатно.

23.09.2022    2575    VKuser24342747    0       

Основатель движения свободного ПО выпустил руководство по языку C

Новость Linux ИТ-новость Языки программирования

Ричард Мэттью Столлман, основатель Фонда свободного программного обеспечения, представил руководство по языку C и расширениям GNU. Пособие доступно всем желающим и предназначено как для опытных, так и начинающих программистов.

19.09.2022    2114    VKuser24342747    0       

«Ростелеком» предложил создать национальную экосистему на базе «Авроры»

Новость Импортозамещение ИТ-новость Мобильные приложения

Провайдер считает, что государственная мобильная экосистема поможет обеспечить технологическую независимость и экономический подъем страны. А ОС «Аврора» наиболее перспективная разработка для достижения этих целей.

15.09.2022    2102    VKuser24342747    5       

Яндекс выложил в открытый доступ инструмент для разработки мобильных приложений

Новость ИТ-новость Мобильные приложения Яндекс

Фреймворк DivKit от Яндекса стал доступен как open source решение. Инструмент позволяет менять интерфейс приложений без скачивания обновлений и значительно ускоряет мобильную разработку.

02.09.2022    1757    VKuser24342747    0       

Группа компаний «Астра» представила собственную мобильную ОС

Новость Linux ИТ-новость Мобильные приложения

Доработанная ОС Astra Linux Special Edition может быть запущена на большом числе мобильных устройств, в том числе на планшетах и смартфонах с процессорами на архитектурах ARM, «Эльбрус» и x86-64.

25.08.2022    1445    VKuser24342747    1       

В России разработаны меры для решения проблемы нехватки ИТ-специалистов

Новость ИТ-новость

Вице-премьер Дмитрий Чернышенко сообщил, что сейчас экономике страны не хватает 1 млн ИТ-специалистов. Способы преодоления дефицита закреплены в программе нацпроекта «Цифровая экономика»

05.08.2022    1596    VKuser24342747    11       

Яндекс открыл доступ к фреймворку для создания приложений с микросервисной архитектурой

Новость GitHub ИТ-новость Яндекс

Инструмент Userver опубликован как бесплатное open source решение. Яндекс уже несколько лет эффективно его использует в своих приложениях Go, «Еда», «Лавка», «Доставка» и другие. Фреймворк находится в стадии бета – переезда на открытую разработку.

02.08.2022    2458    VKuser24342747    19       

Бизнес сможет использовать повышающий коэффициент для расходов на покупку ПО

Новость ИТ-новость

Принят закон, который позволяет компаниям учитывать расходы на отечественные программы и радиоэлектронное оборудование с коэффициентом 1,5. Решения должны быть включены в соответствующие реестры и относиться к ИИ.

26.07.2022    2245    VKuser24342747    0       

Минэкономразвития тестирует миграцию с Windows 10 на Astra Linux

Новость ИТ-новость

Министерство проводит эксперимент, в ходе которого сотрудники используют российскую ОС Astra Linux вместо Windows 10. По словам главы департамента, эксперимент проходит успешно.

11.07.2022    1793    VKuser24342747    0       

Вышла версия открытого текстового редактора Vim 9.0

Новость ИТ-новость

В приложение добавлен скриптовый язык с поддержкой компилируемых функций для создания плагинов, улучшена проверка правописания и автодополнения, предоставлен выбор цветовых схем.

07.07.2022    1965    VKuser24342747    0       

 «Яндекс» открыл доступ к SmartCaptcha и нейросети по генерации текстов 

Новость ИТ-новость Яндекс

Компания открыла доступ к алгоритму SmartCaptcha, который защищает сайт от спама и DDoS-атак, а также к проекту YaLM 100B, способному писать тексты на английском и русском языках. 

29.06.2022    2182    VKuser24342747    0       

«Яндекс» предложил разработчикам пройти диагностику технических навыков

Новость Кадровые агентства, подбор персонала ИТ-новость Яндекс

Компания запустила сервис, при помощи которого можно получить оценку своих технических навыков от специалистов «Яндекса». Тестирование включает онлайн-интервью и решение задач с реальных собеседований. 

27.06.2022    2063    VKuser24342747    1       

GitHub открыл доступ всем разработчикам к ИИ-помощнику Copilot по подписке

Новость GitHub Искусственный интеллект ИТ-новость

Github Copilot стал общедоступным, но для его использования пользователю репозитория нужно приобрести подписку. Хотя некоторые разработчики могут пользоваться инструментом бесплатно.

24.06.2022    3481    VKuser24342747    1       

В России планируют учредить Федерацию спортивного программирования

Новость ИТ-новость

Минцифры и Минспорта подписали меморандум, в котором закреплено сотрудничество ведомств по развитию в стране спортивного программирования и проведение первого официального чемпионата.

21.06.2022    2596    VKuser24342747    6       

Microsoft окончательно прекратила поддержку Internet Explorer

Новость Интернет ИТ-новость

Microsoft прекратила выпуск обновлений для своего браузера Internet Explorer, а с августа начнет удалять приложение из актуальных версий Windows. Эксперты полагают, что из-за этого пострадает много бизнес-пользователей.

17.06.2022    3188    VKuser24342747    4       

В России начал работу отечественный сервис мониторинга сбоев

Новость Импортозамещение Интернет ИТ-новость

Российская компания BrandAnalytics запустила платформу «Детектор сбоев», предназначенную для отслеживания работоспособности сайтов и сервисов, в том числе русскоязычных.

16.06.2022    1988    VKuser24342747    0       

Минцифры запустило систему отслеживания поддельных сайтов

Новость Безопасность Интернет ИТ-новость

Информационная система под названием «Антифишинг» способна обнаруживать мошеннические веб-ресурсы, которые выглядят как официальные сайты госорганов, компаний и соцсетей.

14.06.2022    2909    VKuser24342747    0       

GitHub прекратил поддержку редактора Atom ради перехода на VS Code

Новость GitHub ИТ-новость

GitHub объявил о прекращении разработки редактора кода Atom. К концу года все проекты в этом приложении станут доступны только для чтения. Причина – медленное развитие приложения.

10.06.2022    2787    VKuser24342747    2