IBM обучит нейросеть программированию на 14 млн фрагментов кода

IBM обучит нейросеть программированию на 14 млн фрагментов кода

19.05.2021     

IBM представила набор данных Project CodeNet, который предназначен для тренировки нейросетей написанию рабочего программного кода. В датасет вошли сведения о 55 языках программирования.

Размер базы

Американская ИТ-компания на конференции сравнила свой проект с приложением Rosetta Stone для изучения иностранных языков, с той лишь разницей, что набор данных позволит обучать программированию искусственный интеллект. Научный сотрудник IBM Ручир Пури рассказал, что датасет не уступает аналогичному комплексу для разработки систем компьютерного зрения ImageNet.

В базу CodeNet вошло множество сведений о различных аспектах разработки приложений. Набор данных содержит 14 млн фрагментов кода и 500 млн строк на 55 языках – от устаревших COBOL и FORTRAN до актуальных Java, C ++ и Python. Также в датасете включено около 4 тыс. задач по программированию.

Проблемы обучения ИИ

По словам авторов проекта, первый шаг в обучении нейросетей программированию – это возможность искусственного интеллекта переводить код с одного языка на другой. Ручир Пури отмечает, что тренировка системы на датасете, который включает несколько языков, позволит применять ИИ в парных операциях. Например, станет возможным переписать COBOL-код на Java или наоборот.

Такой подход поможет упростить понимание, разработку и развертывание приложений. Программирование работает по определенным правилам, но их знания нейросети будет недостаточно для того, чтобы перевести программу с одного языка на другой. Авторы Project CodeNet в качестве примера приводят COBOL, который давно уже устарел, но его все равно продолжают использовать, потому что уже написанные на нем приложения еще применяются в бизнесе. Автоматизировать процесс перехода на современный язык мешает контекст конкретного решения. Без понимания связей перевести возможно не более 60% программы.

Возможности датасета

Набор данных CodeNet уникален не только по объему информации, но и по качеству метаданных и аннотаций к коду. Кроме того, в базу включены описание проблем и примеры их решения средствами программирования.

Поэтому датасет IBM позволяет использовать искусственный интеллект для поиска фрагментов кода и обнаружения клонов. CodeNet также может выступать в роли эталонного набора данных. Каждый образец помечен временем работы процессора и объемом памяти, благодаря чему разработчики имеют возможность проводить регрессионные исследования, создавать собственные системы, поддерживающие автоматическую коррекцию кода.

Изучить данные CodeNet и использовать их в работе можно при помощи репозитория на GitHub.



Источник: https://infostart.ru/journal/news/tekhnologii/ibm-obuchit-neyroset-programmirovaniyu-na-14-mln-fragmentov-koda_1443758/
Автор:
Александр Вашкевич Аналитик


Комментарии
В избранное Подписаться на ответы Сортировка: Древо развёрнутое
Свернуть все
1. Darklight 27 19.05.21 14:03 Сейчас в теме
14млн фрагментов? Всего-то! Надеюсь приложение "Hello World" хоть сможет написать? А при не стандартной постановке?
2. o.nikolaev 204 19.05.21 19:39 Сейчас в теме
(1) Смейся, смейся - кожаный мешок! Это начало конца нашей профессии. Как вовремя я решил выучиться на сварщика-то...
vsesam80; Артано; chg; +3 Ответить
3. Darklight 27 19.05.21 20:07 Сейчас в теме
(2)Роботы сварщики уже давно есть - Вы выучили не ту профессию
4. o.nikolaev 204 19.05.21 20:12 Сейчас в теме
(3) Да нет, это вы ошиблись с выбором.
5. chg 20.05.21 06:54 Сейчас в теме
(4)на сантехника вернее:
- видишь этот кран? Так вот он как стоил пузырь, так и будет стоить.
o.nikolaev; Артано; +2 Ответить
6. Артано 712 20.05.21 07:47 Сейчас в теме
На самом деле не повод для смеха, еще несколько лет назад давал прогноз, что через 20 лет, профессия кодера будет автоматизирована. Останутся архитекторы и сопричастные.
Сейчас всего лишь проводятся первые эксперименты для оценки трудоёмкости, возможных проблем и потенциальной коммерческой эффективности
o.nikolaev; +1 Ответить
7. Darklight 27 20.05.21 10:22 Сейчас в теме
(6)Кодеры - уйдут в прошлое! Но... вряд ли за 20 лет. Но за 100 - скорее всего! И это правильно. А языки программирования должны эволюционировать до более высокоуровневого состояния. 5-его поколение не предел - на него нужно выйти во второй половине XXI века (в массовой разработке прикладных приложений). А в XXII веке нужно будет выйти и на языки 6-го поколения (о них сейчас даже почти никто и не помышляет). Вот только после этого профессия кодера начнёт массово отмирать!
Может я силишкам пессимистичен в прогнозах! Или излишне пессимистичны те, кто предрекает смерть профессии кодера уже в XXI веке (не говоря уже о первой половине XXI века).
Да и много ли Вы знаете кодеров в 1С Предприятие 8? Кодингом да - многие занимаются - но не в меньшей степени чем разработкой, а многие такие "кодеры" ещё и архитекторы СУБД администраторы.
И это положение дел навряд ли сильно изменится даже если к середине века выйдет гипотетическая революционно новая платформа - 1С Предприятие 9 - тут нужно скакнуть аж "через две головы", чтобы свести кодинг в среде 1С Предприятие к минимуму! Но что-то уже не верится в то, что фирма 1С на такое будет способна (даже в 1С Предприятие 10, лет через 70-80-100). Скорее всего то новое поколение разработчиков прикладных решений на специализированных платформах уже перейдут на иные учётные системы - созданные молодыми и амбициозными командами, имеющих, в своём составе, если и не гениев, то хотя бы неординарных специалистов, готовых внедрять новые идеи и перенимать мировые достижения. Старым командам 1С это уже не подсилу... и не понять...
8. Артано 712 21.05.21 04:46 Сейчас в теме
(7)
Скорее всего то новое поколение разработчиков прикладных решений на специализированных платформах уже перейдут на иные учётные системы - созданные молодыми и амбициозными командами, имеющих, в своём составе, если и не гениев, то хотя бы неординарных специалистов, готовых внедрять новые идеи и перенимать мировые достижения. Старым командам 1С это уже не подсилу... и не понять...


Да, в недавнем споре подобный сценарий я и выдвигал как наиболее вероятный применительно к одинесникам. не будет новой платформы, будут принципиально иные решения не требующие штата программистов и кастомизируемых роботами под конкретного клиента. Разумеется, под присмотром архитектора =)

Если хотите знать своё конкретное будущее, то рано или поздно вам скажут, что мы купили новую программу для нашего учета, вместе с сервисом по доработкам и сопровождению. Получается намного дешевле и быстрее и багов меньше чем в твоей нетленке, которую ты пилишь уже 5-10-15 лет.
9. Darklight 27 21.05.21 10:03 Сейчас в теме
(8)
не будет новой платформы, будут принципиально иные решения не требующие штата программистов и кастомизируемых роботами под конкретного клиента

"Не в нашу смену" ;-) не стоит этого ждать в ближайшие лет 100, или я не понимаю вашего мнения.
До подобных систем ещё очень далеко (такого подобия нет ни у кого ещё), всё-таки платформы будут развиваться более плавно. Как я написал выше - моё мнение, что это уровень не ниже 1С Предприятие 10 (а в Вашем описании - технологии, скорее 11-го поколения) - т.е. это уже XXII век - таково моё мнение. Но я скептически отнёсся к тому, что 1С Предприятие доживёт до 10-ой генерации (а если вдруг доживёт - то на ней и загнётся, не в силу конкурировать - разве что Россия к тому времени не будет в полной изоляции и 1С будет иметь около 100% всего рынка за неимением доступа конкурентов извне, если только в России не появятся свои новые конкуренты к тому времени). Но в то, что рано или поздно выйдет 1С Предприятие 9 - я верю (не верю, что скоро выйдет, тут скорее руководство в 1С должно будет в корне поменяться, ну или перед своим уходом Б. Нуралиев выпустить прощальный подарок - своё последнее виденье новой платформы). Но при любом раскладе - вряд ли 1С Предприятие 9 далеко уйдёт от 8-ки - вообще фантазии на эту тему, наверное, достойный отдельной статьи, если эти фантазии, далёкого от компании 1С человека, интересны, а сотрудникам 1С - до сообщества дела нет, тем более до фантазий - от них ждать не стоит.

А моё мнение таково - что в 9-ке поменяется язык (вероятно на основе 1С Исполнителя - а он, лично мне по вкусу не пришёлся), поменяется движок: вероятно перейдёт на Java - что, в общем-то не плохо, возможно и язык конфигураций будет исполняться на Java платформе - что логично (хотя я бы выбрал LLVM или .NET(а для web будет компилироваться в Web-assembler). Вероятно внешнре компоненты можно будет подключать бесшовно, как на OneScript. Переработают язык запросов (но вряд ли он станет менее похотим на SQL). Уйдёт в прошлое 1С-конфигуратор (его заменит EDT - или что-то в этом духе). Появится много инструментов и смарт-помощников для программиста (для анализа, рефакторинга, кодинга...). Архитектура клиент-сервера перейдёт на микросервисы. Возможно, сделают свою СУБД (гибридную, с поддержкой реляционной и нереляционной алгебры) с миркросервисами, которые можно будет и расширять (на каком-то языке - возможно на Java, имея низкоуровневый доступ). Переработают дерево метаданных (не знаю - останется ли жёсткое разделена на справочники, документы и т.п. - считаю это всё пережитком прошлого, хоть это и ключевая фишка платформы - но её можно оставить через логические представления - видимые для пользователей). Структура метаданных станет более гибкой и вложенной. Появится голосовое управление. Появятся песевдо-AI-помшники для помощи в обработке данных и их анализу. Поддержка национальной локализации архитектуры станет ещё более гибкой. Пожалуй, наверное, всё - чего-то большего ждать за 20-30 лет от компании 1С не стоит. Ну разве, что появится гибкая поддержка модульности (особенно это нужно для национальной лаколизации) - как дальнейшее развитие идеи расширений (но это под вопросом, хотя многие больше всего ждут именно этого). Вероятнее всего поменяется лицензионная политика (не знаю в какую сторону, вероятно на разные микросервисы нужны будут свои лицензии, изменится и лицензионное масштабирование - став более прозрачным, но более дорогим).
В общем - тут много революционных идей, но в целом - ничего особенного и сверхъестественного. Всё уже давно назрело. Без многих идей делать новое поколение платформы просто бессмысленно. Ничего того, что можно было бы сделать уже сейчас тут нет. Бери - да делай - и тут просто нужно время.
И здесь нет ничего, что бы существенно сокращало штат программистов.

Если хотите знать своё конкретное будущее, то рано или поздно вам скажут, что мы купили новую программу для нашего учета, вместе с сервисом по доработкам и сопровождению

Перейдём в разработку таких систем и расширений к ним.
Оставьте свое сообщение

См. также

ARM разработала гибкий пластиковый микропроцессор

Новость ИТ-новость Микроэлектроника

Специалисты ARM представили пластиковую версию процессора Cortex-M0. Решение с тонкопленочными транзисторами на полиамидной подложке унаследовало все возможности популярного микроконтроллера.

сегодня в 14:42    2203    user1015646    0       

Intel признает, что отстает от конкурентов на четыре года и будет выпускать чипы для Qualcomm

Новость ИТ-новость Микроэлектроника Новости компаний

Представители корпорации Intel заявили, что компания начнет производство чипов Qualcomm. Также компания подготовила план развития, чтобы догнать своих конкурентов, таких как Taiwan Semiconductor Manufacturing и Samsung Electronics, к 2025 году.

30.07.2021    1145    SKravchenko    1       

Представлено водяное охлаждение для чипов мощностью 2,6 кВт

Новость ИТ-новость Микроэлектроника

Компания TSMC, один из крупнейших производителей микропроцессоров, разработала инновационную систему водяного охлаждения. Она позволяет отвести от чипа 2,6 кВт тепла.

30.07.2021    1663    user1015646    1       

«Сбер» впервые в России получил патент на программу, написанную ИИ

Новость Искусственный интеллект ИТ-новость

Подразделение Sber AI зарегистрировало в Роспатенте приложение, написанное предварительно обученной нейросетью. Искусственный интеллект сгенерировал код на C++ и Java.

30.07.2021    967    VKuser24342747    3       

Линус Торвальдс добавит в Linux драйвер для NTFS от российских разработчиков

Новость Linux ИТ-новость

Создатель Linux заявил о готовности добавить драйвер в ядро операционной системы, если программисты из России займутся его интеграцией и сопровождением. Торвальдс лично примет этот pull-запрос.

28.07.2021    2087    VKuser24342747    0       

Amazon представил игровой движок с открытым исходным кодом

Новость ИТ-новость Новости компаний

Компания Amazon всерьез намерена покорить все цифровые рынки – в том числе индустрию гейминга. Разработчики выпустили движок Open 3D Engine для создания игр и других приложений с открытым исходным кодом.

28.07.2021    854    user1015646    0       

Microsoft представила эмулятор Altair 8800 на Azure Sphere

Новость ИТ-новость Микроэлектроника

Microsoft представила эмулятор ретрокомпьютера Altair 8800 на операционной системе для работы с облаком Azure Sphere.

27.07.2021    1725    SKravchenko    0       

Microsoft выпустит облачную ОС

Новость ОС ИТ-новость Облачные технологии

Компания Microsoft активно конкурирует с Amazon и Google на рынке передовых облачных технологий. Чтобы предоставить пользователям возможность гибридной работы в Windows с любого устройства, разработчики анонсировали облачную ОС – сервис Windows 365.

26.07.2021    1901    user1015646    0       

Google добавит в Chrome режим приоритетной загрузки сайта по HTTPS

Новость Безопасность Интернет ИТ-новость

В новой версии Google Chrome появится режим HTTPS-First, который заставит браузер всегда пытаться загружать сайты по защищенному протоколу. В будущих релизах веб-обозревателя эта функция будет включена по умолчанию.

21.07.2021    1262    VKuser24342747    0       

JetBrains назвала JavaScript и SQL самыми популярными языками в России

Новость Аналитика ИТ-новость Языки программирования

Компания JetBrains провела ежегодный опрос об экосистеме разработки в 2021 году. В нем приняли участие 31 743 разработчика из 183 стран, в том числе из Российской Федерации и СНГ.

21.07.2021    1432    VKuser24342747    3       

MongoDB с последней версией Atlas стал бессерверным

Новость СУБД ИТ-новость

13 июля MongoDB представила версию 5.0 платформы баз данных NoSQL. Последние обновления поддерживают многие рабочие нагрузки в бессерверном режиме. Новая версия включает новые возможности для приложений и улучшения конфиденциальности и безопасности.

20.07.2021    1723    SKravchenko    1       

«Яндекс» представил уникальный сервис для автоматического перевода видео

Новость Искусственный интеллект ИТ-новость Новости компаний Яндекс

«Яндекс» разработал прототип сервиса на базе нейросети, который в режиме реального времени переводит иностранные ролики на русский язык и озвучивает их. По словам компании, технология не имеет аналогов в мире.

20.07.2021    1651    VKuser24342747    2       

Появился способ игнорировать запрет установки Windows 11 на слабые ПК

Новость Windows ИТ-новость

Новая Windows 11 не может быть установлена на компьютеры, которые не соответствуют системным требованиям, определенным разработчиками. Однако продвинутые пользователи нашли способ обойти это ограничение.

19.07.2021    1502    VKuser24342747    0       

На свежих процессорах Intel создали микрокомпьютер под Windows 10

Новость Windows Гаджеты ИТ-новость Микроэлектроника

Энтузиасты и стартаперы полюбили Arduino и Raspberry Pi. Но инженеры Commate Computer (Commell) пошли дальше и представили миниатюрный ПК LE-37O на базе новейших чипов Intel Tiger Lake. И на нем можно запустить Windows 10.

16.07.2021    1403    user1015646    3       

Вот это поворот: Microsoft выпустила дистрибутив Linux

Новость Linux ИТ-новость Новости компаний

Пока мир замер в ожидании новой Windows 11, Microsoft решила преподнести пользователям большой сюрприз – и представила собственный дистрибутив Linux, CBL-Mariner 1.0.

15.07.2021    1816    user1015646    2       

Стартовала программа возмещения затрат разработчикам на скидки для малого бизнеса

Новость Законодательство Импортозамещение ИТ-новость Облачные технологии

Утверждена программа, в которой предусмотрено субсидирование разработки облачного программного обеспечения для малого и среднего бизнеса, а также скидки на софт, разработанный в рамках данной программы, до 50%.

15.07.2021    876    ЕленаЧерепнева    0       

Исследователи установили: ИИ-программы для собеседований не понимают речь соискателя

Новость Искусственный интеллект ИТ-новость

Эксперты из Массачусетского технологического института (MIT) изучили приложения, анализирующие резюме кандидатов. Ученые пришли к выводу, что такой софт плохо справляется с задачами и дает неверные результаты.

14.07.2021    813    VKuser24342747    1       

Юбилейный индекс TIOBE на июль. Рейтинг отмечает 20-летие

Новость ИТ-новость Рейтинг Языки программирования

Ежемесячный индекс TIOBE показывает, какие языки программирования наиболее популярны, и как их популярность растет с течением времени. В июле TIOBE отмечает 20-летие, публикует новый рейтинг и график популярности языков программирования за 20 лет.

12.07.2021    1272    SKravchenko    0       

Google сделает обязательной двухэтапную аутентификацию для аккаунтов разработчиков

Новость Google ИТ-новость Мобильные приложения

До конца года всем разработчикам мобильных приложений для продуктов Google нужно подключить двухэтапную аутентификацию. Также им придется пройти дополнительную верификацию личности. 

08.07.2021    1137    VKuser24342747    1       

Google установил новый обязательный формат для Android-приложений

Новость Google ИТ-новость Мобильные приложения Новости компаний

Компания Google объявила, что стандарт приложений Android App Bundle (AAB) станет обязательным в Play Store. Он заменит монолитный формат APK.

07.07.2021    1793    user1015646    0       

Токен исходного кода интернета продали с аукциона

Новость ИТ-новость

NFT-токены – уникальные двойники цифровых произведений – становятся все популярнее: их стали предлагать на традиционных аукционах с вековой историей. На этот раз ушел с молотка токен исходного кода интернета – на Sotheby’s его продали за 5,43 млн долларов США.

06.07.2021    2433    user1015646    0       

Российский разработчик научил нейросеть генерировать голос Геральта из The Witcher 3

Новость Видеоигры Искусственный интеллект ИТ-новость

Программист под ником nikich340 создал модификацию A Night to Remember для игры The Witcher 3: Wild Hunt, в которую добавлены новые реплики главного героя, озвученные нейросетью. 

06.07.2021    1625    VKuser24342747    0       

Linux получил крупнейшее обновление с момента выпуска пятой версии

Новость Linux ИТ-новость

Представлен первый стабильный релиз ядра Linux 5.13. По словам Линуса Торвальдса, это один из самых значительных релизов 5.x. ОС получила возможность корректно работать на процессорах Apple M1 и Intel Alder Lake.

05.07.2021    1777    VKuser24342747    4       

Amazon запустил конкурс на поиск уязвимостей AWS BugBust

Новость Безопасность ИТ-новость

Компания Amazon объявила о новом челлендже по поиску уязвимостей в AWS. И это не традиционная баунти-программа: здесь куда больше геймификации и амбициозная цель – совместно избавиться от 1 миллиона багов.

05.07.2021    1826    user1015646    0       

ИИ-помощник для программистов от Microsoft сможет дописывать код

Новость Искусственный интеллект ИТ-новость

Microsoft и GitHub представили совместный проект Copilot («второй пилот») на базе технологий организации OpenAI. Ассистент способен анализировать код и предлагать варианты завершения строк в зависимости от контекста. 

05.07.2021    2040    VKuser24342747    2