IBM обучит нейросеть программированию на 14 млн фрагментов кода

IBM обучит нейросеть программированию на 14 млн фрагментов кода

19.05.2021      8560

IBM представила набор данных Project CodeNet, который предназначен для тренировки нейросетей написанию рабочего программного кода. В датасет вошли сведения о 55 языках программирования.

Размер базы

Американская ИТ-компания на конференции сравнила свой проект с приложением Rosetta Stone для изучения иностранных языков, с той лишь разницей, что набор данных позволит обучать программированию искусственный интеллект. Научный сотрудник IBM Ручир Пури рассказал, что датасет не уступает аналогичному комплексу для разработки систем компьютерного зрения ImageNet.

В базу CodeNet вошло множество сведений о различных аспектах разработки приложений. Набор данных содержит 14 млн фрагментов кода и 500 млн строк на 55 языках – от устаревших COBOL и FORTRAN до актуальных Java, C ++ и Python. Также в датасете включено около 4 тыс. задач по программированию.

Проблемы обучения ИИ

По словам авторов проекта, первый шаг в обучении нейросетей программированию – это возможность искусственного интеллекта переводить код с одного языка на другой. Ручир Пури отмечает, что тренировка системы на датасете, который включает несколько языков, позволит применять ИИ в парных операциях. Например, станет возможным переписать COBOL-код на Java или наоборот.

Такой подход поможет упростить понимание, разработку и развертывание приложений. Программирование работает по определенным правилам, но их знания нейросети будет недостаточно для того, чтобы перевести программу с одного языка на другой. Авторы Project CodeNet в качестве примера приводят COBOL, который давно уже устарел, но его все равно продолжают использовать, потому что уже написанные на нем приложения еще применяются в бизнесе. Автоматизировать процесс перехода на современный язык мешает контекст конкретного решения. Без понимания связей перевести возможно не более 60% программы.

Возможности датасета

Набор данных CodeNet уникален не только по объему информации, но и по качеству метаданных и аннотаций к коду. Кроме того, в базу включены описание проблем и примеры их решения средствами программирования.

Поэтому датасет IBM позволяет использовать искусственный интеллект для поиска фрагментов кода и обнаружения клонов. CodeNet также может выступать в роли эталонного набора данных. Каждый образец помечен временем работы процессора и объемом памяти, благодаря чему разработчики имеют возможность проводить регрессионные исследования, создавать собственные системы, поддерживающие автоматическую коррекцию кода.

Изучить данные CodeNet и использовать их в работе можно при помощи репозитория на GitHub.



Источник: https://infostart.ru/journal/news/tekhnologii/ibm-obuchit-neyroset-programmirovaniyu-na-14-mln-fragmentov-koda_1443758/
Автор:
Александр Вашкевич Аналитик


Комментарии
В избранное Подписаться на ответы Сортировка: Древо развёрнутое
Свернуть все
1. Darklight 27 19.05.21 14:03 Сейчас в теме
14млн фрагментов? Всего-то! Надеюсь приложение "Hello World" хоть сможет написать? А при не стандартной постановке?
2. o.nikolaev 204 19.05.21 19:39 Сейчас в теме
(1) Смейся, смейся - кожаный мешок! Это начало конца нашей профессии. Как вовремя я решил выучиться на сварщика-то...
vsesam80; Артано; chg; +3 Ответить
3. Darklight 27 19.05.21 20:07 Сейчас в теме
(2)Роботы сварщики уже давно есть - Вы выучили не ту профессию
4. o.nikolaev 204 19.05.21 20:12 Сейчас в теме
(3) Да нет, это вы ошиблись с выбором.
5. chg 20.05.21 06:54 Сейчас в теме
(4)на сантехника вернее:
- видишь этот кран? Так вот он как стоил пузырь, так и будет стоить.
o.nikolaev; Артано; +2 Ответить
6. Артано 719 20.05.21 07:47 Сейчас в теме
На самом деле не повод для смеха, еще несколько лет назад давал прогноз, что через 20 лет, профессия кодера будет автоматизирована. Останутся архитекторы и сопричастные.
Сейчас всего лишь проводятся первые эксперименты для оценки трудоёмкости, возможных проблем и потенциальной коммерческой эффективности
o.nikolaev; +1 Ответить
7. Darklight 27 20.05.21 10:22 Сейчас в теме
(6)Кодеры - уйдут в прошлое! Но... вряд ли за 20 лет. Но за 100 - скорее всего! И это правильно. А языки программирования должны эволюционировать до более высокоуровневого состояния. 5-его поколение не предел - на него нужно выйти во второй половине XXI века (в массовой разработке прикладных приложений). А в XXII веке нужно будет выйти и на языки 6-го поколения (о них сейчас даже почти никто и не помышляет). Вот только после этого профессия кодера начнёт массово отмирать!
Может я силишкам пессимистичен в прогнозах! Или излишне пессимистичны те, кто предрекает смерть профессии кодера уже в XXI веке (не говоря уже о первой половине XXI века).
Да и много ли Вы знаете кодеров в 1С Предприятие 8? Кодингом да - многие занимаются - но не в меньшей степени чем разработкой, а многие такие "кодеры" ещё и архитекторы СУБД администраторы.
И это положение дел навряд ли сильно изменится даже если к середине века выйдет гипотетическая революционно новая платформа - 1С Предприятие 9 - тут нужно скакнуть аж "через две головы", чтобы свести кодинг в среде 1С Предприятие к минимуму! Но что-то уже не верится в то, что фирма 1С на такое будет способна (даже в 1С Предприятие 10, лет через 70-80-100). Скорее всего то новое поколение разработчиков прикладных решений на специализированных платформах уже перейдут на иные учётные системы - созданные молодыми и амбициозными командами, имеющих, в своём составе, если и не гениев, то хотя бы неординарных специалистов, готовых внедрять новые идеи и перенимать мировые достижения. Старым командам 1С это уже не подсилу... и не понять...
8. Артано 719 21.05.21 04:46 Сейчас в теме
(7)
Скорее всего то новое поколение разработчиков прикладных решений на специализированных платформах уже перейдут на иные учётные системы - созданные молодыми и амбициозными командами, имеющих, в своём составе, если и не гениев, то хотя бы неординарных специалистов, готовых внедрять новые идеи и перенимать мировые достижения. Старым командам 1С это уже не подсилу... и не понять...


Да, в недавнем споре подобный сценарий я и выдвигал как наиболее вероятный применительно к одинесникам. не будет новой платформы, будут принципиально иные решения не требующие штата программистов и кастомизируемых роботами под конкретного клиента. Разумеется, под присмотром архитектора =)

Если хотите знать своё конкретное будущее, то рано или поздно вам скажут, что мы купили новую программу для нашего учета, вместе с сервисом по доработкам и сопровождению. Получается намного дешевле и быстрее и багов меньше чем в твоей нетленке, которую ты пилишь уже 5-10-15 лет.
9. Darklight 27 21.05.21 10:03 Сейчас в теме
(8)
не будет новой платформы, будут принципиально иные решения не требующие штата программистов и кастомизируемых роботами под конкретного клиента

"Не в нашу смену" ;-) не стоит этого ждать в ближайшие лет 100, или я не понимаю вашего мнения.
До подобных систем ещё очень далеко (такого подобия нет ни у кого ещё), всё-таки платформы будут развиваться более плавно. Как я написал выше - моё мнение, что это уровень не ниже 1С Предприятие 10 (а в Вашем описании - технологии, скорее 11-го поколения) - т.е. это уже XXII век - таково моё мнение. Но я скептически отнёсся к тому, что 1С Предприятие доживёт до 10-ой генерации (а если вдруг доживёт - то на ней и загнётся, не в силу конкурировать - разве что Россия к тому времени не будет в полной изоляции и 1С будет иметь около 100% всего рынка за неимением доступа конкурентов извне, если только в России не появятся свои новые конкуренты к тому времени). Но в то, что рано или поздно выйдет 1С Предприятие 9 - я верю (не верю, что скоро выйдет, тут скорее руководство в 1С должно будет в корне поменяться, ну или перед своим уходом Б. Нуралиев выпустить прощальный подарок - своё последнее виденье новой платформы). Но при любом раскладе - вряд ли 1С Предприятие 9 далеко уйдёт от 8-ки - вообще фантазии на эту тему, наверное, достойный отдельной статьи, если эти фантазии, далёкого от компании 1С человека, интересны, а сотрудникам 1С - до сообщества дела нет, тем более до фантазий - от них ждать не стоит.

А моё мнение таково - что в 9-ке поменяется язык (вероятно на основе 1С Исполнителя - а он, лично мне по вкусу не пришёлся), поменяется движок: вероятно перейдёт на Java - что, в общем-то не плохо, возможно и язык конфигураций будет исполняться на Java платформе - что логично (хотя я бы выбрал LLVM или .NET(а для web будет компилироваться в Web-assembler). Вероятно внешнре компоненты можно будет подключать бесшовно, как на OneScript. Переработают язык запросов (но вряд ли он станет менее похотим на SQL). Уйдёт в прошлое 1С-конфигуратор (его заменит EDT - или что-то в этом духе). Появится много инструментов и смарт-помощников для программиста (для анализа, рефакторинга, кодинга...). Архитектура клиент-сервера перейдёт на микросервисы. Возможно, сделают свою СУБД (гибридную, с поддержкой реляционной и нереляционной алгебры) с миркросервисами, которые можно будет и расширять (на каком-то языке - возможно на Java, имея низкоуровневый доступ). Переработают дерево метаданных (не знаю - останется ли жёсткое разделена на справочники, документы и т.п. - считаю это всё пережитком прошлого, хоть это и ключевая фишка платформы - но её можно оставить через логические представления - видимые для пользователей). Структура метаданных станет более гибкой и вложенной. Появится голосовое управление. Появятся песевдо-AI-помшники для помощи в обработке данных и их анализу. Поддержка национальной локализации архитектуры станет ещё более гибкой. Пожалуй, наверное, всё - чего-то большего ждать за 20-30 лет от компании 1С не стоит. Ну разве, что появится гибкая поддержка модульности (особенно это нужно для национальной лаколизации) - как дальнейшее развитие идеи расширений (но это под вопросом, хотя многие больше всего ждут именно этого). Вероятнее всего поменяется лицензионная политика (не знаю в какую сторону, вероятно на разные микросервисы нужны будут свои лицензии, изменится и лицензионное масштабирование - став более прозрачным, но более дорогим).
В общем - тут много революционных идей, но в целом - ничего особенного и сверхъестественного. Всё уже давно назрело. Без многих идей делать новое поколение платформы просто бессмысленно. Ничего того, что можно было бы сделать уже сейчас тут нет. Бери - да делай - и тут просто нужно время.
И здесь нет ничего, что бы существенно сокращало штат программистов.

Если хотите знать своё конкретное будущее, то рано или поздно вам скажут, что мы купили новую программу для нашего учета, вместе с сервисом по доработкам и сопровождению

Перейдём в разработку таких систем и расширений к ним.
Оставьте свое сообщение

См. также

Российская ОС «Аврора» получила крупное обновление до версии 4.0

Новость ОС ИТ-новость Мобильные приложения Новости компаний

Компания «Открытая мобильная платформа» выпустила мобильную операционную систему «Аврора» 4.0. Релиз включает более 300 улучшений, из них 40 – важные нововведения.

03.12.2021    7439    VKuser24342747    2       

Российские банки запустили систему переводов без номера телефона и карты

Новость Банки Безопасность ИТ-новость

Новая технология позволяет клиентам банков переводить деньги на ближайшие устройства при помощи Bluetooth и AirDrop без указания реквизитов карты или счета, а также телефонного номера.

02.12.2021    5336    VKuser24342747    3       

Сотрудники Минцифры протестируют сервисы VK для госслужащих

Новость ИТ-новость Минкомсвязь Цифровая экономика

Компания VK разработала набор приложений для автоматизации работы госслужащих. Первыми получат возможность опробовать мессенджер, файлообменник, почту и другие сервисы чиновники из Минцифры.

02.12.2021    6791    VKuser24342747    0       

Лаборатория Касперского представила бесплатную ОС

Новость ОС Безопасность ИТ-новость Новости компаний

«Лаборатория Касперского» выпустила собственную операционную систему. На базе KasperskyOS можно создать решения, которые защищены от многих видов кибератак.

01.12.2021    6171    user1015646    2       

«Яндекс» представил сервис для сканирования документов

Новость ИТ-новость Новости компаний Яндекс

В приложениях «Яндекс.Почта» и «Яндекс.Диск» появился новый сервис «Сканер». Он при помощи искусственного интеллекта обрабатывает фотографию документа, улучшает ее качество и выдает в результате «отсканированный» файл.

01.12.2021    7050    VKuser24342747    1       

OpenAI открывает доступ к API GPT-3

Новость Искусственный интеллект ИТ-новость Новости компаний

Компания OpenAI предоставила доступ к API (прикладному программному интерфейсу) алгоритмов обработки естественного языка GPT-3. Это открывает новые возможности для экспериментов с умными системами, которые могут имитировать человеческие возможности – например, писать стихи или отвечать на вопросы.

29.11.2021    5271    user1015646    0       

Компания JetBrains представила легковесный редактор Fleet

Новость ИТ-новость Новости компаний

Разработчики нового продукта пообещали своим пользователям поддержку инструментов коллективной разработки, удаленный доступ к проектам, а также возможность трансформации редактора в полноценную IDE.

29.11.2021    5510    ЕленаЧерепнева    8       

Разработчики Astra Linux создали аналог Microsoft Active Directory

Новость Linux Безопасность Импортозамещение ИТ-новость Новости компаний

Группа компаний «Астра» представила службу ALD Pro, которая замещает в российской ОС Astra Linux решение Microsoft Active Directory. Поддержку этой функции от системы часто требуют госзаказчики.

29.11.2021    8264    VKuser24342747    1       

Специальный алгоритм очистит данные переписи населения

Новость Искусственный интеллект ИТ-новость

В России завершился первый этап Всероссийской переписи населения. Росстат будет в автоматическом режиме очищать собранные данные от продублированных записей при помощи российской BI-системы.

26.11.2021    6981    VKuser24342747    0       

В офисах Google появились универсальные роботы

Новость Автоматизация ИТ-новость Новости компаний

Офисы Google в Маунтин Вью, штат Калифорния, теперь станут гораздо чище. К уборке привлекли универсальных роботов, разработанных X Company, которая, как и поисковый гигант, входит в состав холдинга Alphabet.

25.11.2021    6410    user1015646    2       

Вышло крупное обновление для TypeScript с автодополнением кода

Новость ИТ-новость Языки программирования

Команда разработки TypeScript представила версию языка под номером 4.5. В ней улучшена производительность технологии, расширены возможности автодополнения и упрощено переподключение библиотек.

24.11.2021    10493    VKuser24342747    4       

GitHub назвал три ключевых тренда в разработке за 2021 год

Новость GitHub Аналитика ИТ-новость

GitHub провел традиционное ежегодное исследование Octoverse, чтобы определить основные направления развития ИТ-индустрии. В 2021 году актуальными стали вопросы быстрого написания кода и подготовки документации.

24.11.2021    10735    VKuser24342747    0       

Рособрнадзор прекратит использовать Windows при проведении ЕГЭ

Новость Импортозамещение ИТ-новость

Единый государственный экзамен к концу 2024 года будет проходить без использования ОС Windows во всех местах, где можно сдать тестирование. Вместо нее будет установлена российская система.

23.11.2021    7148    VKuser24342747    5       

Google выпустил версию браузера Chrome 96

Новость Интернет ИТ-новость Новости компаний

Новая актуальная версия Google Chrome 96 получила расширение инструментов для веб-разработчиков и экспериментальные функции в мобильной версии.

23.11.2021    7438    VKuser24342747    1       

Через Госуслуги компании подтвердили 13,3 млн корпоративных SIM-карт

Новость Безопасность ИТ-новость Телекоммуникации

Министерство цифрового развития сообщило, что компании соблюдают новые требования закона «О связи» и уже зарегистрировали на портале госуслуг 13,3 млн рабочих SIM-карт.

22.11.2021    8492    VKuser24342747    1       

Visual Studio 2022 и .NET 6: что нового

Новость ИТ-новость Новости компаний Языки программирования

Microsoft выпустила свежий релиз одной из самых популярных сред разработки. Вместе с Visual Studio 2022 представили обновленную платформу .NET 6.

22.11.2021    10564    user1015646    0       

Программист разработал поисковую систему без слежки за пользователями

Новость Безопасность Интернет ИТ-новость

Бывший разработчик из компании Salesforce Ричард Сокер открыл публичный доступ к своему поисковому сервису You. В нем нет никаких трекеров личных данных и рекламных материалов.

18.11.2021    6961    VKuser24342747    3       

«Сбер» обучил нейросеть ruGPT-3 генерировать программный код

Новость Искусственный интеллект ИТ-новость Новости компаний

Новая функция самой большой генеративной AI-модели для русского языка получила название JARVIS. Сейчас сервис способен работать с языками программирования Java, Python и JavaScript.

18.11.2021    6826    VKuser24342747    2       

Университет Иннополис создал уникальный российский индустриальный блокчейн

Новость Блокчейн ИТ-новость

В России разработан блокчейн InnoChain, который предназначен для использования в закрытых сетях. С его помощью можно подписывать договоры и планировать объемы продаж.

17.11.2021    7511    VKuser24342747    0       

В Dropbox появились «автоматизированные папки» и новая система тегов

Новость ИТ-новость Облачные технологии

Dropbox добавил в свой облачный сервис функции, которые позволят автоматизировать работу с общими папками и файлами. К ним относятся автоматизированные папки, автоматизированная панель инструментов, соглашения об именах и многофайловая организация.

17.11.2021    7138    SKravchenko    1       

Microsoft выпустит платформу Defender for Business

Новость ИТ-новость Новости компаний

Microsoft Defender for Business станет частью комплексного решения Microsoft 365 Business Premium, которое объединяет Microsoft Teams и Office 365 с основными инструментами безопасности для малого и среднего бизнеса.

16.11.2021    4792    SKravchenko    0       

Adobe Photoshop и Illustrator стали доступны онлайн

Новость

У популярных графических редакторов появились веб-версии. Они позволяют редактировать фото, не устанавливая требовательные к ресурсам приложения на компьютер или смартфон, и включают достаточно широкий набор инструментов.

11.11.2021    6039    user1015646    0       

Что нового в SQL Server 2022

Новость СУБД MS SQL ИТ-новость Новости компаний

Microsoft на ежегодной конференции Microsoft Ignite анонсировала предварительную версию SQL Server 2022 – теперь СУБД включает интеграцию с базой Azure SQL, службой аналитики Azure Synapse Analytics и платформой управления данными Azure Purview.

11.11.2021    11188    SKravchenko    0       

«Сбер» представил нейросеть для генерации картинок по описанию

Новость Искусственный интеллект ИТ-новость

Сервис ruDALL-E способен генерировать изображения с нуля по текстовому описанию на русском языке. Авторы полагают, что модель будет полезна для создания рекламного, архитектурного и промышленного дизайна.

11.11.2021    7288    VKuser24342747    11       

Правительство собирается определить главный российский процессор

Новость Импортозамещение ИТ-новость

Минцифры и Минпромторг намерены выбрать приоритетную российскую микропроцессорную платформу. Разработчики отечественного ПО будут обязаны поддерживать ее.

10.11.2021    6887    VKuser24342747    4