Современные языки программирования для анализа данных Понятие • Язык программирования — формальная знаковая система, при помощи которой записываются компьютерные программы. По разным оценкам, в настоящее время существует от двух с половиной до десяти тысяч различных языков программирования. Языки программирования для анализа данных 1 Python 2 Java 3 R 4 C++ Языки программирования для анализа данных 5 SQL 6 MATLAB 7 Scala 8 Julia Python Совершенно незаметно подкралось тридцатилетие Python (1991 года) + Простой, но выразительный синтаксис; + Богатый выбор библиотек; + Высокая культура документации; + Наличие сообщества для получения консультаций; + Поддержка большого количества параметров для экспорта и обмена файлами. - Питон – язык с динамической типизацией; По количеству узкоспециализированных статистического анализа Python проигрывает R; Медлительнее других языков в обработке. пакетов для Java Язык программирования Java только выглядит устаревшим. Для работы использует JVM– собственную абстрактную вычислительную систему, которая обеспечивает полную переносимость между различными платформами. + Java вездесущ; + Строго типизированный язык; + Высокопроизводительный компилируемый язык общего назначения; + Обеспечение простого масштабирования при построении сложных приложений с нуля; + Возможность быстрого получения результатов. - Для узконаправленного анализа и специфичных статистических приложений синтаксис Java слишком многословен; Для Java создано не так много библиотек для работы со статистикой. R Язык R появился на свет в 1995 году как прямой наследник более старого языка S. Созданный с использованием C + Отличный ассортимент качественных специализированных пакетов с открытым исходным кодом.; + При базовой установке языка доступно множество статистических функций и методов; + Качественная визуализация; + Поддержка сообщества исполнителей; + Нативная поддержка векторных вычислений. - R не самый быстрый язык; Специфичность областей применения.; R C++ Мощный язык программирования общего назначения, обладающий молниеносной производительностью. Вопрос невысокой популярности C++ в Data Science объясняется выбором продуктивности вычислений против производительности языка + Возможность получения более быстрых и лучше оптимизированных результатов, когда базовые алгоритмы также написаны на языке С+ + Он быстрее в сравнении с другими языками программирования благодаря своей эффективной природе; - объём, сложность, эклектичность и отсутствие конкретной целевой ниши применения SQL Cоздан для определения, управления и создания запросов к реляционным базам данных. Он появился в 1974 году и с тех пор претерпел множество изменений, но его основные принципы остались прежними. + Очень эффективен при работе с реляционными базами данных; + Декларативный синтаксис делает SQL легко воспринимаемым языком.; + SQL используется во многих приложениях; + Более плавное управление огромными объемами данных; + Хорошая интегрируемость с программными языками и системами управления базами данных. - Аналитические возможности SQL довольно ограничены; Существует множество реализаций SQL, например, PostgreSQL, SQLite, MariaDB; SQL MATLAB MATLAB – признанный язык для вычислений, используется в академических кругах и промышленности. Разработан и лицензирован MathWorks, компанией, созданной в 1984 году, которая занимается разработкой программного обеспечения. + Создан для вычислений; + Имеет ряд встроенных функций для визуализации данных; + Используется во многих университетских курсах по физике, инженерии и прикладной математике; + Обеспечивает плавную масштабируемость. - Проприетарная лицензия. Конечная стоимость, конечно, зависит от области применения (существуют домашняя, студенческая, академическая или стандартная лицензии), но раскошелиться придется в любом случае (от $55 до пары тысяч). MATLAB Scala Скала разработан Мартином Одерски и выпущена в свет в 2004 год. Это еще один язык, который использует для работы JVM + Scala + Spark = высокопроизводительные кластерные вычисления; + Мультипарадигматика. Разработчик волен использовать как ООП, так и функциональный подход; + Наличие более чем 175000 библиотек, расширяющих его функциональность; + Сильная поддержка сообщества. - Scala – не самый простой для изучения язык, так что как первый он едва ли сгодится. Синтаксис в целом и система типизации в языке сложные. Scala Julia Скала разработан Мартином Одерски и выпущена в свет в 2004 год. Это еще один язык, который использует для работы JVM + Julia компилируется just-in-time, что обеспечивает хорошую производительность; + Читабельность; + Встроенная поддержка диспетчера пакетов; + Поддержка параллельных и распределенных вычислений; + Встроенная поддержка диспетчера пакетов. - Незрелость. Ограниченность набора пакетов. Julia Спасибо за внимание!