Машинное обучение и Искусственный Интеллект. Тимур Машнин

Читать онлайн книгу.

Машинное обучение и Искусственный Интеллект - Тимур Машнин


Скачать книгу
приложениями в реальных задачах.

      Наука о данных не является подмножеством машинного обучения, но использует машинное обучение для анализа данных и прогнозирования будущего.

      Наука о данных сочетает в себе машинное обучение с другими дисциплинами, такими как анализ больших данных и облачные вычисления.

      Наука о данных – это практическое применение машинного обучения с фокусом на решении реальных задач.

      Наука о данных в основном сосредоточена на работе с неструктурированными данными.

      Структурированные данные больше похожи на табличные данные, с которыми мы имеем дело в Microsoft Excel, где у вас есть строки и столбцы, и это называется структурированными данными.

      Неструктурированные данные – это данные, поступающие в основном из Интернета, где они не являются табличными, они не в виде строк и столбцов, а в виде текста, иногда это видео и аудио, поэтому вам придется использовать более сложные алгоритмы для обработки этих данных.

      Традиционно при вычислении и обработке данных мы переносим данные на компьютер.

      Но если данных очень много, они просто могут не поместиться на одном компьютере.

      Поэтому Google придумал очень просто: они взяли данные и разбили их на куски, и они отправили эти куски файлов на тысячи компьютеров, сначала это были сотни, а потом тысячи, и теперь десятки тысяч компьютеров.

      И они поставили одну и ту же программу на все эти компьютеры в кластере.

      И каждый компьютер запускает эту программу на своем маленьком фрагменте файла и отправляет результаты обратно.

      Затем результаты сортируются и объединяются.

      Первый процесс называется процессом Map, а второй – процессом Reduce.

      Это довольно простые концепции, но оказалось, что вы можете делать с их помощью много разных видов обработки, выполнять много разных задач и обрабатывать очень большие наборы данных.

      И такая архитектура называется Hadoop.

      И когда у нас появились вычислительные возможности для обработки данных, у нас появились новые методы, такие как машинное обучение.

      С помощью которого мы можем взять большие наборы данных, и вместо того, чтобы брать выборку из этих данных и пытаться проверить какую-то гипотезу, мы можем взять большие наборы данных и искать в них шаблоны – закономерности.

      То есть перейти от проверки гипотез к поиску шаблонов, которые, возможно, будут генерировать гипотезы.

      Это отличается от традиционной статистики, где у вас должна быть гипотеза, которая не зависит от данных, и затем вы проверяете ее на данных.

      В машинном обучении сами данные генерируют гипотезы.

      С появлением больших данных и вычислительных возможностей стало актуальным глубокое машинное обучение и использование нейронных сетей.

      Jupyter Notebook

      Технология нейронных сетей существовала 30 лет назад, но ее развитие сдерживалось нехваткой данных и вычислительных возможностей.

      Нейронные сети – это попытка подражать нейронам


Скачать книгу