Использование технологий CUDA для высокопроизводительных вычислений

Автор: Пользователь скрыл имя, 30 Марта 2011 в 23:17, курсовая работа

Краткое описание

Устройства для превращения персональных компьютеров в маленькие суперкомпьютеры известны довольно давно. Ещё в 80-х годах прошлого века на рынке предлагались так называемые транспьютеры, которые вставлялись в распространенные тогда слоты расширения ISA. Первое время их производительность в соответствующих задачах впечатляла, но затем рост быстродействия универсальных процессоров ускорился, они усилили свои позиции в параллельных вычислениях, и смысла в транспьютерах не осталось. Хотя подобные устройства существуют и сейчас — это разнообразные специализированные ускорители.

Оглавление

Введение……………………………………………………………………………………………………3

Глава 1. Теоретическая часть.

История развития CUDO…………………………………………………………………..4
Возможности NVIDIA CUDA………………………………………………………………5
Преимущества и ограничения CUDA……………………………………………….6
Состав NVIDIA CUDA………………………………………………………………………….9
Основы создания программ на CUDA…………………………………………….10
Модель программирования CUDA………………………………………………….13
Среда программирования……………………………………………………………….14
Оптимизация программ на CUDA……………………………………………………15
Решения с поддержкой NVIDIA CUDA……………………………………………..16
Глава 2. Практическая часть.

Реализация …
Вывод…………………………………………………………………………………………………………11

Используемая литература…………………………………………………………………………

Файлы: 1 файл

ВСиИТ курсовая.docx

— 219.16 Кб (Скачать)

 МИНИСТЕРСТВО  ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

 ТЮМЕНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

 ИНСТИТУТ  МАТЕМАТИКИ И КОМПЬЮТЕРНЫХ НАУК

 КАФЕДРА ИНФОРМАЦИОННЫХ СИСТЕМ

 
 
 
 
 
 
 
 
 
 
 
 КУРСОВАЯ РАБОТА

 По  предмету: «Вычислительные системы, сети и телекоммуникации».

      По тема: «Использование технологий CUDA для высокопроизводительных вычислений».

                                                                     
             

               Выполнила: студентка  II курса ИМиКН, 395гр. Морякова Е.В.

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Тюмень  2010г.

Содержание 

Введение……………………………………………………………………………………………………3

Глава 1. Теоретическая  часть.

  1. История развития CUDO…………………………………………………………………..4
  2. Возможности NVIDIA CUDA………………………………………………………………5
  3. Преимущества и ограничения CUDA……………………………………………….6
  4. Состав NVIDIA CUDA………………………………………………………………………….9
  5. Основы создания программ на CUDA…………………………………………….10
  6. Модель программирования CUDA………………………………………………….13
  7. Среда программирования……………………………………………………………….14
  8. Оптимизация программ на CUDA……………………………………………………15
  9. Решения с поддержкой NVIDIA CUDA……………………………………………..16

Глава 2. Практическая часть.

  1. Реализация …

Вывод…………………………………………………………………………………………………………11

Используемая литература…………………………………………………………………………12 
 
 
 
 
 
 
 
 
 
 

Введение

Устройства  для превращения персональных компьютеров  в маленькие суперкомпьютеры  известны довольно давно. Ещё в 80-х  годах прошлого века на рынке предлагались так называемые транспьютеры, которые  вставлялись в распространенные тогда слоты расширения ISA. Первое время их производительность в соответствующих  задачах впечатляла, но затем рост быстродействия универсальных процессоров  ускорился, они усилили свои позиции  в параллельных вычислениях, и смысла в транспьютерах не осталось. Хотя подобные устройства существуют и сейчас — это разнообразные специализированные ускорители. Но зачастую сфера их применения узка и особого распространения  такие ускорители не получили.  

Но в последнее  время эстафета параллельных вычислений перешла к массовому рынку, так  или иначе связанному с трёхмерными  играми. Универсальные устройства с  многоядерными процессорами для  параллельных векторных вычислений, используемых в 3D-графике, достигают  высокой пиковой производительности, которая универсальным процессорам  не под силу. Конечно, максимальная скорость достигается лишь в ряде удобных задач и имеет некоторые  ограничения, но такие устройства уже  начали довольно широко применять в  сферах, для которых они изначально и не предназначались. Отличным примером такого параллельного процессора является процессор Cell, разработанный альянсом Sony-Toshiba-IBM и применяемый в игровой приставке Sony PlayStation 3, а также и все современные видеокарты от лидеров рынка — компаний NVIDIA и AMD.

Компания NVIDIA выпустила платформу CUDA — C-подобный язык программирования со своим компилятором и библиотеками для вычислений на GPU. Конечно же, написание оптимального кода для видеочипов совсем не такое простое и эта задача нуждается в длительной ручной работе, но CUDA как раз и раскрывает все возможности и даёт программисту больший контроль над аппаратными возможностями GPU. Важно, что поддержка NVIDIA CUDA есть у чипов G8x, G9x и GT2xx, применяемых в видеокартах GeForce серий 8, 9 и 200, которые очень широко распространены. В настоящее время выпущена финальная версия CUDA 2.0, в которой появились некоторые новые возможности.  
 
 
 

История развития CUDA

Разработка CUDA была анонсирована вместе с чипом G80 в ноябре 2006, а релиз публичной  бета-версии CUDA SDK состоялся в феврале 2007 года. Версия 1.0 вышла в июне 2007 года подзапуск в продажу решений Tesla, основанных на чипе G80, и предназначенных для рынка высокопроизводительных вычислений. Затем, в конце года вышла бета-версия CUDA 1.1, которая, несмотря на малозначительное увеличение номера версии, ввела довольно много нового.

Из появившегося в CUDA 1.1 можно отметить включение CUDA-функциональности в обычные видеодрайверы NVIDIA. Это означало, что в требованиях к любой CUDA программе достаточно было указать видеокарту серии GeForce 8 и выше, а также минимальную версию драйверов 169.xx. Это очень важно для разработчиков, при соблюдении этих условий CUDA программы будут работать у любого пользователя. Также было добавлено асинхронное выполнение вместе с копированием данных (только для чипов G84, G86, G92 и выше), асинхронная пересылка данных в видеопамять, атомарные операции доступа к памяти, поддержка 64-битных версий Windows и возможность мультичиповой работы CUDA в режиме SLI.

На данный момент актуальной является версия для  решений на основе GT200 — CUDA 2.0, вышедшая вместе с линейкой GeForce GTX 200. Бета-версия была выпущена ещё весной 2008 года. Во второй версии появились: поддержка вычислений двойной точности (аппаратная поддержка только у GT200), наконец-то поддерживается Windows Vista (32 и 64-битные версии) и Mac OS X, добавлены средства отладки и профилирования, поддерживаются 3D текстуры, оптимизированная пересылка данных. Что касается вычислений с двойной точностью, то их скорость на текущем аппаратном поколении ниже одинарной точности в несколько раз. Реализация в GT200 этой поддержки заключается в том, блоки FP32 не используются для получения результата в четыре раза меньшем темпе, для поддержки FP64 вычислений в NVIDIA решили сделать выделенные вычислительные блоки. И в GT200 их в десять раз меньше, чем блоков FP32 (по одному блоку двойной точности на каждый мультипроцессор).

Реально производительность может быть даже ещё меньше, так  как архитектура оптимизирована для 32-битного чтения из памяти и  регистров, кроме того, двойная точность не нужна в графических приложениях, и в GT200 она сделана скорее, чтобы  просто была. Да и современные четырехъядерные процессоры показывают не намного меньшую реальную производительность. Но будучи даже в 10 раз медленнее, чем одинарная точность, такая поддержка полезна для схем со смешанной точностью. Одна из распространенных техник — получить изначально приближенные результаты в одинарной точности, и затем их уточнить в двойной. Теперь это можно сделать прямо на видеокарте, без пересылки промежуточных данных к CPU.

Ещё одна полезная особенность CUDA 2.0 не имеет отношения  к GPU, как ни странно. Просто теперь можно  компилировать код CUDA в высокоэффективный  многопоточный SSE код для быстрого исполнения на центральном процессоре. То есть, теперь эта возможность  годится не только для отладки, но и реального использования на системах без видеокарты NVIDIA. Ведь использование CUDA в обычном коде сдерживается тем, что видеокарты NVIDIA хоть и самые  популярные среди выделенных видеорешений, но имеются не во всех системах. И до версии 2.0 в таких случаях пришлось бы делать два разных кода: для CUDA и отдельно для CPU. А теперь можно выполнять любую CUDA программу на CPU с высокой эффективностью, пусть и с меньшей скоростью, чем на видеочипах. 

Возможности NVIDIA CUDA 

Технология CUDA — это программно-аппаратная вычислительная архитектура NVIDIA, основанная на расширении языка Си, которая  даёт возможность организации доступа  к набору инструкций графического ускорителя и управления его памятью при  организации параллельных вычислений. CUDA помогает реализовывать алгоритмы, выполнимые на графических процессорах  видеоускорителей GeForce восьмого поколения и старше (серии GeForce 8, GeForce 9, GeForce 200), а также Quadro и Tesla.

Хотя трудоёмкость программирования GPU при помощи CUDA довольно велика, она ниже, чем с ранними GPGPU решениями. Такие программы требуют  разбиения приложения между несколькими  мультипроцессорами подобно MPI программированию, но без разделения данных, которые  хранятся в общей видеопамяти. И  так как CUDA программирование для  каждого мультипроцессора подобно  OpenMP программированию, оно требует хорошего понимания организации памяти. Но, конечно же, сложность разработки и переноса на CUDA сильно зависит от приложения.

Набор для  разработчиков содержит множество  примеров кода и хорошо документирован. Процесс обучения потребует около  двух-четырёх недель для тех, кто  уже знаком с OpenMP и MPI. В основе API лежит расширенный язык Си, а для трансляции кода с этого языка в состав CUDA SDK входит компилятор командной строки nvcc, созданный на основе открытого компилятора Open64.

Перечислим основные характеристики CUDA:

  • унифицированное программно-аппаратное решение для параллельных вычислений на видеочипах NVIDIA;
  • большой набор поддерживаемых решений, от мобильных до мультичиповых;
  • стандартный язык программирования Си;
  • стандартные библиотеки численного анализа FFT (быстрое преобразование Фурье) и BLAS (линейная алгебра);
  • оптимизированный обмен данными между CPU и GPU;
  • взаимодействие с графическими API OpenGL и DirectX;
  • поддержка 32- и 64-битных операционных систем: Windows XP, Windows Vista, Linux и MacOS X;
  • возможность разработки на низком уровне.

Касательно  поддержки операционных систем нужно  добавить, что официально поддерживаются все основные дистрибутивы Linux (Red Hat Enterprise Linux 3.x/4.x/5.x, SUSE Linux 10.x), но, судя по данным энтузиастов, CUDA прекрасно работает и на других сборках: Fedora Core, Ubuntu, Gentoo и др.

Среда разработки CUDA (CUDA Toolkit) включает:

  • компилятор nvcc;
  • библиотеки FFT и BLAS;
  • профилировщик;
  • отладчик gdb для GPU;
  • CUDA runtime драйвер в комплекте стандартных драйверов NVIDIA
  • руководство по программированию;
  • CUDA Developer SDK (исходный код, утилиты и документация).

В примерах исходного кода: параллельная битонная сортировка (bitonic sort), транспонирование матриц, параллельное префиксное суммирование больших массивов, свёртка изображений, дискретное вейвлет-преобразование, пример взаимодействия с OpenGL и Direct3D, использование библиотек CUBLAS и CUFFT, вычисление цены опциона (формула Блэка-Шоулза, биномиальная модель, метод Монте-Карло), параллельный генератор случайных чисел Mersenne Twister, вычисление гистограммы большого массива, шумоподавление, фильтр Собеля (нахождение границ). 

Преимущества  и ограничения  CUDA

С точки  зрения программиста, графический конвейер является набором стадий обработки. Блок геометрии генерирует треугольники, а блок растеризации — пиксели, отображаемые на мониторе. Традиционная модель программирования GPGPU выглядит следующим образом:

Чтобы перенести  вычисления на GPU в рамках такой модели, нужен специальный подход. Даже поэлементное сложение двух векторов потребует отрисовки фигуры на экране или во внеэкранный буфер. Фигура растеризуется, цвет каждого пикселя вычисляется по заданной программе (пиксельному шейдеру). Программа считывает входные данные из текстур для каждого пикселя, складывает их и записывает в выходной буфер. И все эти многочисленные операции нужны для того, что в обычном языке программирования записывается одним оператором!

Поэтому, применение GPGPU для вычислений общего назначения имеет ограничение в виде слишком большой сложности обучения разработчиков. Да и других ограничений достаточно, ведь пиксельный шейдер — это всего лишь формула зависимости итогового цвета пикселя от его координаты, а язык пиксельных шейдеров — язык записи этих формул с Си-подобным синтаксисом. Ранние методы GPGPU являются хитрым трюком, позволяющим использовать мощность GPU, но без всякого удобства. Данные там представлены изображениями (текстурами), а алгоритм — процессом растеризации. Нужно особо отметить и весьма специфичную модель памяти и исполнения.

Программно-аппаратная архитектура для вычислений на GPU компании NVIDIA отличается от предыдущих моделей GPGPU тем, что позволяет писать программы для GPU на настоящем языке Си со стандартным синтаксисом, указателями и необходимостью в минимуме расширений для доступа к вычислительным ресурсам видеочипов. CUDA не зависит от графических API, и обладает некоторыми особенностями, предназначенными специально для вычислений общего назначения.

Преимущества CUDA перед традиционным подходом к GPGPU вычислениям:

  • интерфейс программирования приложений CUDA основан на стандартном языке программирования Си с расширениями, что упрощает процесс изучения и внедрения архитектуры CUDA;
  • CUDA обеспечивает доступ к разделяемой между потоками памяти размером в 16 Кб на мультипроцессор, которая может быть использована для организации кэша с широкой полосой пропускания, по сравнению с текстурными выборками;
  • более эффективная передача данных между системной и видеопамятью
  • отсутствие необходимости в графических API с избыточностью и накладными расходами;
  • линейная адресация памяти, и gather и scatter, возможность записи по произвольным адресам;
  • аппаратная поддержка целочисленных и битовых операций.

Информация о работе Использование технологий CUDA для высокопроизводительных вычислений