麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁 > 學(xué)院 > 開發(fā)設(shè)計 > 正文

CUDA中的常量內(nèi)存__constant__

2019-11-11 05:56:09
字體:
供稿:網(wǎng)友

GPU包含數(shù)百個數(shù)學(xué)計算單元,具有強大的處理運算能力,可以強大到計算速率高于輸入數(shù)據(jù)的速率,即充分利用帶寬,滿負(fù)荷向GPU傳輸數(shù)據(jù)還不夠它計算的。CUDA C除全局內(nèi)存和共享內(nèi)存外,還支持常量內(nèi)存,常量內(nèi)存用于保存在核函數(shù)執(zhí)行期間不會發(fā)生變化的數(shù)據(jù),使用常量內(nèi)存在一些情況下,能有效減少內(nèi)存帶寬,降低GPU運算單元的空閑等待。

使用常量內(nèi)存提升性能

使用常量內(nèi)存可以提升運算性能的原因如下:

對常量內(nèi)存的單次讀操作可以廣播到其他的“鄰近(nearby)”線程,這將節(jié)約15次讀取操作;高速緩存。常量內(nèi)存的數(shù)據(jù)將緩存起來,因此對于相同地址的連續(xù)操作將不會產(chǎn)生額外的內(nèi)存通信量;在CUDA架構(gòu)中,線程束是指一個包含32個線程的集合,這個線程集合被“編織在一起”并且以“步調(diào)一致(Lockstep)”的形式執(zhí)行。當(dāng)處理常量內(nèi)存時,NVIDIA硬件將把單次內(nèi)存讀取操作廣播到每個半線程束(Half-Warp)。在半線程束中包含16個線程,即線程束中線程數(shù)量的一半。如果在半線程束中的每個線程從常量內(nèi)存的相同地址上讀取數(shù)據(jù),那么GPU只會產(chǎn)生一次讀取請求并在隨后將數(shù)據(jù)廣播到每個線程。如果從常量內(nèi)存中讀取大量數(shù)據(jù),那么這種方式產(chǎn)生的內(nèi)存流量只是使用全局內(nèi)存時的1/16。

常量內(nèi)存的聲明

為普通變量分配內(nèi)存時是先聲明一個指針,然后通過cudaMalloc()來為指針分配GPU內(nèi)存。而當(dāng)我們將其改為常量內(nèi)存時,則要將這個聲明修改為在常量內(nèi)存中靜態(tài)地分配空間。我們不再需要對變量指針調(diào)用cudaMalloc()或者cudaFree(),而是在編譯時為這個變量(如一個數(shù)組)提交固定的大小。首先用“___constant_”聲明一個常量內(nèi)存變量,然后使用cudaMemcpyToSymbol(而不是cudaMemcpy)把數(shù)據(jù)從主機拷貝到設(shè)備GPU中。

常量內(nèi)存使用示例

以下程序用CUDA+OpenCv實現(xiàn)一個簡單場景的光線跟蹤,光線跟蹤是從三維場景生成二維圖像的一種方式。主要思想為:在場景中選擇一個位置放上一臺假想的相機,該相機包含一個光傳感器來生成圖像,需要判斷那些光將接觸到這個傳感器。圖像中每個像素與命中傳感器的光線有相同的顏色和強度。傳感器中命中的光線可能來自場景中的任意位置,想象從該像素發(fā)出一道射線進(jìn)入場景中,跟蹤該光線穿過場景,直到光線命中某個物體。代碼實現(xiàn):
#include "cuda_runtime.h"#include <highgui/highgui.hpp>#include <time.h>using namespace cv;#define INF 2e10f  #define rnd(x) (x*rand()/RAND_MAX)  #define SPHERES 100 //球體數(shù)量#define DIM 1024    //圖像尺寸struct Sphere{	float r, g, b;	float radius;	float x, y, z;	__device__ float hit(float ox, float oy, float *n)	{		float dx = ox - x;		float dy = oy - y;		if (dx*dx + dy*dy < radius*radius)		{			float dz = sqrt(radius*radius - dx*dx - dy*dy);			*n = dz / sqrt(radius*radius);			return dz + z;		}		return -INF;	}};// Sphere *s;__constant__ Sphere s[SPHERES];/************************************************************************///__global__ void rayTracing(unsigned char* ptr, Sphere* s)  __global__ void rayTracing(unsigned char* ptr){	int x = threadIdx.x + blockIdx.x * blockDim.x;	int y = threadIdx.y + blockIdx.y * blockDim.y;	int offset = x + y  * blockDim.x * gridDim.x;	float ox = (x - DIM / 2);	float oy = (y - DIM / 2);	float r = 0, g = 0, b = 0;	float maxz = -INF;	for (int i = 0; i < SPHERES; i++)	{		float n;		float t = s[i].hit(ox, oy, &n);		if (t > maxz)		{			float fscale = n;			r = s[i].r * fscale;			g = s[i].g * fscale;			b = s[i].b * fscale;			maxz = t;		}	}	ptr[offset * 3 + 2] = (int)(r * 255);	ptr[offset * 3 + 1] = (int)(g * 255);	ptr[offset * 3 + 0] = (int)(b * 255);}/************************************************************************/int main(int argc, char* argv[]){	cudaEvent_t start, stop;	cudaEventCreate(&start);	cudaEventCreate(&stop);	cudaEventRecord(start, 0);	Mat bitmap = Mat(Size(DIM, DIM), CV_8UC3, Scalar::all(0));	unsigned char *devBitmap;	(cudaMalloc((void**)&devBitmap, 3 * bitmap.rows*bitmap.cols));	//  cudaMalloc((void**)&s, sizeof(Sphere)*SPHERES);  	Sphere *temps = (Sphere*)malloc(sizeof(Sphere)*SPHERES);	srand(time(0));  //隨機數(shù)種子	for (int i = 0; i < SPHERES; i++)	{		temps[i].r = rnd(1.0f);		temps[i].g = rnd(1.0f);		temps[i].b = rnd(1.0f);		temps[i].x = rnd(1000.0f) - 500;		temps[i].y = rnd(1000.0f) - 500;		temps[i].z = rnd(1000.0f) - 500;		temps[i].radius = rnd(100.0f) + 20;	}	//  cudaMemcpy(s, temps, sizeof(Sphere)*SPHERES, cudaMemcpyHostToDevice);  	cudaMemcpyToSymbol(s, temps, sizeof(Sphere)*SPHERES);	free(temps);	dim3 grids(DIM / 16, DIM / 16);	dim3 threads(16, 16);	//  rayTracing<<<grids, threads>>>(devBitmap, s);  	rayTracing << <grids, threads >> > (devBitmap);	cudaMemcpy(bitmap.data, devBitmap, 3 * bitmap.rows*bitmap.cols, cudaMemcpyDeviceToHost);	cudaEventRecord(stop, 0);	cudaEventSynchronize(stop);	float elapsedTime;	cudaEventElapsedTime(&elapsedTime, start, stop);	PRintf("Processing time: %3.1f ms/n", elapsedTime);	imshow("CUDA常量內(nèi)存使用示例", bitmap);	waitKey();	cudaFree(devBitmap);	//  cudaFree(s);  	return 0;}程序里生成球體的大小和位置是隨機的,為了產(chǎn)生隨機數(shù),加入了隨機數(shù)種子srand()。運行效果: 


發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 欧美视频一区二区三区在线观看 | 国产喷白浆10p | 久久网站免费 | 久久综合精品视频 | 国产一级二级视频 | 国产成人小视频在线观看 | 天天草天天干天天射 | 操网 | 日韩精品免费看 | 黄 色 免费网 站 成 人 | 一级做受毛片免费大片 | 干少妇av | 亚洲午夜影院在线观看 | 在线亚洲免费视频 | 国产精品99久久久久久大便 | 本色视频aaaaaa一级网站 | 国产99视频在线观看 | 国产一级毛片高清视频 | 性爱视频免费 | 草妞视频| 黄色一级片毛片 | 亚洲精品无码不卡在线播放he | 久久99精品久久久久久小说 | 精品国产精品久久 | 看免费一级毛片 | 国产亚洲精品久久久久5区 日韩一级片一区二区三区 国产精品久久久久av | 欧美一级欧美 | va免费视频| 一级做受大片免费视频 | 香蕉黄色网 | 色av成人天堂桃色av | 欧美一级免费看 | 精品国产91久久久久久久 | 亚洲国产超高清a毛毛片 | 狠狠干天天操 | 一级大黄毛片免费观看 | 国产一区二区三区撒尿在线 | 九九色网站 | 中文字幕在线观看亚洲 | 国产精品刺激对白麻豆99 | 日韩视频精品一区 |