~speedprog/mtg/mtg_card_detector.git

			@@ -9,6 +9,18 @@
			if(i < N) Y[OFFY+iINCY] += ALPHAX[OFFX+i*INCX];
			}

			__global__ void pow_kernel(int N, float ALPHA, float X, int INCX, float Y, int INCY)
			{
			int i = (blockIdx.x + blockIdx.ygridDim.x) blockDim.x + threadIdx.x;
			if(i < N) Y[iINCY] = pow(X[iINCX], ALPHA);
			}

			__global__ void const_kernel(int N, float ALPHA, float *X, int INCX)
			{
			int i = (blockIdx.x + blockIdx.ygridDim.x) blockDim.x + threadIdx.x;
			if(i < N) X[i*INCX] = ALPHA;
			}

			__global__ void scal_kernel(int N, float ALPHA, float *X, int INCX)
			{
			int i = (blockIdx.x + blockIdx.ygridDim.x) blockDim.x + threadIdx.x;
			@@ -27,11 +39,23 @@
			if(i < N) Y[iINCY + OFFY] = X[iINCX + OFFX];
			}

			__global__ void mul_kernel(int N, float X, int INCX, float Y, int INCY)
			{
			int i = (blockIdx.x + blockIdx.ygridDim.x) blockDim.x + threadIdx.x;
			if(i < N) Y[iINCY] = X[i*INCX];
			}

			extern "C" void axpy_ongpu(int N, float ALPHA, float * X, int INCX, float * Y, int INCY)
			{
			axpy_ongpu_offset(N, ALPHA, X, 0, INCX, Y, 0, INCY);
			}

			extern "C" void pow_ongpu(int N, float ALPHA, float * X, int INCX, float * Y, int INCY)
			{
			pow_kernel<<<cuda_gridsize(N), BLOCK>>>(N, ALPHA, X, INCX, Y, INCY);
			check_error(cudaPeekAtLastError());
			}

			extern "C" void axpy_ongpu_offset(int N, float ALPHA, float * X, int OFFX, int INCX, float * Y, int OFFY, int INCY)
			{
			axpy_kernel<<<cuda_gridsize(N), BLOCK>>>(N, ALPHA, X, OFFX, INCX, Y, OFFY, INCY);
			@@ -43,6 +67,12 @@
			copy_ongpu_offset(N, X, 0, INCX, Y, 0, INCY);
			}

			extern "C" void mul_ongpu(int N, float * X, int INCX, float * Y, int INCY)
			{
			mul_kernel<<<cuda_gridsize(N), BLOCK>>>(N, X, INCX, Y, INCY);
			check_error(cudaPeekAtLastError());
			}

			extern "C" void copy_ongpu_offset(int N, float * X, int OFFX, int INCX, float * Y, int OFFY, int INCY)
			{
			copy_kernel<<<cuda_gridsize(N), BLOCK>>>(N, X, OFFX, INCX, Y, OFFY, INCY);
			@@ -55,6 +85,12 @@
			check_error(cudaPeekAtLastError());
			}

			extern "C" void const_ongpu(int N, float ALPHA, float * X, int INCX)
			{
			const_kernel<<<cuda_gridsize(N), BLOCK>>>(N, ALPHA, X, INCX);
			check_error(cudaPeekAtLastError());
			}

			extern "C" void scal_ongpu(int N, float ALPHA, float * X, int INCX)
			{
			scal_kernel<<<cuda_gridsize(N), BLOCK>>>(N, ALPHA, X, INCX);