~speedprog/mtg/mtg_card_detector.git

			@@ -1,12 +1,15 @@
			#ifndef BLAS_H
			#define BLAS_H
			void flatten(float *x, int size, int layers, int batch, int forward);
			void pm(int M, int N, float *A);
			float *random_matrix(int rows, int cols);
			void time_random_matrix(int TA, int TB, int m, int k, int n);
			void reorg_cpu(float x, int w, int h, int c, int batch, int stride, int forward, float out);

			void test_blas();

			void const_cpu(int N, float ALPHA, float *X, int INCX);
			void constrain_ongpu(int N, float ALPHA, float * X, int INCX);
			void pow_cpu(int N, float ALPHA, float X, int INCX, float Y, int INCY);
			void mul_cpu(int N, float X, int INCX, float Y, int INCY);

			@@ -30,13 +33,19 @@

			void smooth_l1_cpu(int n, float pred, float truth, float delta, float error);
			void l2_cpu(int n, float pred, float truth, float delta, float error);
			void weighted_sum_cpu(float a, float b, float s, int num, float c);

			void softmax(float input, int n, float temp, float output);

			#ifdef GPU
			#include "cuda.h"

			void axpy_ongpu(int N, float ALPHA, float * X, int INCX, float * Y, int INCY);
			void axpy_ongpu_offset(int N, float ALPHA, float * X, int OFFX, int INCX, float * Y, int OFFY, int INCY);
			void copy_ongpu(int N, float * X, int INCX, float * Y, int INCY);
			void copy_ongpu_offset(int N, float * X, int OFFX, int INCX, float * Y, int OFFY, int INCY);
			void scal_ongpu(int N, float ALPHA, float * X, int INCX);
			void supp_ongpu(int N, float ALPHA, float * X, int INCX);
			void mask_ongpu(int N, float * X, float mask_num, float * mask);
			void const_ongpu(int N, float ALPHA, float *X, int INCX);
			void pow_ongpu(int N, float ALPHA, float X, int INCX, float Y, int INCY);
			@@ -58,8 +67,21 @@
			void scale_bias_gpu(float output, float biases, int batch, int n, int size);
			void backward_scale_gpu(float x_norm, float delta, int batch, int n, int size, float *scale_updates);
			void scale_bias_gpu(float output, float biases, int batch, int n, int size);
			void add_bias_gpu(float output, float biases, int batch, int n, int size);
			void backward_bias_gpu(float bias_updates, float delta, int batch, int n, int size);

			void smooth_l1_gpu(int n, float pred, float truth, float delta, float error);
			void l2_gpu(int n, float pred, float truth, float delta, float error);
			void weighted_delta_gpu(float a, float b, float s, float da, float db, float ds, int num, float *dc);
			void weighted_sum_gpu(float a, float b, float s, int num, float c);
			void mult_add_into_gpu(int num, float a, float b, float *c);

			void reorg_ongpu(float x, int w, int h, int c, int batch, int stride, int forward, float out);

			void softmax_gpu(float input, int n, int offset, int groups, float temp, float output);
			void adam_gpu(int n, float x, float m, float *v, float B1, float B2, float rate, float eps, int t);

			void flatten_ongpu(float x, int spatial, int layers, int batch, int forward, float out);

			#endif
			#endif