~speedprog/mtg/mtg_card_detector.git

			@@ -8,6 +8,10 @@
			#include <stdio.h>
			#include <time.h>

			#ifdef CUDNN
			#pragma comment(lib, "cudnn.lib")
			#endif

			#ifdef AI2
			#include "xnor_layer.h"
			#endif
			@@ -142,8 +146,12 @@
			cudnnSetTensor4dDescriptor(l->srcTensorDesc, CUDNN_TENSOR_NCHW, CUDNN_DATA_FLOAT, l->batch, l->c, l->h, l->w);
			cudnnSetTensor4dDescriptor(l->dstTensorDesc, CUDNN_TENSOR_NCHW, CUDNN_DATA_FLOAT, l->batch, l->out_c, l->out_h, l->out_w);
			cudnnSetFilter4dDescriptor(l->weightDesc, CUDNN_DATA_FLOAT, CUDNN_TENSOR_NCHW, l->n, l->c, l->size, l->size);
			cudnnSetConvolution2dDescriptor(l->convDesc, l->pad, l->pad, l->stride, l->stride, 1, 1, CUDNN_CROSS_CORRELATION);
			cudnnGetConvolutionForwardAlgorithm(cudnn_handle(),
			#if(CUDNN_MAJOR >= 6)
			cudnnSetConvolution2dDescriptor(l->convDesc, l->pad, l->pad, l->stride, l->stride, 1, 1, CUDNN_CROSS_CORRELATION, CUDNN_DATA_FLOAT); // cudnn 6.0
			#else
			cudnnSetConvolution2dDescriptor(l->convDesc, l->pad, l->pad, l->stride, l->stride, 1, 1, CUDNN_CROSS_CORRELATION); // cudnn 5.1
			#endif
			cudnnGetConvolutionForwardAlgorithm(cudnn_handle(),
			l->srcTensorDesc,
			l->weightDesc,
			l->convDesc,
			@@ -206,8 +214,8 @@
			l.outputs = l.out_h * l.out_w * l.out_c;
			l.inputs = l.w * l.h * l.c;

			l.output = calloc(l.batchout_h out_w * n, sizeof(float));
			l.delta = calloc(l.batchout_h out_w * n, sizeof(float));
			l.output = calloc(l.batch*l.outputs, sizeof(float));
			l.delta = calloc(l.batch*l.outputs, sizeof(float));

			l.forward = forward_convolutional_layer;
			l.backward = backward_convolutional_layer;
			@@ -232,8 +240,13 @@
			l.mean = calloc(n, sizeof(float));
			l.variance = calloc(n, sizeof(float));

			l.mean_delta = calloc(n, sizeof(float));
			l.variance_delta = calloc(n, sizeof(float));

			l.rolling_mean = calloc(n, sizeof(float));
			l.rolling_variance = calloc(n, sizeof(float));
			l.x = calloc(l.batch*l.outputs, sizeof(float));
			l.x_norm = calloc(l.batch*l.outputs, sizeof(float));
			}
			if(adam){
			l.adam = 1;
			@@ -300,7 +313,7 @@
			l.workspace_size = get_workspace_size(l);
			l.activation = activation;

			fprintf(stderr, "Convolutional Layer: %d x %d x %d image, %d filters -> %d x %d x %d image\n", h,w,c,n, out_h, out_w, n);
			fprintf(stderr, "conv %5d %2d x%2d /%2d %4d x%4d x%4d -> %4d x%4d x%4d\n", n, size, size, stride, w, h, c, l.out_w, l.out_h, l.out_c);

			return l;
			}
			@@ -357,17 +370,19 @@
			l->outputs = l->out_h * l->out_w * l->out_c;
			l->inputs = l->w * l->h * l->c;

			l->output = realloc(l->output,
			l->batchout_h out_w * l->n*sizeof(float));
			l->delta = realloc(l->delta,
			l->batchout_h out_w * l->n*sizeof(float));
			l->output = realloc(l->output, l->batchl->outputssizeof(float));
			l->delta = realloc(l->delta, l->batchl->outputssizeof(float));
			if(l->batch_normalize){
			l->x = realloc(l->x, l->batchl->outputssizeof(float));
			l->x_norm = realloc(l->x_norm, l->batchl->outputssizeof(float));
			}

			#ifdef GPU
			cuda_free(l->delta_gpu);
			cuda_free(l->output_gpu);

			l->delta_gpu = cuda_make_array(l->delta, l->batchout_hout_w*l->n);
			l->output_gpu = cuda_make_array(l->output, l->batchout_hout_w*l->n);
			l->delta_gpu = cuda_make_array(l->delta, l->batch*l->outputs);
			l->output_gpu = cuda_make_array(l->output, l->batch*l->outputs);

			if(l->batch_normalize){
			cuda_free(l->x_gpu);
			@@ -423,41 +438,8 @@
			int out_w = convolutional_out_width(l);
			int i;


			fill_cpu(l.outputs*l.batch, 0, l.output, 1);

			/*
			if(l.binary){
			binarize_weights(l.weights, l.n, l.cl.sizel.size, l.binary_weights);
			binarize_weights2(l.weights, l.n, l.cl.sizel.size, l.cweights, l.scales);
			swap_binary(&l);
			}
			*/

			/*
			if(l.binary){
			int m = l.n;
			int k = l.sizel.sizel.c;
			int n = out_h*out_w;

			char *a = l.cweights;
			float *b = state.workspace;
			float *c = l.output;

			for(i = 0; i < l.batch; ++i){
			im2col_cpu(state.input, l.c, l.h, l.w,
			l.size, l.stride, l.pad, b);
			gemm_bin(m,n,k,1,a,k,b,n,c,n);
			c += n*m;
			state.input += l.cl.hl.w;
			}
			scale_bias(l.output, l.scales, l.batch, l.n, out_h*out_w);
			add_bias(l.output, l.biases, l.batch, l.n, out_h*out_w);
			activate_array(l.output, mnl.batch, l.activation);
			return;
			}
			*/

			if(l.xnor){
			binarize_weights(l.weights, l.n, l.cl.sizel.size, l.binary_weights);
			swap_binary(&l);
			@@ -469,22 +451,17 @@
			int k = l.sizel.sizel.c;
			int n = out_h*out_w;

			if (l.xnor && l.c%32 == 0 && AI2) {
			forward_xnor_layer(l, state);
			printf("xnor\n");
			} else {

			float *a = l.weights;
			float *b = state.workspace;
			float *c = l.output;
			float *a = l.weights;
			float *b = state.workspace;
			float *c = l.output;

			for(i = 0; i < l.batch; ++i){
			im2col_cpu(state.input, l.c, l.h, l.w,
			l.size, l.stride, l.pad, b);
			gemm(0,0,m,n,k,1,a,k,b,n,1,c,n);
			c += n*m;
			state.input += l.cl.hl.w;
			}
			for(i = 0; i < l.batch; ++i){
			im2col_cpu(state.input, l.c, l.h, l.w,
			l.size, l.stride, l.pad, b);
			gemm(0,0,m,n,k,1,a,k,b,n,1,c,n);
			c += n*m;
			state.input += l.cl.hl.w;
			}

			if(l.batch_normalize){
			@@ -507,6 +484,10 @@
			gradient_array(l.output, mkl.batch, l.activation, l.delta);
			backward_bias(l.bias_updates, l.delta, l.batch, l.n, k);

			if(l.batch_normalize){
			backward_batchnorm_layer(l, state);
			}

			for(i = 0; i < l.batch; ++i){
			float a = l.delta + im*k;
			float *b = state.workspace;