update learn to drive and Makefile

2024-06-12 00:24:17 +02:00
parent fca991eb37
commit 13f91583bb
4 changed files with 115 additions and 5 deletions
@@ -19,6 +19,100 @@ float D_L2(float t, float o){
  return (o - t);
 }
 void copy_weight_in_networks_from_main_to_target(struct networks_qlearning * networks){
  copy_weight_in_neurons_TYPE_FLOAT(networks->target_net, networks->main_net);
 }
 void copy_weight_in_networks_from_main_to_best(struct networks_qlearning * networks){
  copy_weight_in_neurons_TYPE_FLOAT(networks->best_net, networks->main_net);
 }
 struct networks_qlearning * create_nework_qlearning(
  struct config_layers * config,
  bool randomize, float minR, float maxR,  int randomRange
 ){
  struct networks_qlearning *qnets = malloc(sizeof(struct networks_qlearning));
  qnets->config = config;
  setup_networks_alloutputs_config_TYPE_FLOAT(&(qnets->main_net), config, 
    random, minR, maxR, randomRange);  
  setup_networks_alloutputs_config_TYPE_FLOAT(&(qnets->target_net), config, 
    false, minR, maxR, randomRange);  
  copy_weight_in_networks_from_main_to_target(qnets);
  setup_networks_alloutputs_config_TYPE_FLOAT(&(qnets->best_net), config, 
    false, minR, maxR, randomRange);  
  copy_weight_in_networks_from_main_to_best(qnets);
  return qnets; 
 }
 struct reward_lists * create_reward_lists (){
  struct reward_lists * rwrd_l = malloc(sizeof(struct reward_lists));
  rwrd_l->list_main_cumul = create_var_list_TYPE_L_INT();
  rwrd_l->list_target_cumul = create_var_list_TYPE_L_INT();
  rwrd_l->progress_best_cumul = create_var_list_TYPE_L_INT();
  return rwrd_l;
 }
 struct delay_params * create_delay_params (
  size_t delay_between_episodes,
  size_t delay_between_games
 ){
  struct delay_params * delay = malloc(sizeof(struct delay_params));
  delay->delay_between_episodes = delay_between_episodes;
  delay->delay_between_games = delay_between_games;
  return delay;
 }
 struct qlearning_params * create_qlearning_params  (
  double learning_rate,
  double discount_factor,
  double exploration_factor
 ){
  struct qlearning_params * qparams = malloc(sizeof(struct qlearning_params));
  qparams->learning_rate = learning_rate ;
  qparams->discount_factor = discount_factor ;
  qparams->exploration_factor = exploration_factor ;
  return qparams;
 }
 struct RL_agent * create_RL_agent (
  struct networks_qlearning * networks,
  struct vehicle * car,
  struct reward_lists * rewards,
  struct delay_params * delay,
  struct qlearning_params *qlearnParams
 ){
  struct RL_agent * rlagent = malloc(sizeof(struct RL_agent));
  rlagent->networks = networks ;
  rlagent->car = car ;
  rlagent->rewards = rewards ;
  rlagent->delay = delay ;
  rlagent->qlearnParams = qlearnParams ;
  return rlagent;
 }
 void free_networks_qlearning (struct networks_qlearning * networks){
 }
 void free_reward_lists(struct reward_lists *rwd_l){
 }
 void free_delay_params (struct delay_params *dly_p){
 }
 void free_qlearning_params(struct qlearning_params *q_params){
 }
 void free_RL_agent(struct RL_agent *rlAgent){
 }
@@ -59,7 +59,7 @@ struct delay_params * create_delay_params (
  size_t delay_between_games
 );
-struct qlearning_params (
+struct qlearning_params * create_qlearning_params (
  double learning_rate,
  double discount_factor,
  double exploration_factor
@@ -11,10 +11,13 @@ YPERMDIR=$(PWD)/../../ypermutation_t
 DIMDIR=$(PWD)/../../dimension_t
 TENSDIR=$(PWD)/../../tensor_t
 LISTDIR=$(PWD)/../../list_t
 NEURODIR=$(PWD)/../../neuron_t
 INCLUDE_DIR=$(PWD)/../src/deepQlearning
-CFLAGS=-I$(INCLUDE_DIR) -I$(NEURODIR)/src -I$(YPERMDIR)/src -I$(YTESTDIR)/include_ytest/include -I$(DIMDIR)/src -I$(TENSDIR)/src -I$(YTOOLDIR)/include #"-D DEBUG=1"
+CFLAGS=-I$(INCLUDE_DIR) -I$(NEURODIR)/src -I$(YPERMDIR)/src -I$(YTESTDIR)/include_ytest/include -I$(DIMDIR)/src -I$(TENSDIR)/src -I$(YTOOLDIR)/include -I$(LISTDIR)/src
 #"-D DEBUG=1"
 LDFLAGS=-L$(YTESTDIR) -lytest -lOpenCL -lm -lpthread  #-lcurses
 #SRC_DIR=$(ROOT_DIR)/src
@@ -38,6 +41,8 @@ TENSRC_O=$(TENSRC:.c=.o)
 VEHICLESRC=$(INCLUDE_DIR)/vehicle.c
 VEHICLESRC_O=$(VEHICLESRC:.c=.o)
 LEARNTODRIVESRC=$(INCLUDE_DIR)/learn_to_drive.c
 LEARNTODRIVESRC_O=$(LEARNTODRIVESRC:.c=.o)
 TOOLSRC_O=$(YTOOLDIR)/src/tools_t/tools_t.o
@@ -45,11 +50,14 @@ PERMSRC_O=$(YPERMDIR)/src/permutation_t/permutation_t.o
 DIMSRC_O=$(DIMDIR)/src/dimension_t/dimension_t.o
 LISTSRC_O=$(LISTDIR)/src/list_t/list_t.o
 TOPTARGETS := all clean 
-DEPS=$(DIMDIR) $(YPERMDIR) $(YTESTDIR) $(TENSDIR) $(NEURODIR) $(YTOOLDIR)
+DEPS=$(DIMDIR) $(YPERMDIR) $(YTESTDIR) $(TENSDIR) $(NEURODIR) $(YTOOLDIR) $(LISTDIR)
-OBJ=$(VEHICLESRC_O) $(DIMSRC_O) $(PERMSRC_O) $(TENSRC_O) $(NEUROSRC_O) $(TOOLSRC_O)
+OBJ=$(VEHICLESRC_O) $(DIMSRC_O) $(PERMSRC_O) $(TENSRC_O) $(NEUROSRC_O) $(TOOLSRC_O) $(LISTSRC_O) $(LEARNTODRIVESRC_O)
 LIB_YTEST=$(YTESTDIR)/libytest.so
@@ -75,6 +83,8 @@ $(EXEC):	$(EXECSRC) $(OBJ)
 $(VEHICLESRC_O): $(VEHICLESRC) $(TOOLSRC_O) $(DIMSRC_O)
 	$(CC) -o $@ -c $< $(CFLAGS) 
 $(LEARNTODRIVESRC_O): $(LEARNTODRIVESRC) $(VEHICLESRC_O)  $(LISTSRC_O)
 	$(CC) -o $@ -c $< $(CFLAGS) 
 .PHONY: clean mrproper
@@ -20,6 +20,7 @@
 #include "neuron_t/neuron_t.h"
 #include "vehicle.h"
 #include "learn_to_drive.h"
 TEST(create_coordenate){
  struct coordinate * coord = create_coordinate(3);
@@ -199,6 +200,11 @@ TEST(first_vehicle){
  free_vehicle(vhcl);
 }
 TEST(reward_list){
  struct reward_lists * l_reward = create_reward_lists ();
 }
 int main(int argc, char **argv){