You are on page 1of 1

Objetivo del juego

Robocode es un juego de programación donde el objetivo es codificar un tanque de batalla robot


para competir contra otros robots en un campo de batalla. Entonces, el nombre Robocode es una
abreviatura de "código Robot". El jugador es el programador del robot, que no tendrá influencia
directa en el juego. En cambio, el jugador debe escribir la IA del robot diciéndole cómo
comportarse y reaccionar ante los eventos que ocurren en el campo de batalla. Las batallas se
están ejecutando en tiempo real y en pantalla.

2.1 Los tres tipos principales de objetos de aprendizaje son:

 Agente : cada tanque es un agente que puede tener un conjunto único de estados y
observaciones, realizar acciones únicas dentro del entorno y recibir recompensas únicas
por los eventos dentro del entorno. Las acciones de un agente las decide el cerebro al que
está vinculado.

 Cerebro : cada Cerebro define un estado específico y un espacio de acción, y es


responsable de decidir qué acciones tomará cada uno de sus agentes vinculados. Cada
cerebro se establece en uno de los cuatro modos:

o Externo: las decisiones de acción se toman usando la biblioteca de java a través de


la comunicación a través de un socket abierto.

o Interno (Experimental): las decisiones sobre las acciones se toman utilizando un


modelo capacitado integrado en el proyecto.

o Jugador: las decisiones de acción se toman usando la entrada del jugador.

o Heurística: las decisiones de acción se toman usando un comportamiento


codificado a mano.

 Academia : el objeto de la Academia dentro de una escena también contiene como hijos a
todos los cerebros dentro del entorno. Cada entorno contiene una sola Academia que
define el alcance del entorno, en términos de:

o Configuración del motor: la velocidad y la calidad de representación del motor del


juego en los modos de entrenamiento e inferencia.

o Frameskip: cuántos pasos del motor se deben saltar entre cada agente que toma
una nueva decisión.

o Longitud del episodio global: cuánto durará el episodio. Cuando se alcanza, todos
los agentes están configurados para terminar.

Los estados y las observaciones de todos los agentes con los cerebros configurados como Externos
son recopilados por el Comunicador externo y comunicados a nuestra API de Python para su
procesamiento utilizando su biblioteca de ML elegida. Al configurar múltiples agentes en un solo
cerebro, las acciones se pueden decidir por lotes, lo que abre la posibilidad de obtener las ventajas
del cálculo en paralelo, cuando se admite .

You might also like