Beiträge von Yessir

    Hallo zusammen,

    Ich bin am verzweifeln.

    Ich trainiere gerade einen Tabular Q-Learning Agenten für Flappy-Bird-Gymnasium und weiß nicht woran es liegt das der Agent nicht besser lernt. Liegt es an Problemen mit der Diskretisierung, dem Algorithmus, Reward System oder den Hyperparametern?

    In meinem Durchlauf gerade war die höchste Anzahl an Pipes 52 und ein Average von 4 Pipes vllt.

    Episode: 95000, Score: 56, Best Score: 1986, Best Pipes: 52, Avg Score: 145.90 (4 Pipes ca.) , Alpha: 0.0970, Q-Table Size: 177


    Der Score ist hier bei die Anzahl an Frames die der Agent überlebt hat.

    Ich benutze Eligibility Traces und Alpha decay bei einem hohen Avg Score.

    Aus Frust habe ich paar mal AI Agents drüberlaufen lassen über den Code und es wurde nicht wirklich besser.

    Deswegen vielleicht kennt sich einer von euch hiermit aus, ich bin neu dabei und kam auf die dumme Idee gelerntes aus der Vorlesung anwenden zu wollen haha.
    Das ist train.py:

    utils.py für Diskretisierung

    Mfg