Если хочется естественного и разнообразного поведения от агентов то можно вместо стейт-машины посмотреть в сторону Goal-Oriented Action Planning. Оно и попроще нейронок и дебажится легче