@article{59740,
  abstract     = {{<jats:title>ABSTRACT</jats:title><jats:p>In this contribution, we propose an innovative method for determining optimal control sequences for nonlinear systems with partially unknown dynamics, which further expands our previous work. Within the paradigm of model‐based design, the practicality and safety of commissioning feedforward controls and feedback controllers have priority. Our approach leverages probabilistic Gaussian processes to adjust for model inaccuracies from measured system data. This differs from conventional approaches that involve complicated analytical modeling and may entail a substantial time investment to acquire expertise and may prove impractical. Consequently, we address the limitations inherent in traditional design methodologies. Our research focuses on the formulation and solution of the hybrid<jats:sup>1</jats:sup> optimal control problem using probabilistic state predictions and multiple shooting. This ensures adaptability, data efficiency, and resilience against uncertainties in system dynamics. These attributes are empirically substantiated through experimental validation on a chaotic and highly sensitive dynamical system—a double pendulum on a cart. Our methodology unfolds as an iterative learning process, systematically exploring diverse controls, accumulating data within each iteration, and refining the control strategy until the desired task is accomplished. The adoption of the two‐degree‐of‐freedom control structure allows for the distinct consideration of the feedforward and the feedback control signal. For the latter, we employ a time‐variant, linear quadratic regulator (LQR) designed to stabilize the system around its target trajectory. Furthermore, we integrate a probabilistic long‐term prediction through the unscented transform, enabling systematic anticipation of safety‐critical violations. Detailed insights into relevant implementation aspects are provided. To ascertain the real‐world applicability, we present an exemplary application involving a double pendulum on a cart. The objective is to bring the pendulum arms from the lower stable to the upper unstable equilibrium by horizontally moving the cart and subsequently stabilize them. In this scenario, we assume that the centrifugal forces, crucial to the system dynamics, have not been accurately modeled and must be learned from data. Solving the control task took only 5 iterations and 1 h of computation time, which surpasses our previous work [2], where we used the purely data‐driven PILCO framework and required 27 iterations and 57 h of computation time. The time of interaction with the system decreased by  and the computation time is lowered by . It demonstrates significant practical applicability for commissioning control systems.</jats:p>}},
  author       = {{Hesse, Michael and Schwarzer, Luis and Timmermann, Julia and Trächtler, Ansgar}},
  issn         = {{1617-7061}},
  journal      = {{PAMM}},
  number       = {{2}},
  publisher    = {{Wiley}},
  title        = {{{Robust and Efficient Hybrid Optimal Control via Gaussian Process Regression and Multiple Shooting With Experimental Validation on a Double Pendulum on a Cart}}},
  doi          = {{10.1002/pamm.70004}},
  volume       = {{25}},
  year         = {{2025}},
}

@book{61118,
  abstract     = {{Im Zuge der Digitalisierung erfahren maschinelles Lernen und datengetriebene Methoden derzeit eine große Aufmerksamkeit in Wissenschaft und Industrie. Es fehlt jedoch an Grundlagenwissen und Verständnis, wie die datengetriebenen Methoden der Informatik mit bewährten modellbasierten Ingenieursmethoden wie dem modellbasierten Entwurf in der Mechatronik und Methoden der Regelungstechnik sinnvoll kombiniert werden können, um hybride Modelle zu erhalten. Diese ingenieurwissenschaftlichen Methoden basieren auf physikalischen Verhaltensmodellen, die eine besonders verdichtete und interpretierbare Darstellung von Wissen darstellen und insbesondere kausale Zusammenhänge beschreiben. Für spezifische regelungstechnische Anwendungen gibt es umfangreiches Vorwissen in Form von bekannten Strukturen und Informationen, wie z.B. (Teil-)Modelle oder Parametersätze, die auch bei der Anwendung von Methoden wie dem maschinellen Lernen genutzt werden sollten. Eine solche sinnvolle systematische Verknüpfung ist wissenschaftlich, insbesondere im Hinblick auf die industrielle Anwendung, noch nicht ausreichend untersucht worden und sehr vielversprechend. In diesem Beitrag werden die Ergebnisse der Nachwuchsforschungsgruppe DART – Datengetriebene Methoden in der Regelungstechnik vorgestellt. Das Hauptziel war es, die synergetische Kombination von modell- und datengetriebenen Methoden für regelungstechnische Aufgaben zu erforschen und es werden alle wichtigen Forschungsergebnisse aber auch die verwendeten Grundprinzipien des maschinellen Lernens in diesem Beitrag dargestellt.}},
  author       = {{Timmermann, Julia and Götte, Ricarda-Samantha and Junker, Annika and Hesse, Michael and Schwarzer, Luis}},
  publisher    = {{HNI Verlagsschriftenreihe}},
  title        = {{{DART - Datengetriebene Methoden in der Regelungstechnik}}},
  doi          = {{10.17619/UNIPB/1-2305}},
  volume       = {{Band 430}},
  year         = {{2025}},
}

@phdthesis{58448,
  abstract     = {{Die Inbetriebnahme von Steuerungen und Regelungen stellt sicher, dass ein mechatronisches System ordnungsgemäß funktioniert und den Anforderungen gerecht wird. Der modellbasierte Entwurf basiert auf einem genauen Simulationsmodell. Allerdings ist dieser klassische Weg bei komplexen Systemen oft nicht praktikabel, da die analytische Modellierung zu kompliziert und zeitaufwendig ist. Diese Forschungslücke wird durch Verfahren adressiert, die eine effiziente und sichere Inbetriebnahme ermöglichen. Diese Verfahren kombinieren Regelungstechnik und Reinforcement Learning und nutzen vorhandenes Wissen über die Regelungsaufgabe, um Korrekturen basierend auf Messdaten und der probabilistischen Gauß-Prozess-Regression vorzunehmen. Das Vorwissen kann als teilweise bekanntes physikalisches Modell oder als Steuerungsfunktion vorliegen. Anwendungsbeispiele sind der Ultraschalldrahtbondprozess, verschiedene Pendelsysteme und ein Hexapod. Eine angepasste Bayessche Optimierung wird zur Identifikation einer Steuerparametrisierung für das Ultraschallbonden eingesetzt. Außerdem wird eine hybride Optimalsteuerung für das Doppelpendel auf einem Wagen entwickelt und erfolgreich validiert. Fur einen Hexapod zur Fahrzeugachsprüfung wird eine hybride Zustandslinearisierung formuliert und ein Funktionsnachweis im Rahmen einer Simulation erbracht. Die Einhaltung technischer Rahmenbedingungen und stabiles Systemverhalten werden durch probabilistische Pradiktionen gewährleistet. In allen Anwendungsfällen wird eine Steigerung der Effizienz und Güte erzielt.}},
  author       = {{Hesse, Michael}},
  isbn         = {{978-3-947647-45-3}},
  issn         = {{2365-4422}},
  publisher    = {{Heinz Nixdorf Institut}},
  title        = {{{Interaktive Inbetriebnahme von Steuerungen und Regelungen für partiell bekannte dynamische Systeme mittels Gauß-Prozess-Regression}}},
  doi          = {{10.17619/UNIPB/1-2135}},
  volume       = {{426}},
  year         = {{2024}},
}

@inproceedings{48476,
  author       = {{Hesse, Michael and Timmermann, Julia and Trächtler, Ansgar}},
  booktitle    = {{2023 European Control Conference (ECC)}},
  publisher    = {{IEEE}},
  title        = {{{Hybrid Optimal Control for Dynamical Systems using Gaussian Process Regression and Unscented Transform<sup>*</sup>}}},
  doi          = {{10.23919/ecc57647.2023.10178368}},
  year         = {{2023}},
}

@inproceedings{29803,
  abstract     = {{Ultrasonic wire bonding is a solid-state joining process used to form electrical interconnections in micro and
power electronics and batteries. A high frequency oscillation causes a metallurgical bond deformation in
the contact area. Due to the numerous physical influencing factors, it is very difficult to accurately capture
this process in a model. Therefore, our goal is to determine a suitable feed-forward control strategy for the
bonding process even without detailed model knowledge. We propose the use of batch constrained Bayesian
optimization for the control design. Hence, Bayesian optimization is precisely adapted to the application of
bonding: the constraint is used to check one quality feature of the process and the use of batches leads to
more efficient experiments. Our approach is suitable to determine a feed-forward control for the bonding
process that provides very high quality bonds without using a physical model. We also show that the quality
of the Bayesian optimization based control outperforms random search as well as manual search by a user.
Using a simple prior knowledge model derived from data further improves the quality of the connection.
The Bayesian optimization approach offers the possibility to perform a sensitivity analysis of the control
parameters, which allows to evaluate the influence of each control parameter on the bond quality. In summary,
Bayesian optimization applied to the bonding process provides an excellent opportunity to develop a feedforward
control without full modeling of the underlying physical processes.}},
  author       = {{Hesse, Michael and Hunstig, Matthias and Timmermann, Julia and Trächtler, Ansgar}},
  booktitle    = {{Proceedings of the 11th International Conference on Pattern Recognition Applications and Methods (ICPRAM)}},
  isbn         = {{978-989-758-549-4}},
  keywords     = {{Bayesian optimization, Wire bonding, Feed-forward control, model-free design}},
  location     = {{Online}},
  pages        = {{383--394}},
  title        = {{{Batch Constrained Bayesian Optimization for UltrasonicWire Bonding Feed-forward Control Design}}},
  year         = {{2022}},
}

@article{22996,
  abstract     = {{The effective control design of a dynamical system traditionally relies on a high level of system understanding, usually expressed in terms of an exact physical model. In contrast to this, reinforcement learning adopts a data-driven approach and constructs an optimal control strategy by interacting with the underlying system. To keep the wear of real-world systems as low as possible, the learning process should be short. In our research, we used the state-of-the-art reinforcement learning method PILCO to design a feedback control strategy for the swing-up of the double pendulum on a cart with remarkably few test iterations at the test bench. PILCO stands for “probabilistic inference for learning control” and requires only few expert knowledge for learning. To achieve the swing-up of a double pendulum on a cart to its upper unstable equilibrium position, we introduce additional state restrictions to PILCO, so that the limited cart distance can be taken into account. Thanks to these measures, we were able to learn the swing up at the real test bench for the first time and in only 27 learning iterations.}},
  author       = {{Hesse, Michael and Timmermann, Julia and Hüllermeier, Eyke and Trächtler, Ansgar}},
  journal      = {{Procedia Manufacturing}},
  pages        = {{15 -- 20}},
  title        = {{{A Reinforcement Learning Strategy for the Swing-Up of the Double Pendulum on a Cart}}},
  volume       = {{24}},
  year         = {{2018}},
}

