Synthetic data rozwiązuje kryzys danych do trenowania: prywatność, rzadkość przypadków, niebalans klas. Ale czy model uczący się od siebie może naprawdę poprawiać wyniki?
Problem z danymi treningowymi: mało (rzadkie choroby, wypadki drogowe w określonych warunkach), prywatne (dane medyczne, finansowe), niebilansowane (na 10000 transakcji jedna jest fraudem). Synthetic data rozwiązuje każdy z tych problemów. Podejścia: GAN (Generative Adversarial Networks) — generator i dyskryminator trenują się nawzajem; Diffusion Models — state-of-the-art dla obrazów i wideo; LLM-generated text — GPT-4 generuje labeled training data.
Przykłady zastosowań: Waymo generuje miliardy mil jazdy w symulacji (trudnych scenariuszy: mgła, noc, wypadki) vs. rzeczywisty czas jazdy. Szpitale tworzą syntetyczne rekordy medyczne identyczne statystycznie z prawdziwymi, ale z gwarancją prywatności.
Model Collapse — zagrożenie: jeśli kolejne generacje modeli trenują na syntetycznych danych poprzedniej generacji, jakość degraduje się. Badania z 2024 potwierdziły ten efekt. Rozwiązanie: mix synthetic + real data, regularne 'zastrzyknięcia' świeżych danych rzeczywistych.