Zaproponuj metodę radzenia sobie z niezrównoważonymi klasami w problemie klasyfikacji dla [konkretnego przypadku użycia] - Prompt do ChatGPT
Kompletna strategia dla niezrównoważonych klas: diagnoza, dobór metod, walidacja, wdrożenie i plan działań — zwiększ metryki i ROI, ogranicz ryzyko.
Co robi ten prompt:
- Ten prompt działa jako ekspert od uczenia maszynowego, generując spersonalizowane rekomendacje dotyczące problemu niezrównoważonych klas.
- Analizuje specyficzny przypadek użycia (np. wykrywanie oszustw) i proponuje trzy konkretne, dopasowane techniki zaradcze, takie jak SMOTE czy Cost-Sensitive Learning.
- Dla każdej metody dostarcza zwięzły opis, wady, zalety, przykład implementacji oraz finalną rekomendację strategiczną wraz z kluczowymi metrykami oceny.
Rola i Kontekst: Jesteś doświadczonym Inżynierem Uczenia Maszynowego, specjalizującym się w modelowaniu predykcyjnym dla problemów z silnie niezrównoważonymi klasami. Twoim zadaniem jest dostarczenie praktycznego i zwięzłego przewodnika, który pomoże rozwiązać konkretny problem biznesowy, a nie teoretycznego wykładu.
Zadanie (Cel): Przeanalizuj podany przypadek użycia i zarekomenduj 3 najskuteczniejsze, strategicznie dobrane metody radzenia sobie z problemem niezrównoważonych klas. Dla każdej metody przedstaw jej kluczowe aspekty, wady, zalety oraz kryteria wyboru w podanym kontekście.
Format Odpowiedzi: Odpowiedź musi być ustrukturyzowana i zawierać poniższe sekcje dla każdej z 3 zaproponowanych metod. Użyj dokładnie tych nagłówków.
Metoda 1: [Nazwa Metody, np. SMOTE (Synthetic Minority Over-sampling Technique)]
- Zasada działania: Zwięzłe wyjaśnienie (1-2 zdania), jak działa ta technika.
- Zastosowanie w kontekście [Przypadek użycia]: Wyjaśnij, dlaczego ta metoda jest lub nie jest dobrym wyborem dla tego konkretnego problemu.
- Zalety: Wypunktuj 2-3 kluczowe korzyści.
- Ryzyka i wady: Wypunktuj 2-3 główne zagrożenia (np. overfitting, generowanie szumu).
- Przykład implementacji: Podaj zwięzły fragment kodu w oparciu o [Używane technologie/biblioteki].
Metoda 2: [Nazwa Metody, np. Cost-Sensitive Learning]
- Zasada działania: Zwięzłe wyjaśnienie (1-2 zdania), jak działa ta technika.
- Zastosowanie w kontekście [Przypadek użycia]: Wyjaśnij, dlaczego ta metoda jest lub nie jest dobrym wyborem dla tego konkretnego problemu.
- Zalety: Wypunktuj 2-3 kluczowe korzyści.
- Ryzyka i wady: Wypunktuj 2-3 główne zagrożenia.
- Przykład implementacji: Podaj zwięzły fragment kodu w oparciu o [Używane technologie/biblioteki].
Metoda 3: [Nazwa Metody, np. Ensemble z Undersamplingiem (np. EasyEnsemble)]
- Zasada działania: Zwięzłe wyjaśnienie (1-2 zdania), jak działa ta technika.
- Zastosowanie w kontekście [Przypadek użycia]: Wyjaśnij, dlaczego ta metoda jest lub nie jest dobrym wyborem dla tego konkretnego problemu.
- Zalety: Wypunktuj 2-3 kluczowe korzyści.
- Ryzyka i wady: Wypunktuj 2-3 główne zagrożenia.
- Przykład implementacji: Podaj zwięzły fragment kodu w oparciu o [Używane technologie/biblioteki].
Najważniejsze: Na końcu odpowiedzi stwórz sekcję "Rekomendacja strategiczna". W tej sekcji:
- Drzewo decyzyjne: Przedstaw prostą, tekstową ścieżkę decyzyjną (np. "Jeśli koszt fałszywego negatywu jest ekstremalnie wysoki -> zacznij od Metody 2. Jeśli zbiór danych jest ogromny -> rozważ Metodę 3.").
- Kluczowe metryki ewaluacji: Wylistuj 3 metryki (np. F1-Score, Precision-Recall AUC, Balanced Accuracy), których należy użyć do oceny modelu zamiast standardowej dokładności (accuracy) i krótko uzasadnij dlaczego.
- Finalny werdykt: W jednym zdaniu wskaż, która z trzech metod jest Twoim zdaniem najlepszym punktem startowym dla podanego [Przypadku użycia] i dlaczego.
Jak używać tego prompta:
Należy uzupełnić cztery pola w nawiasach kwadratowych, podając informacje o swoim projekcie. Przykładowo, dla projektu wykrywania rzadkich chorób serca, dane mogłyby wyglądać następująco: [Przypadek użycia]: Predykcja rzadkiej wady serca na podstawie EKG. [Opis charakteru danych]: Szeregi czasowe z zapisów EKG oraz dane tabelaryczne pacjentów. [Proporcja klasy mniejszościowej do większościowej]: 1:2000. [Używane technologie/biblioteki]: Python, Keras, Scikit-learn.
Dobrze wiedzieć
Kluczowe dla wyboru odpowiedniej metody jest głębokie zrozumienie kontekstu biznesowego, a w szczególności kosztów związanych z błędami modelu. Zastanów się, co jest gorsze w Twoim problemie: błąd typu fałszywy negatyw (np. przepuszczenie transakcji oszukańczej) czy fałszywy pozytyw (np. zablokowanie prawidłowej transakcji). Ta wiedza bezpośrednio wpływa na wybór technik (np. premiując metody wrażliwe na koszt) oraz metryk ewaluacyjnych (np. skupiając się na Recall zamiast Precision). Pamiętaj, że przedstawione techniki często można ze sobą łączyć. Zaawansowane podejścia polegają na hybrydowym stosowaniu np. oversamplingu (jak SMOTE) z jednoczesnym undersamplingiem (jak Tomek Links) lub łączeniu ich z modelami zespołowymi. Eksperymentowanie z różnymi kombinacjami i staranna walidacja krzyżowa (np. za pomocą Stratified K-Fold) są kluczem do znalezienia optymalnego rozwiązania dla Twojego konkretnego problemu.