Opracuj metodę wyboru cech dla modelu uczenia maszynowego przewidującego [konkretny wynik] - Prompt do ChatGPT
Zyskaj kompleksowy framework i gotowy plan selekcji cech: EDA, filtry, embedded, wrappery, PCA — większa trafność, mniej overfittingu, lepsza interpretowalność, skalowalność.
Co robi ten prompt:
- Generuje usystematyzowaną, 5-etapową metodologię selekcji cech (feature selection) dla projektu uczenia maszynowego.
- Pełni rolę przewodnika dla Data Scientista, który krok po kroku pomaga wybrać optymalny zestaw zmiennych dla modelu predykcyjnego.
- Tworzy praktyczny plan działania, który można dostosować do konkretnego problemu biznesowego, zbioru danych i typu modelu.
Rola i Kontekst: Jesteś Senior Data Scientist z wieloletnim doświadczeniem w budowie i optymalizacji modeli predykcyjnych. Specjalizujesz się w inżynierii i selekcji cech (feature selection), rozumiejąc kluczowy wpływ tego etapu na wydajność, interpretowalność i odporność modelu na przeuczenie.
Zadanie (Cel): Opracuj usystematyzowaną, 5-etapową metodologię wyboru optymalnego zestawu cech dla modelu uczenia maszynowego, który ma przewidzieć [Konkretny wynik, który ma przewidzieć model] na podstawie [Opis dostępnego zbioru danych i przykładowe cechy]. Twoja propozycja musi być praktycznym planem działania, a nie teoretycznym przeglądem.
Format Odpowiedzi: Przedstaw metodologię jako listę numerowanych kroków. Każdy krok musi zawierać:
- Nagłówek: Krótka, zwięzła nazwa etapu.
- Cel Etapu: Jedno zdanie wyjaśniające, co ma zostać osiągnięte.
- Kluczowe Działania: 2-3 konkretne techniki lub zadania do wykonania w ramach tego etapu, wraz z rekomendacją, kiedy je stosować. Podaj przykłady konkretnych testów statystycznych lub algorytmów.
Struktura odpowiedzi:
- Etap 1: Analiza Wstępna i Czyszczenie Danych
- Etap 2: Selekcja za Pomocą Metod Filtrujących (Szybka Eliminacja)
- Etap 3: Selekcja za Pomocą Metod Opakowujących (Wydajność Modelu)
- Etap 4: Selekcja za Pomocą Metod Wbudowanych (Interpretowalność i Efektywność)
- Etap 5: Finalna Walidacja i Wybór Zestawu Cech
Najważniejsze: Skoncentruj się na przedstawieniu procesu jako sekwencji logicznych kroków, gdzie każdy kolejny etap zawęża pulę kandydatów na cechy. Podkreśl, że nie ma jednej uniwersalnej metody, a najlepsze rezultaty daje podejście hybrydowe (łączenie metod z etapów 2, 3 i 4). Zaleć, aby ostateczna decyzja była kompromisem między wydajnością predykcyjną modelu a jego złożonością i wymaganiami biznesowymi, takimi jak [Główny cel biznesowy lub metryka do optymalizacji].
Jak używać tego prompta:
Należy uzupełnić cztery pola w sekcji Dane wejściowe: [Konkretny wynik, który ma przewidzieć model], [Opis dostępnego zbioru danych i przykładowe cechy], [Typ modelu uczenia maszynowego] oraz [Główny cel biznesowy lub metryka do optymalizacji]. Przykładowe uzupełnienie: Konkretny wynik, który ma przewidzieć model: Wykrycie oszustwa finansowego; Opis dostępnego zbioru danych i przykładowe cechy: Historia transakcji bankowych z cechami takimi jak kwota, lokalizacja, czas, typ transakcji; Typ modelu uczenia maszynowego: Klasyfikacja binarna (np. LightGBM); Główny cel biznesowy lub metryka do optymalizacji: Minimalizacja fałszywych alarmów (niski wskaźnik False Positive Rate).
Dobrze wiedzieć
Prompt promuje tak zwane podejście hybrydowe do selekcji cech, łączące metody filtrujące, opakowujące (wrapper) i wbudowane (embedded). Jest to najlepsza praktyka branżowa, ponieważ pozwala wykorzystać zalety każdej z tych technik. Metody filtrujące są szybkie i idealne do wstępnej selekcji, metody opakowujące koncentrują się na wydajności konkretnego modelu, a metody wbudowane oferują kompromis między wydajnością a efektywnością obliczeniową. Wygenerowana metodologia podkreśla iteracyjny charakter pracy Data Scientista. Proces nie jest w pełni liniowy; wyniki z późniejszego etapu (np. ważność cech z modelu XGBoost) mogą skłonić do powrotu do wcześniejszego kroku (np. stworzenia nowych cech na podstawie tych najważniejszych). Ostateczny wybór cech jest zawsze kompromisem między mocą predykcyjną, złożonością modelu, kosztem obliczeniowym a wymaganiami biznesowymi, takimi jak interpretowalność. Na przykład w sektorze finansowym często preferuje się prostsze modele, których działanie można łatwo wytłumaczyć, nawet kosztem niewielkiego spadku dokładności.