MIT, Stanford i OpenAI ogłosiły przełom – naukowcy z Indii powiedzieli "sprawdzam"
Sztuczna inteligencja miała zrewolucjonizować naukę, generując przełomowe prace badawcze. Prestiżowe uniwersytety ogłosiły sukces, a eksperci zachwycali się nowatorstwem AI. Był tylko jeden problem: co czwarty "innowacyjny" artykuł okazał się wyrafinowanym plagiatem. Odkrycie naukowców z Indii podważa fundamenty rewolucji AI w nauce.
Niedawno opublikowane badania miały być dowodem na to, że sztuczna inteligencja potrafi prowadzić samodzielne badania naukowe. MIT przedstawił na to dowody. Stanford je potwierdził. OpenAI chwaliło się wynikami tych badań. Wygenerowane przez sztuczną inteligencję artykuły naukowe przeszły recenzję na renomowanych konferencjach i uzyskały wyższe oceny niż prace pisane przez ludzi w kategoriach nowatorstwa. Wielkie laboratoria AI zaczęły cytować te wyniki jako dowód, że autonomiczne agenty badawcze już istnieją i że duże modele językowe rzeczywiście potrafią w naukę.
Tyle tylko, że niczego takiego nie udowodniły.
Eksperyment, który obnażył prawdę
Naukowcy z Indian Institute of Science postanowili przeprowadzić ten sam eksperyment – z tymi samymi poleceniami, modelami i procedurami. Wygenerowali 50 dokumentów badawczych przy użyciu Claude i GPT-4o. Zmienili jednak jeden kluczowy element: sposób ewaluacji wyników.
Wcześniejsze badania zadawały ekspertom pytanie: "Oceń to pod względem nowatorstwa i wykonalności". Eksperci oceniali wymieszane artykuły – część ludzkich, część wygenerowanych przez AI – bez wiedzy o ich pochodzeniu. Nie mieli powodu podejrzewać w nich plagiatu, po prostu oceniali same treści i pomysły.
To badanie postawiło inne pytanie: "Znajdź źródła plagiatu". Powiedziano 13 ekspertom dziedzinowym, aby założyli, że plagiat istnieje, i zlecono im jego poszukiwanie oraz znalezienie artykułów źródłowych, z których modele sztucznej inteligencji czerpały swoje "inspiracje".
Szokujące wyniki
Rezultaty okazały się druzgocące: 24% artykułów było splagiatowanych, ze wskaźnikami 4 lub 5 w 5-stopniowej skali, co potwierdzili autorzy oryginalnych prac.
To nie był przypadek niechlujnego kopiuj-wklej, który mógłby wychwycić każdy student. To było wyrafinowane przeformułowanie metodologiczne, które oszukało wszystkich: recenzentów-ekspertów dosłownie pracujących w tych dziedzinach naukowych, recenzentów konferencji oraz pracowników ds. integralności akademickiej.
Każdy automatyczny detektor plagiatu zawiódł. Turnitin? 0% skuteczności wykrywania. OpenScholar z bazą 45 milionów artykułów? 0%. Systemy RAG Semantic Scholar, których agenty AI używają wewnętrznie do "sprawdzania własnej pracy" przed publikacją? Wykryły 51% w najprostszym możliwym scenariuszu testowym, gdzie propozycje były celowo plagiatowane z pojedynczych artykułów. W rzeczywistej generacji, gdzie AI stara się być nowatorskie? Znacznie gorzej.
Przykłady "przełomowych" prac
Jeden z przykładowych artykułów, cytowanych jako dowód na to, że AI potrafi uprawiać prawdziwą naukę, miał idealne mapowanie 1:1 z pracą "Generating with Confidence: Uncertainty Quantification for Black-box LLMs" opublikowaną w 2023 roku. Każdy komponent "nowatorskiej" metodologii odpowiadał dokładnie sekcjom w oryginalnym artykule – po prostu został zręcznie przeformułowany.
"Graf rezonansu" zamiast "ważonej macierzy sąsiedztwa". "Kwantyfikacja niepewności rezonansu semantycznego" zamiast "kwantyfikacji niepewności". "Oceny parami dla spójności" zamiast "wyników podobieństwa parami".
Pięć kroków. Pięć bezpośrednich odpowiedników. Ta sama metodologia. Ten sam wkład naukowy. Ta sama koncepcja. Zero przypisów. Zero cytatów.
Oryginalni autorzy (Lin i in.) potwierdzili plagiat po przejrzeniu obu dokumentów. Ten artykuł był prezentowany jako wzorcowy przykład badań generowanych przez AI. Przeszedł przez recenzję ekspercką w pierwotnym badaniu. Nikt tego nie wychwycił.
Inny przykładowy artykuł łączył dwie prace bez uznania autorstwa – jedną o mechanizmach bramkowania w modelach dyfuzji, drugą o treningu wielorozdzielczym. Przepakowano je jako "DualDiff". Autorzy źródłowych artykułów potwierdzili: definitywnie splagiatowane.
Skala problemu
To nie są przypadki brzegowe. Artykuły pisane przez ludzi z dużych konferencji? Wskaźnik plagiatu wynosi około 2-6% na podstawie komentarzy recenzentów. Propozycje generowane przez AI? 24%.
I to zakładając, że eksperci znaleźli wszystko. Autorzy badania wyraźnie stwierdzają, że jest to prawdopodobnie dolna granica, ponieważ znajdowanie plagiatu jest niezwykle pracochłonne.
Najbardziej niepokojący aspekt
Propozycje generowane przez AI są mniej zróżnicowane niż prace ludzkie. Można wytrenować prosty klasyfikator z 93% dokładnością wykrywania ich tylko na podstawie tytułów i abstraktów.
Co to oznacza? Te systemy nie eksplorują nowatorskich kierunków badawczych. Dopasowują wzorce w wąskim paśmie tego, co "brzmi jak badania" i zręcznie mieszają powstałe wcześniej artykuły naukowe.
Stworzyliśmy systemy, które tak dobrze przepakowują istniejące pomysły, że przekonaliśmy samych siebie – i recenzentów-ekspertów – że są przełomowe.
Źródła:
- ACL Anthology: aclanthology.org/2025.acl-long.1249.pdf