Instrukcja interpretacji Interaktywnego Raportu
Instrukcja interpretacji Interaktywnego Raportu
Interaktywny Raport obejmuje Raport Podobieństwa - wynik analizy antyplagiatowej oraz Raport Prawdopodobieństwa - wynik wykrywania użycia AI w tekście.
SPIS ZAGADNIEŃ
Czas oczekiwania na Raport P odobieństwa to zwykle do 24 godzin od momentu zaksięgowania (a nie dokonania) płatności. W wielu przypadkach czas sprawdzenia jest krótszy, nie ma jednak możliwości jego oszacowania.
Raport Podobieństwa (wynik analizy antyplagiatowej):
generuje Współczynniki Podobieństwa (WP), które procentowo określają ilość odnalezionych w analizowanym dokumencie zapożyczeń;
zaznacza fragmenty pracy identyczne z tekstami odnalezionymi w bazach porównawczych,
najdłuższe wykryte w pracy zapożyczenia przedstawia w postaci listy 10 najdłuższych fragmentów,
segreguje wykryte w pracy zapożyczenia według źródeł podobieństwa oraz baz porównawczych, w których zostały one odnalezione (Baza Aktów Prawnych – BAP, zasoby światowego Internetu, Refbooks – baza publikacji naukowych [opcja dodatkowa]),
umożliwia wyróżnianie (poprzez zaznaczenie kolorem niebieskim) zapożyczeń pochodzących z wybranego źródła podobieństwa,
umożliwia podgląd stron internetowych, z którymi wykryto podobieństwo, z zaznaczonymi fragmentami identycznymi również na stronie WWW czy pliku PDF z Internetu.
określa stopień podobieństwa do konkretnego odnalezionego źródła podobieństwa wyrażony w:
- liczbie wyrazów wspólnych dla obu tekstów,
- liczbie fragmentów, w jakiej go wykorzystano,
- procentowego współczynnika wykorzystania tego źródła w tekście analizowanego dokumentu,
umożliwia nawigację po dokumencie ułatwiając jego analizę.
określają, w jakim procencie praca składa się z fragmentów identycznych z wykrytymi w innych tekstach,
są stosunkiem liczby wyrazów odnalezionych w innych tekstach do całkowitej liczby wyrazów w badanym dokumencie.
Wartość Współczynnika podobieństwa 1 (WP1) określa, jaką część badanej pracy stanowią frazy o długości 5 wyrazów lub dłuższe, odnalezione w zasobach Internetu oraz bazie Refbooks (z wyłączeniem fragmentów aktów prawnych odnalezionych w Bazie Aktów Prawnych - BAP). Współczynnik podobieństwa 1 służy przede wszystkim do badania samodzielności językowej autora pracy.
Wartość Współczynnika podobieństwa 2 (WP2) określa, jaka część badanej pracy składa się z fraz odnalezionych w zasobach Internetu oraz bazie Refbooks (z wyłączeniem BAP) o długości 25 wyrazów lub dłuższej. Ze względu na długość wykrywanych fraz Współczynnik podobieństwa 2 jest lepszym narzędziem do wykrywania nieuprawnionych zapożyczeń.
Wartość Współczynnika podobieństwa BAP (WP BAP) oznacza, jaka część badanej pracy składa się wyłącznie z fraz aktów prawnych odnalezionych w Bazie Aktów Prawnych o długości co najmniej 8 wyrazów.
Listy podobieństw umożliwiają szybką analizę głównych źródeł zapożyczeń w tekście oraz łatwą nawigację po odnalezionych oznaczonych fragmentach.
Wartość procentowa przy konkretnym rekordzie na liście wskazuje, jaką cześć analizowanej pracy stanowi zapożyczenie ze wskazanego źródła. Wybór opcji „Pokaż w tekście” oznaczonej ikoną lupki, przenosi do konkretnego fragmentu i wyróżnia go kolorem niebieskim. Dostępne jest przenoszenie pomiędzy kolejnymi fragmentami z wybranego źródła za pomocą przycisków „następny”/”poprzedni” z prawej strony ekranu.
Pierwsza lista podobieństw zawiera zawsze 10 najdłuższych fragmentów z badanej pracy odnalezionych w innych źródłach. Na tej liście może znajdować się kilka fragmentów pochodzących z jednego źródła.
Pozostałe listy podobieństw pogrupowane są względem źródeł podobieństwa, a przy nich znajdują się sumaryczne statystyki podobieństwa względem całego źródła, niezależnie od liczby fragmentów, w których zostało przedstawione.
Na listach podobieństwa mogą znajdować się rekordy wyróżnione pogrubioną czcionką. Oznacza to, że przynajmniej jeden z ich fragmentów osiągnął minimalną długość frazy dla Współczynnika podobieństwa 2 (tj. domyślnie 25 wyrazów).
W przypadku listy źródeł internetowych, po kliknięciu w link do strony otworzy się podgląd strony z zaznaczonymi fragmentami identycznymi. Za pomocą paska nawigacji źródło można otworzyć w oddzielnej karcie lub zamknąć podgląd. Jeśli w danym źródle znaleziono więcej niż jeden podobny fragment, kliknięcie w inny żółty fragment na podglądzie strony internetowej, przeniesie do pasującego fragmentu w badanym tekście.
Alerty
Występowanie w tekście niektórych zabiegów edytorskich może mieć na celu zaburzenie wyników analizy. Zmiany niewidoczne dla osoby zapoznającej się z treścią pracy na wydruku lub w pliku wpływają na frazy porównywane podczas analizy tekstu (poprzez celowe błędy pisowni) w celu ukrycia zapożyczeń lub obniżenia wyników w Raporcie podobieństwa.
Dokumenty, w których zidentyfikowano Alert, są wyróżnione czerwonym wykrzyknikiem na liście dokumentów. Statystyki dotyczące wystąpień alertu zawarto w Raporcie podobieństwa w sekcji „Alerty”.
Znaki pochodzące z alfabetu innego niż łaciński
Znaki z innych alfabetów mogą imitować litery z alfabetu właściwego dla języka pracy powodując błędy pisowni wyrazów w tekście.
Rozstrzelenia
Zwiększenie odległości pomiędzy literami może imitować spacje powodując złączenie wyrazów.
Mikrospacje
Spacje o zerowej długości pomiędzy literami wyrazów mogą powodować nieprawidłowy podział wyrazów w tekście.
Białe znaki
Znaki o białym kolorze czcionki mogą zastępować spacje powodując złączenie sąsiednich wyrazów.
Parafrazy
Fragmenty, w których dokonano nieznacznych modyfikacji (zmiana kolejności wyrazów, użycie synonimu itp.) względem odnalezionego w źródłach podobieństwa fragmentu - nadmierne użycie mogło mieć na celu ukrycie nieuprawnionych zapożyczeń.
Należy ocenić, czy zaznaczone wystąpienia wynikają z uzasadnionego formatowania tekstu (nadwrażliwość systemu), czy są celową manipulacją.
Fragmenty zidentyfikowane jako podobne zostały oznaczone w treści Raportu kolorami zgodnie z legendą oznaczeń baz pochodzenia zapożyczeń. Przy fragmentach zamieszczone są numery, pod którymi znajdują się źródła na listach podobieństwa.
Kolory występujące w treści Raportu podobieństwa oznaczają odpowiednio:
Internet
zielony — fragmenty pochodzące z zasobów Internetu,
Dwa odcienie zielonego służą do rozróżnienia następujących bezpośrednio po sobie fragmentów odnalezionych w różnych źródłach bądź w tym samym źródle, ale w innych jego miejscach.
niebieski kolor tła — fragmenty odnalezione w dokumentach pochodzących z Bazy Aktów Prawnych (BAP),
Analizowane teksty są również porównywane z Bazą Aktów Prawnych firmy Wolters Kluwer SA, co pozwala odróżnić je od innego rodzaju zapożyczeń, ponieważ jako akty normatywne nie są chronione prawem autorskim.
pomarańczowy — fragmenty pochodzące z zasobów bazy RefBooks [opcja dodatkowa]; to wielomilionowa baza publikacji i tekstów ze wszystkich dziedzin nauki i kultury, głównie w języku polskim i angielskim, stanowiąca podstawę dla sprawdzeń dokonywanych przez system Antyplagiat. Dzięki współpracy z wydawnictwami Wolters Kluwer SA, Termedia i serwisem Paperity.org obejmuje m.in. najnowsze książki, komentarze oraz artykuły naukowe udostępniane zarówno w modelu tradycyjnym, jak i na podstawie otwartych licencji (tzw. Open Access) oraz bazę arxiv.org.
System zaznacza także frazy podobne (ale nie identyczne) do fragmentów ze znalezionych źródeł. Frazy, które zostały poddane drobnym modyfikacjom, takim jak: zmiana kolejności słów, dodawanie lub usuwanie słów, zastępowanie pojedynczych słów synonimami, są w Raporcie podkreślane i wyświetlane w jaśniejszym odcieniu koloru czcionki.
Oryginalna fraza jest wyświetlana po najechaniu kursorem myszy na zmodyfikowany fragment.
Aby dokonać właściwej interpretacji Raportu podobieństwa, należy wykonać następujące czynności:
Sprawdzić wartości Współczynników podobieństwa (wątpliwości powinno budzić w szczególności przekroczenie progu 50% dla Współczynnika podobieństwa 1 i 5% dla Współczynnika podobieństwa 2).
Jeżeli w badanej pracy pojawi się Alert oznaczający wykorzystanie liter z innych alfabetów niż łaciński, należy zwrócić na to szczególną uwagę poprzez przeanalizowanie akapitów zawierających litery oznaczone kolorem żółtym.
Przeanalizować listę „10 najdłuższych fragmentów” (wątpliwości powinny budzić fragmenty o liczbie wyrazów przekraczającej 50; jeżeli takie występują, należy je odnaleźć, używając linku „Pokaż w tekście” i sprawdzić, czy są cytatami).
Przeanalizować pozostałe listy, zwracając szczególną uwagę na dokumenty zawierające fragmenty o długości przekraczającej limit ustalony dla Współczynnika podobieństwa 2 (są one oznaczone pogrubioną czcionką). W przypadku takich dokumentów, zwłaszcza znajdujących się na początku listy, należy użyć linku „Pokaż w tekście” i sprawdzić, czy są one raczej krótkimi frazami rozproszonymi po całym dokumencie (w takiej sytuacji można je uznać za przypadkowe zapożyczenia), czy też długimi fragmentami tekstu sąsiadującymi ze sobą i rozdzielonymi tylko krótkimi frazami (taka sytuacja powinna budzić podejrzenia).
W przypadku pojawienia się jakichkolwiek podejrzeń, należy poddać Raport podobieństwa szczegółowej analizie, polegającej, poza użyciem funkcji Raportu podobieństwa wymienionych w pkt. 1-4, także na dokładnym sprawdzeniu treści dokumentu, z uwzględnieniem prawidłowego oznaczenia cytowanych fragmentów użytych w badanej pracy wykrytych przez System jako podobne do tekstów odnalezionych w bazach Systemu.
Dodatkowe informacje dotyczące interpretacji Raportu podobieństwa:
System Antyplagiat jest narzędziem umożliwiającym kontrolę oryginalności badanych dokumentów. Jego zadaniem jest dokładne określenie zakresu ewentualnych podobieństw w sprawdzanym tekście w porównaniu do treści znajdujących się w bazach Systemu.
System udostępnia Użytkownikowi powyższe informacje pozwalając na dokonanie samodzielnej oceny, czy zapożyczenia odnalezione w treści analizowanego dokumentu są uprawnione. Zadaniem systemu nie jest wykonanie samoistnej oceny, czy badany dokument został napisany samodzielnie, a jedynie dostarczenie materiału do jej dokonania. Z tego względu Raport podobieństwa powinien być zawsze poddany analizie przez kompetentną osobę. W szczególności nie należy oceniać pracy opierając się wyłącznie na wskaźnikach (wartościach procentowych) Współczynników podobieństwa. Konieczne jest sprawdzenie w treści dokumentu, czy cytacje są poprawnie oznaczone i czy pochodzą z dokumentów, które zostały wymienione w bibliografii.
System nie analizuje, która praca powstała wcześniej - zgłoszona do analizy, czy odnaleziona przez system i potraktowana jako źródło. W związku z tym na podstawie samego Raportu podobieństwa nie można określić, która praca jest oryginałem, a która kopią. Do takich wniosków można dojść jedynie w drodze analizy obydwu dokumentów.
Ze względu na przyjęte metody analizowania podobieństw, system wykrywa także wyrażenia (związki frazeologiczne), które są powszechnie wykorzystywane w języku polskim, np.: „z tego też powodu można”, „można odnieść takie wrażenie, że”, „warto pamiętać o tym, że”. Zaliczenie tego typu wyrażeń do ogólnej puli zapożyczeń, i ich wpływ na wartość procentowego wskaźnika podobieństwa Raportu, dla tekstów w języku polskim nie powinien jednak przekroczyć 5%. Z analizy przeprowadzonej przez system Antyplagiat wynika, że w przypadku tekstów zawierających dużo fraz zaczerpniętych z języka fachowego, Współczynnik podobieństwa znacząco wzrasta. Powoduje to, że część prac uzyskuje stosunkowo wysoki współczynnik, a szczegółowa analiza Raportów podobieństwa wykazuje, że nie zawierają one niedopuszczalnych zapożyczeń. Współczynnik podobieństwa 2 znacznie dokładniej określa zapożyczenia odnalezione w analizowanym dokumencie. Jego wartość jest wyliczana w analogiczny sposób jak Współczynnika podobieństwa 1, jednak identyfikuje on frazy złożone z minimum 25 wyrazów.
Wykrywanie treści AI, inaczej określane detekcją AI, jest modułem (inaczej detektorem) dostarczającym informację o prawdopodobieństwie, z jakim wgrany do sprawdzenia tekst został utworzony przy użyciu narzędzi sztucznej inteligencji opartych na GPT tj. GPT-2, GPT-J, GPTNEO, GPT-3 lub GPT-4, Przykładowe narzędzia to ChatGPT, Bing, Gemini, Jasper. Detektor jest trenowany do tego, aby odróżnić teksty pisane przez człowieka od tekstów generowanych przez sztuczną inteligencję, a jednym z elementów oceny prawdopodobieństwa jest określenie przewidywalności lub przypadkowości słów w tekście. Detektor analizuje teksty, aby zidentyfikować charakterystyczne cechy modeli językowych. Wykorzystuje do tego techniki uczenia maszynowego. Na podstawie dużej ilości danych treningowych rozpoznaje cechy charakterystyczne dla tekstów tworzonych przez AI. Detektor jest narzędziem wspierającym weryfikację oryginalności tekstów, zapewnia skuteczność na poziomie 95%, jednak nie jest doskonały i mogą zdarzyć się fałszywe pozytywne i fałszywie negatywne wyniki. Podobnie jak w przypadku Raportu Podobieństwa, zadaniem systemu nie jest wykonanie samoistnej oceny, czy badany dokument został napisany samodzielnie, a jedynie dostarczenie materiału do jej dokonania. Z tego względu Raport Wykrywania treści AI powinien być zawsze poddany analizie przez kompetentną osobę.
Aby zapoznać się z wynikami raportu wykrywania treści AI należy przejść na zakładkę „Detekcja AI” w menu po lewej stronie ekranu.
I. Prawdopodobieństwo wykorzystania treści AI
W pierwszej sekcji raportu przedstawiono procentowe prawdopodobieństwo wykorzystania narzędzi opartych na sztucznej inteligencji w procesie tworzenia tekstu dla całego dokumentu. Wskaźnik ten, mieszczący się w zakresie od 0 do 100%, odzwierciedla ogólne średnie prawdopodobieństwo zastosowania AI dla całego badanego tekstu. Na tekście zaprezentowano wyniki dotyczące poszczególnych fragmentów pogrupowane w pięć zakresów procentowych według legendy przedstawionej w dalszej części tej sekcji. Każdy z tych zakresów ma przypisany odpowiedni kolor, co pozwala na łatwe zidentyfikowanie poziomu prawdopodobieństwa wykorzystania narzędzi AI dla danego fragmentu. Ważne! Ta sekcja nie odzwierciedla ilości tekstu napisanego przez sztuczną inteligencję, a prawdopodobieństwo jej użycia.
Dla ułatwienia szybkiej oceny poszczególnych fragmentów pracy wprowadzono legendę oznaczania fragmentów według 5 zakresów procentowych, z których każdy oznaczony jest innym kolorem. Treść badanego dokumentu jest wyświetlana po prawej stronie ekranu i jest ona oznaczona kolorem przypisanym do odpowiedniego zakresu. Po najechaniu kursorem myszy na konkretny fragment wyświetli się informacja o dokładnym prawdopodobieństwie dla danego fragmentu.
II. Zawartość treści AI w tekście
W drugiej sekcji został przedstawiony procentowo, od 0 do 100%, udział treści zidentyfikowanych w tekście analizowanego dokumentu jako stworzone z wykorzystaniem sztucznej inteligencji.
Wskaźnik „Zawartość AI w tekście” (1) - wskazuje, jaka część tekstu mogła zostać wytworzona z wykorzystaniem sztucznej inteligencji, czyli dla których prawdopodobieństwo jej użycia przekracza ustawiony próg. Domyślnie wartość progu ustawiona jest na 0,8 (skala o wartościach od 0 do 1). Instrukcja interpretacji Interaktywnego Raportu systemu Antyplagiat dla Użytkownika Indywidualnego 11 Za pomocą suwaka (2) umieszczonego w tej sekcji użytkownik może zmienić wartość progową a system automatycznie przeliczy wynik. W nowej sekcji udostępniona została również funkcja (3) umożliwiająca zaznaczanie jedynie fragmentów o wysokim prawdopodobieństwie AI, czyli fragmentów wliczających się do wyniku „Zawartość treści AI w tekście”.
III. Szczegóły Raportu Wykrywania treści AI
W trzeciej sekcji dostępna jest lista fragmentów tekstu uszeregowana od fragmentów z najwyższym wynikiem prawdopodobieństwa do fragmentów z najniższym. Opcja lupki („Pokaż w tekście”) umożliwia osobie oceniającej tekst szybkie przeniesienie się do konkretnego fragmentu w celu szczegółowej analizy. Dla optycznego wyróżnienia czcionka wyszukanego fragmentu zostaje pogrubiona.
Ważne! Aby pobrać raport wykrywania treści AI należy skorzystać z opcji zapisu do PDF dostępnego w przyborniku po prawej stronie ekranu.
Fragmenty oznaczone kolorem zielonym, obejmujące zakres od 0% do 40% należy interpretować jako napisane z dużym prawdopodobieństwem przez człowieka. Fragmenty oznaczone kolorem żółtym, obejmujące zakres od 41% do 60% ukazują, że nie można jednoznacznie określić czy zostały napisane przez człowieka czy przy użyciu narzędzi opartych na AI. Fragmenty oznaczone kolorem czerwonym, obejmujące zakres od 61% do 100% należy interpretować jako napisane z dużym prawdopodobieństwem przy użyciu sztucznej inteligencji.
Detektor jest narzędziem wspierającym weryfikację oryginalności tekstów. Jego skuteczność wynosi 95%. W związku z tym, że detekcja AI jest nadal w fazie rozwoju mogą zdarzyć się fałszywe pozytywne (tekst napisany przez AI oznaczony jako napisany przez człowieka) i fałszywie negatywne (tekst napisany przez człowieka oznaczony jako napisany przez AI) wyniki. Ich poziom nie przekracza 5%.
Aby dokonać właściwej interpretacji Raportu wykrywania treści AI, należy zwrócić uwagę na następujące kwestie dodatkowe:
1. Styl pisania powinien odpowiadać poziomowi stylu studenta, jaki prezentował w dotychczas przygotowywanych formach pisemnych.
2. Poprawność gramatyczna: powtarzające się frazy, wiele numerowanych i wypunktowanych list, literówki, nieprzetłumaczone słowa. Tego typu błędy są charakterystyczne dla narzędzi opartych o AI.
3. Sposób zwracania się autora tekstu do czytelnika. Sztuczna inteligencja zwraca się do pytającego z użyciem formy „Ty”.
4. Opisy bez rozwinięć, uzasadnień, “suche” sformułowania, encyklopedyczne zdania. 5. Nieprawdziwe informacje, dane, wyniki badań, bibliografia, błędy merytoryczne.
W każdym przypadku rekomendujemy, aby w pierwszej kolejności zapoznać się z wytycznymi uczelni lub instytucji, dotyczącymi dopuszczalności stosowania narzędzi opartych o AI. Jeśli takich wytycznych nie ma najlepiej uzgodnić z promotorem lub opiekunem pracy możliwy cel i zakres użycia narzędzi AI w Twojej pracy.