Skip to content
Menu
Saayarelo
Saayarelo

The Onion or Not the Onion?

Posted on decembrie 26, 2021

Intro:

În ultimii ani, se pare că suntem inundați de articole de știri care parcă ar aparține unui univers alternativ. De câte ori ați primit o știre actualizată și titlul este absolut suprarealist. Se pare că, în ultima vreme, multe articole de știri încep să semene în fiecare zi mai mult cu articolele din The Onion. Acest lucru este atât îngrijorător, cât și puțin amuzant, în funcție de umorul dumneavoastră.

*nota:* Pentru contextul acestui articol, definesc știrile „reale” ca fiind articole de știri din surse verificate, cum ar fi NPR, Washington Post, etc.

Întrebare privind știința datelor:

Sunt interesat în mod special de validitatea acestei afirmații. Articolele de știri „adevărate” seamănă sincer cu articolele Onion? În special cele care se citesc ca articolele The Onion. Dovezile sunt aproape în întregime anecdotice, dar ar fi interesant de văzut dacă există cuvinte cheie sau fraze care sunt asociate mai mult cu articolele Onion față de articolele reale.

Proces:

Pentru acest proiect, am folosit Natural Language Processing și NLTK, pentru a încerca să structurez cuvintele într-un mod în care un computer să le poată înțelege, modela și prezice.

Am adunat date prin răzuirea subreddits r/TheOnion și r/nottheonion. Pentru context, The Onion este un site de știri satirice pentru articole care sunt pur și simplu prea ridicole pentru a fi adevărate. Pentru comparație, r/nottheonion este descris ca fiind „Pentru povești adevărate care sunt atât de ridicule încât ai fi putut jura că este o poveste de la Onion”. Aceasta părea a fi cea mai bună comparație pentru scopurile acestui proiect.

După ce am răzuit și colectat datele mele, am început NLP.

Am creat un model de sac de cuvinte, am încercat TF-IDF , și l-am comparat cu CountVectorizer pentru a testa și a vedea care a avut cel mai mare efect asupra modelului meu. Între CV și TF-IDF, acesta din urmă a avut cel mai bun scor.

Bag of Words:

Frecvența cuvintelor în subredditul The Onion:

2,2 n-gram range from The Onion

Frecvența cuvintelor în subredditul Not the Onion:

2,2 n-gram range from Not the Onion

Din acest singur lucru, putem vedea că primul cuvânt „year old” apare în ambele subreddituri. Există pur și simplu o mulțime de suprapuneri între cele două. Acest lucru susține ipoteza mea inițială că probabil voi avea o perioadă foarte dificilă în încercarea de a face un model să diferențieze între cele două pagini.

Pentru o bună măsură (și practică de codare), am mers mai departe și cu fiecare model a punctat cu ambele.

Modelare:

Am testat Regresia logistică cu hiperparametrii Ridge și Lasso:

Scoring CV cu parametrii LogReg Lasso
.

Scoring CV cu parametrii LogReg Ridge

Naïve Bayes cu CV și TF-.IDF:

Naive Bayes cu numărătoarea vectorizator

Naive Bayes cu TF-IDF

și un model Random Forest cu CV și TF-IDF:

Random Forest cu numărătoarea vectorizer

Random Forest with TF-IDF

Cel mai bun model și justificare:

În toate modelele mele, scorul de instruire a avut o performanță semnificativ mai bună decât scorul de testare, ceea ce sugerează că modelul meu este supraadaptat – în unele cazuri serios supraadaptat.

Am sfârșit prin a alege Naïve Bayes cu TF-IDF ca fiind cel mai performant model. A fost cel mai puțin supraadaptat dintre toate modelele pe care le-am antrenat, așa că mi-am continuat evaluările cu acesta. Pentru a analiza acuratețea și sensibilitatea, am folosit Regresia logistică datorită ușurinței sale de interpretare.

Concluzie:

Am putea spune că ipoteza susține dovezile anecdotice. Cred că încercarea de a antrena calculatorul să înțeleagă diferența dintre satiră și o știre reală, este destul de dificilă.

Matrice de confuzie

Deși matricea de confuzie sugerează că modelul meu s-a descurcat deosebit de bine, nu a fost cu mult mai bun decât scorul meu de precizie de bază.

În cazul în care nu ați fost convinși, iată o vizualizare a cât de bine a performat de fapt modelul meu:

Pasii următori:

Există câteva probleme flagrante cu modelele și evaluările mele:

În primul rând, datele mele sunt distorsionate. Am avut mult mai multe articole din The Onion decât din Not the Onion și mi-a fost greu să încerc să țin cont de această problemă. Dacă aș avea mai mult timp, m-aș gândi să renunț aleatoriu la datele de la The Onion pentru a avea o clasă egală de la început.

În sfârșit, aș fi ponderat anumite cuvinte mai semnificativ decât altele. După cum am menționat mai sus, expresia „year old” apare în ambele subreddits, poate că acordarea unei ponderi mai mici acestei expresii ar fi îmbunătățit scorurile mele.

.

Lasă un răspuns Anulează răspunsul

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Articole recente

  • Ce face ca peștele labirint să fie diferit?
  • Corticosteroizii sistemici sunt prescrise frecvent pentru psoriazis
  • 5 întrebări cu … Melissa McGurren | RSN
  • Cărțile Noului Testament al Bibliei
  • Tilapia cu migdale
  • Tipurile de păr pentru bărbați: Cum se întrețin + 12 idei de styling
  • 15 citate și sloganuri despre SMS-uri și șofat pentru a vă reaminti să nu stați departe de telefon
  • 101 cele mai bune 101 cele mai bune legende de artă pentru Instagram
  • Dental
  • Ce este mucegaiul de zăpadă? (Și cum să scăpați de ea)

Arhive

  • februarie 2022
  • ianuarie 2022
  • decembrie 2021
  • noiembrie 2021
  • octombrie 2021
  • Deutsch
  • Nederlands
  • Svenska
  • Dansk
  • Español
  • Français
  • Português
  • Italiano
  • Română
  • Polski
  • Čeština
  • Magyar
  • Suomi
  • 日本語
©2022 Saayarelo | WordPress Theme: EcoCoded