Skip to content
Menu
Saayarelo
Saayarelo

A Cebola ou Não a Cebola?

Posted on Dezembro 26, 2021

Intro:

Nos últimos anos, parece que estamos inundados de notícias que soam como se pertencessem a um universo alternativo. Quantas vezes você já recebeu uma atualização de notícias e a manchete é absolutamente surreal. Parece que recentemente muitos artigos noticiosos estão começando a soar mais como os artigos do The Onion a cada dia. Isto é tanto preocupante, e um pouco engraçado dependendo do seu humor.

* nota:* Para o contexto deste artigo, estou definindo notícias “reais” como artigos de fontes verificadas, como NPR, Washington Post, etc.

Data Science Question:

Estou particularmente interessado na validade desta afirmação. Artigos de notícias “reais” soam honestamente como artigos da Onion? Particularmente aqueles que se lêem como The Onion articles. A evidência é quase totalmente anedótica, mas seria interessante ver se existem palavras ou frases-chave que são mais associadas com os artigos sobre a cebola versus artigos reais.

Processo:

Para este projeto, usei Natural Language Processing e NLTK, para tentar estruturar palavras de tal forma que um computador possa entender, modelar e prever.

Recolhi dados raspando os subreddits r/TheOnion e r/nottheonion. Por contexto, The Onion é um site de notícias satíricas para artigos que são ridículos demais para serem verdadeiros. Para comparação, r/nottheonion é descrito como “Para histórias verdadeiras que são tão ridículas, que você poderia jurar que era uma História da Cebola”. Esta pareceu ser a melhor comparação para os propósitos deste projeto.

Após raspar e coletar meus dados, eu comecei NLP.

Criei um modelo de saco de palavras, experimentei TF-IDF , e comparei com CountVectorizer para testar e ver qual teve o maior efeito no meu modelo. Entre CV e TF-IDF, este último teve a melhor pontuação.

Saco de Palavras:

Frequência de palavras no subredito Cebola:

2,2 n-grama de intervalo do subredito Cebola

Frequência de palavras no subredito Cebola não:

>

>

>

2,2 n-grama de intervalo de Not the Onion

Após isso, podemos ver que a primeira palavra “ano de idade” aparece em ambos os subtítulos. Há apenas uma grande sobreposição entre os dois. Isto suporta a minha hipótese inicial de que provavelmente terei muita dificuldade em conseguir um modelo para diferenciar entre as duas páginas.

Para uma boa medida (e prática de codificação), fui em frente e com cada modelo pontuado com ambos.

Modelagem:

Testei a Regressão Logística com hiper parâmetros de Ridge e Lasso:

Pontuação CV com parâmetros LogReg Lasso

CV Pontuação com parâmetros LogReg Ridge

Naïve Bayes com CV e TF-IDF:

Naive Bayes com contagem vectorizador

>

>

Naive Bayes com TF-IDF

e um modelo de Floresta Aleatória com CV e TF-IDF:

>

>

>

Floresta Aleatória com contagem vectorizador

Floresta Aleatória com TF-IDF

Melhor modelo e justificação:

Em todos os meus modelos, a pontuação do treino foi significativamente melhor do que a minha pontuação nos testes, sugerindo que o meu modelo está sobreajustado – em alguns casos, seriamente sobreajustado.

Acabei por escolher Naïve Bayes com TF-IDF como o modelo com melhor desempenho. Foi o menos superfit de todos os modelos que eu treinei, então continuei minhas avaliações com isso. Para ver a precisão e sensibilidade, usei Regressão Logística devido à sua facilidade de interpretação.

Conclusão:

Eu argumentaria que a hipótese suporta a evidência anedótica. Eu acho que tentar treinar o computador para entender a diferença entre sátira e uma notícia real, é bastante difícil.

Matriz de Confusão

Embora a minha matriz de confusão sugira que o meu modelo se saiu particularmente bem, não foi muito melhor do que a minha pontuação de precisão básica.

Caso você não estivesse convencido, aqui está uma visualização de quão bem o meu modelo realmente se saiu:

Passos seguintes:

Há alguns problemas gritantes com os meus modelos e avaliações:

Por um lado, os meus dados estão enviesados. Eu tinha muito mais artigos do The Onion do que Not the Onion, e tive dificuldade em tentar explicar este problema. Se eu tivesse mais tempo, eu consideraria deixar cair dados do The Onion aleatoriamente para ter uma classe igual desde o início.

Finalmente, eu teria ponderado certas palavras mais significativamente do que outras. Como mencionei acima, a frase ‘ano de idade’ aparece em ambos os subreddits, talvez dando a esta frase um peso menor teria melhorado a minha pontuação.

Deixe uma resposta Cancelar resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

Artigos recentes

  • O que torna o peixe labirinto diferente?
  • Corticosteróides sistêmicos são frequentemente prescritos para psoríase
  • 5 Perguntas com … Melissa McGurren | RSN
  • Os livros do Novo Testamento da Bíblia
  • Tilápia Almondine
  • Tipos de Cabelo Masculino: Como Manter + 12 Ideias de Estilismo
  • 15 Texting and Driving Quotes and Slogans to Remind You to Stay off Your Phone
  • 101 Melhores legendas para Instagram
  • Dental
  • O que é Molde de Neve? (And How to Get Rid of It)

Arquivo

  • Fevereiro 2022
  • Janeiro 2022
  • Dezembro 2021
  • Novembro 2021
  • Outubro 2021
  • Deutsch
  • Nederlands
  • Svenska
  • Dansk
  • Español
  • Français
  • Português
  • Italiano
  • Română
  • Polski
  • Čeština
  • Magyar
  • Suomi
  • 日本語
©2022 Saayarelo | WordPress Theme: EcoCoded