Datasets
Anonimato
Imageboards
Discurso de ódio
Conteúdo tóxico

Postagens de um fórum anônimo brasileiro

158.280 publicações de um imageboard brasileiro.

E
Eduardo Velho

Professor e pesquisador, PhD

Compartilhar em

Descrição do dataset

Este dataset contém texto com conteúdo tóxico e discurso de ódio.

Um dataset de linhas de discussão publicadas em um imageboard anônimo brasileiro, um fórum de discussão similar ao 4chan. Esse dataset inclui 158.280 postagens de usuários distribuídas entre 4.539 tópicos, que foram publicados entre 18 de dezembro 2016 e 19 de janeiro 2017. Os dados foram coletados por meio de um web scraper desenvolvido, que reuniu conteúdo textual e data de publicação das postagens. As imagens não foram coletadas devido a possibilidade de conteúdo ilegal. Os dados foram utilizados na dissertação de mestrado "Análise das apropriações do anonimato nas subculturas dos imageboards".

Estrutura de dados

O dataset está no formato JSON, estruturado conforme o exemplo abaixo:

[
  {
    "createdAt": "2016-12-18T03:31:25.000Z",
    "text": "A primeira resposta desse parênquima paliçádico deverá ser a mais quotado da história.",
    "answers": [
      {
        "createdAt": "2016-12-18T03:31:43.000Z",
        "text": "Não."
      },
      {
        "createdAt": "2016-12-18T03:32:30.000Z",
        "text": "Não."
      },
      {
        "createdAt": "2016-12-18T03:32:44.000Z",
        "text": ">>19678283"
      },
    ]
  },
  {
    "createdAt": "2016-12-19T02:52:28.000Z",
    "text": "WEBM/MP4 THREAD!",
    "answers": [
      {
        "createdAt": "2016-12-19T03:08:26.000Z",
        "text": ">>19690400\nPerdi!"
      },
      {
        "createdAt": "2016-12-19T03:08:29.000Z",
        "text": ">>19690293\nAi meu Deus."
      },
      {
        "createdAt": "2016-12-19T03:09:25.000Z",
        "text": ">>19690421"
      }
    ]
  }
]

Solicitar acesso

O acesso a este dataset pode ser solicitado através do link na plataforma Zenodo.

Entrar em contato