Descrição do dataset
Este dataset contém texto com conteúdo tóxico e discurso de ódio.
Um dataset de publicações de um grupo brasileiro do Facebook com aspectos culturais similares aos do 4chan. Esse conjunto de dados inclui 129.662 postagens de usuários distribuídas entre 5.770 tópicos, que foram publicados entre 18 de dezembro 2016 e 19 de janeiro 2017. Os dados foram coletados por meio da API do Facebook, que reuniu conteúdo textual e data de publicação das postagens.
Os dados foram utilizados na dissertação de mestrado "Análise das apropriações do anonimato nas subculturas dos imageboards".
Estrutura de dados
O dataset está no formato JSON, estruturado conforme o exemplo abaixo:
[
{
"createdAt": "2016-10-11T12:01:54.000Z",
"text": "Oi, fulano teu nome né? Desculpa chegar assim do nada",
"answers": [
{
"createdAt": "2016-10-11T12:02:28.000Z",
"text": "Tudo bem"
},
{
"createdAt": "2016-10-11T12:03:08.000Z",
"text": "É que tu tava ai tão quietinho"
},
{
"createdAt": "2016-10-11T12:04:12.000Z",
"text": "Vc não é muito amigo do pessoal aqui né?"
}
]
},
{
"createdAt": "2016-12-02T02:25:44.000Z",
"text": "Algum anão ai joga Fifa 17 no pc?",
"answers": [
{
"createdAt": "2016-12-02T02:26:41.000Z",
"text": "eu anão"
},
{
"createdAt": "2016-12-02T02:27:58.000Z",
"text": "Joga"
}
]
}
]
Solicitar acesso
O acesso a este dataset pode ser solicitado através do link na plataforma Zenodo.