Summary information

Study title

TweetsKB: A Public and Large-Scale RDF Corpus of Annotated Tweets (Part 10, Jan 2021 - Dec 2021)


Baran, Erdal ( GESIS - Leibniz-Institut für Sozialwissenschaften)
Bensmann, Felix ( GESIS - Leibniz-Institut für Sozialwissenschaften)
Dietze, Stefan ( GESIS - Leibniz-Institut für Sozialwissenschaften & Heinrich-Heine-University Düsseldorf, Germany & L3S Research Center, Hannover, Germany)

Study number / PID

10.7802/2472 (GESIS)

10.7802/2472 (DOI)

Data access

Informationen nicht verfügbar


Nicht verfügbar


TweetsKB is a public RDF corpus of anonymized data for a large collection of annotated tweets. The dataset currently contains data for nearly 3.0 billion tweets, spanning more than 9 years (February 2013 - August 2022). Metadata information about the tweets as well as extracted entities, sentiments, hashtags, user mentions and URLs are exposed in RDF using established RDF/S vocabularies. For the sake of privacy, we anonymize user IDs and we do not provide the text of the tweets. For a list of the previous dataset parts, example queries and more information see the TweetsKB's home page:


Nicht verfügbar


Data collection period

01/01/2021 - 01/12/2021


Time dimension

Nicht verfügbar

Analysis unit

Nicht verfügbar


Nicht verfügbar

Sampling procedure

Nicht verfügbar

Kind of data

Nicht verfügbar

Data collection mode

Web Scraping



GESIS Datenarchiv für Sozialwissenschaften

Publication year


Terms of data access

Freier Zugang (ohne Registrierung) - Die Forschungsdaten können von jedem direkt heruntergeladen werden. Data can only be used for non-commercial research

Related publications

Nicht verfügbar