<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type='text/xsl' href='/oai/static/oai2.xsl' ?><OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">
  <responseDate>2026-05-30T13:46:00Z</responseDate>
  <request identifier="ca23654738692925ceb5e508c9dca7fe9d3dba630d3997eef8ee0935502611d1" metadataPrefix="oai_ddi25" verb="GetRecord">https://datacatalogue.cessda.eu/oai-pmh/v0/oai</request>
  <GetRecord>
    <record>
    <header>
      <identifier>ca23654738692925ceb5e508c9dca7fe9d3dba630d3997eef8ee0935502611d1</identifier>
      <datestamp>2025-10-01T03:00:45Z</datestamp>
      <setSpec>language:en</setSpec><setSpec>openaire_data</setSpec>
    </header>
      <metadata>
        <codeBook xmlns="ddi:codebook:2_5" version="2.5" xsi:schemaLocation="ddi:codebook:2_5 http://www.ddialliance.org/Specification/DDI-Codebook/2.5/XMLSchema/codebook.xsd">
    <docDscr>
      <citation>
        <titlStmt>
          <titl xml:lang="en">DDI study level documentation for study ZA8800 Data Discovery with Large Language Models</titl>
        </titlStmt>
        <prodStmt>
        </prodStmt>
        <holdings xml:lang="en" URI="https://search.gesis.org/research_data/ZA8800?lang=en"/><holdings xml:lang="de" URI="https://search.gesis.org/research_data/ZA8800?lang=de"/>
      </citation>
    </docDscr>
  <stdyDscr>
    <citation>
      <titlStmt>
        <titl xml:lang="en">Data Discovery with Large Language Models</titl>
        <parTitl xml:lang="de">Data Discovery with Large Language Models</parTitl>
        <IDNo xml:lang="en" agency="GESIS">ZA8800, Version 1.0.0</IDNo><IDNo xml:lang="de" agency="GESIS">ZA8800, Version 1.0.0</IDNo><IDNo xml:lang="en" agency="DOI">10.4232/1.14529</IDNo><IDNo xml:lang="de" agency="DOI">10.4232/1.14529</IDNo>
      </titlStmt>
      <rspStmt>
        <AuthEnty affiliation="GESIS – Leibniz-Institut für Sozialwissenschaften, Köln" xml:lang="en">Perry, Anja
        </AuthEnty><AuthEnty affiliation="GESIS – Leibniz-Institut für Sozialwissenschaften, Köln" xml:lang="de">Perry, Anja
        </AuthEnty><AuthEnty affiliation="TH Mittelhessen - University of Applied Sciences, Gießen; Herder-Institut, Marburg" xml:lang="en">Kreutz, Christin K.
        </AuthEnty><AuthEnty affiliation="TH Mittelhessen - University of Applied Sciences, Gießen; Herder-Institut, Marburg" xml:lang="de">Kreutz, Christin K.
        </AuthEnty><AuthEnty affiliation="Deutsches Zentrum für Luft- und Raumfahrt e.V. (DLR), Köln" xml:lang="en">Friedrich, Tanja
        </AuthEnty><AuthEnty affiliation="Deutsches Zentrum für Luft- und Raumfahrt e.V. (DLR), Köln" xml:lang="de">Friedrich, Tanja
        </AuthEnty>
      </rspStmt>
      <prodStmt>
        <prodDate xml:lang="en"/>
      </prodStmt>
      <distStmt>
        <distrbtr abbr="GESIS" URI="http://www.gesis.org/" xml:lang="en">GESIS Data Archive for the Social Sciences</distrbtr><distrbtr abbr="GESIS" URI="http://www.gesis.org/" xml:lang="de">GESIS Datenarchiv für Sozialwissenschaften</distrbtr>
        <distDate xml:lang="en" date="2025-07-02"/><distDate xml:lang="de" date="2025-07-02"/>
      </distStmt>
      <verStmt>
        <version date="2025-07-02" xml:lang="en"/><version date="2025-07-02" xml:lang="de"/>
      </verStmt>
      <holdings xml:lang="en" URI="https://search.gesis.org/research_data/ZA8800?lang=en"/><holdings xml:lang="de" URI="https://search.gesis.org/research_data/ZA8800?lang=de"/>
    </citation>
    <stdyInfo>
      <subject>
        <topcClas xml:lang="en" vocab="CESSDA Topic Classification" vocabURI="https://vocabularies.cessda.eu/v2/vocabularies/TopicClassification/4.0?languageVersion=en-4.0">Information technology</topcClas><topcClas xml:lang="de" vocab="CESSDA Topic Classification" vocabURI="https://vocabularies.cessda.eu/v2/vocabularies/TopicClassification/4.0?languageVersion=de-4.0.1">Informations- und Kommunikationstechnologie</topcClas><topcClas xml:lang="en" vocab="CESSDA Topic Classification" vocabURI="https://vocabularies.cessda.eu/v2/vocabularies/TopicClassification/4.0?languageVersion=en-4.0">SCIENCE AND TECHNOLOGY</topcClas><topcClas xml:lang="de" vocab="CESSDA Topic Classification" vocabURI="https://vocabularies.cessda.eu/v2/vocabularies/TopicClassification/4.0?languageVersion=de-4.0.1">WISSENSCHAFT UND TECHNIK</topcClas>
      </subject>
      <abstract xml:lang="en">The goal of this study is to investigate data search behaviour using Large Language Models (LLMs).  We recruited 32 researchers by reaching out to personal contacts, posting to various mailing lists and on social media. One-on-one interviews with one participant and one interviewer were conducted via Zoom between February 7th and March 4th, 2025. During the one-on-one sessions, participants performed two data search tasks with an LLM (ChatGPT Scholar GPT or Perplexity) via remote access in Zoom. In the first task we asked them to conduct the search with the LLM presented to them (unguided task). In the second task (guided task), we prompted the LLM to behave as a persona and asked participants to imagine they were chatting with their colleague Leslie. While searching for data, the participants used Think-Aloud.  Each session started with an initial oral interview. After each data search task, participants filled out two user experience questionnaires (User Experience Questionnaire (UEQ) and the NASA Task Load Index (NASA-TLX)) and additional interview questions about the search were answered verbally. In a short background questionnaire at the end we asked about experience in working with and searching for research data and basic demographics.</abstract><abstract xml:lang="en">Large Language Model used (Chat GPT Scholar, Perplexity); primary research field (arts and humanities, life sciences and biomedicine, social sciences and technology); frequency of use of LLM for academic tasks;  Task 1: total number of queries; clarified own role; defined role for LLM (only task 1); average query length; average LLM response length; average query noun count; average query noun ratio; average number of emojis in LLM response;  User Experience Questionnaire (UEQ) (annoying – enjoyable, not understandable – understandable, difficult to learn – easy to learn, inferior – valuable, boring – exciting, not interesting – interesting, unpredictable – predictable, slow – fast, obstructive – supportive, bad – good, complicated – easy, unlikable – leasing, unpleasant – pleasant, not secure – secure, demotivating – motivating, does not meet expectations – meets expectations, inefficient – efficient, confusing – clear, impractical -practical, cluttered -organized, unattractive – attractive, unfriendly – friendly); subscales attractiveness, efficiency, perspicuity, dependability, stimulation;  NASA Task Load Index (NASA-TLX) 1st task (mental demand, physical demand, temporal demand, performance effort, frustration); familiarity with data just searched.  Task 2: total number of queries; clarified own role; average query length; average LLM response length; average query noun count; average query noun ratio; average number of emojis in LLM response;  User Experience Questionnaire (UEQ) (annoying – enjoyable, not understandable – understandable, difficult to learn – easy to learn, inferior – valuable, boring – exciting, not interesting – interesting, unpredictable – predictable, slow – fast, obstructive – supportive, bad – good, complicated – easy, unlikable – leasing, unpleasant – pleasant, not secure – secure, demotivating – motivating, does not meet expectations – meets expectations, inefficient – efficient, confusing – clear, impractical -practical, cluttered -organized, unattractive – attractive, unfriendly – friendly); subscales attractiveness, efficiency, perspicuity, dependability, stimulation;  NASA Task Load Index (NASA-TLX) 2nd task (mental demand, physical demand, temporal demand, performance effort, frustration); familiarity with data just searched.  Experience: years working with data; frequency of data use, frequency of data search in year.  Demography: age; sex; highest academic qualification.  Additionally coded was: ID.</abstract><abstract xml:lang="de">Das Ziel dieser Studie ist es, das Verhalten bei der Datensuche mit Hilfe von Large Language Models (LLMs) zu untersuchen.  Die Rekrutierung der 32 Forschenden erfolgte über persönliche Kontakte, Mailinglisten verschiedener Forschungsbereiche und über soziale Medien (BlueSky und Mastodon). Zwischen dem 7. Februar und dem 4. März 2025 wurden Einzelinterviews (one-on-one interview) via Zoom durchgeführt, bei denen eine Interviewerin ein persönliches Gespräch mit einem einzelnen Teilnehmenden führte. Während der Einzelinterviews führten die Teilnehmenden zwei Datensuchaufgaben mit einem LLM (ChatGPT Scholar GPT oder Perplexity) über einen Fernzugang in Zoom durch. In der ersten Aufgabe wurden sie gebeten, die Suche mit dem ihnen präsentierten LLM durchzuführen (ungeleitete Aufgabe). In der zweiten Aufgabe (geleitete Aufgabe) trat das LLM als Persona auf und die Teilnehmenden wurden gebeten, sich vorzustellen, sie würden mit ihrer Kolleg*in Leslie chatten. Während sie nach Daten suchten, nutzten die Teilnehmenden Think-Aloud.  Jede Sitzung begann mit einem mündlichen Eingangsinterview. Nach jeder Datensuchaufgabe füllten die Teilnehmenden zwei Fragebögen zur Nutzungserfahrung aus (User Experience Questionnaire (UEQ) und NASA Task Load Index (NASA-TLX)) und beantworteten weitere Interviewfragen zur Suche mündlich. In einem kurzen Hintergrundfragebogen am Ende wurden die Teilnehmenden zu ihren Erfahrungen in der Arbeit mit und der Suche nach Forschungsdaten befragt sowie nach grundlegenden demografischen Daten.</abstract><abstract xml:lang="de">Verwendetes Large Language Model (Chat GPT Scholar, Perplexity); primäres Forschungsgebiet (Kunst- und Geisteswissenschaften, Biowissenschaften und Biomedizin, Sozialwissenschaften und Technologie); Häufigkeit der Verwendung von LLM für akademische Aufgaben;  Aufgabe 1: Gesamtzahl der Abfragen; geklärte eigene Rolle; definierte Rolle für LLM (nur Aufgabe 1); durchschnittliche Abfragelänge; durchschnittliche LLM-Antwortlänge; durchschnittliche Anzahl von Abfragesubstantiven; durchschnittliches Verhältnis von Abfragesubstantiven; durchschnittliche Anzahl von Emojis in LLM-Antworten;  User Experience Questionnaire (UEQ) (lästig - angenehm, unverständlich - verständlich, schwer erlernbar - leicht erlernbar, minderwertig - wertvoll, langweilig - spannend, uninteressant - interessant, unvorhersehbar - vorhersehbar, langsam - schnell, hinderlich - unterstützend, schlecht - gut, kompliziert - einfach, unsympathisch - sympathisch, unangenehm - angenehm, nicht sicher - sicher, demotivierend - motivierend, entspricht nicht den Erwartungen - entspricht den Erwartungen, ineffizient - effizient, verwirrend - klar, unpraktisch - praktisch, unübersichtlich - übersichtlich, unattraktiv - attraktiv, unfreundlich - freundlich); Subskalen Attraktivität, Effizienz, Klarheit, Verlässlichkeit, Stimulation;  NASA Task Load Index (NASA-TLX) Aufgabe 1 (geistige Anforderung, körperliche Anforderung, zeitliche Anforderung, Leistungsaufwand, Frustration); Vertrautheit mit den gerade gesuchten Daten.  Aufgabe 2: Gesamtzahl der Abfragen; geklärte eigene Rolle; durchschnittliche Abfragelänge; durchschnittliche LLM-Antwortlänge; durchschnittliche Anzahl der Abfragesubstantive; durchschnittlicher Anteil der Abfragesubstantive; durchschnittliche Anzahl der Emojis in LLM-Antworten;  User Experience Questionnaire (UEQ) Aufgabe 2 (lästig - angenehm, unverständlich - verständlich, schwer erlernbar - leicht erlernbar, minderwertig - wertvoll, langweilig - spannend, uninteressant - interessant, unvorhersehbar - vorhersehbar, langsam - schnell, hinderlich - unterstützend, schlecht - gut, kompliziert - einfach, unsympathisch - sympathisch, unangenehm - angenehm, nicht sicher - sicher, demotivierend - motivierend, entspricht nicht den Erwartungen - entspricht den Erwartungen, ineffizient - effizient, verwirrend - klar, unpraktisch - praktisch, unübersichtlich - übersichtlich, unattraktiv - attraktiv, unfreundlich - freundlich); Unterskalen Attraktivität, Effizienz, Klarheit, Verlässlichkeit, Stimulation;  NASA Task Load Index (NASA-TLX) Aufgabe 2 (geistige Anforderung, körperliche Anforderung, zeitliche Anforderung, Leistungsaufwand, Frustration); Vertrautheit mit den gerade gesuchten Daten.  Erfahrung: Jahre der Arbeit mit Daten; Häufigkeit der Datennutzung, Häufigkeit der Datensuche im Jahr.  Demographie: Alter; Geschlecht; höchster akademischer Bildungsabschluss.  Zusätzlich verkodet wurde: ID.</abstract>
      <sumDscr>
        <collDate xml:lang="en" date="2025-02-07" event="start"/><collDate xml:lang="en" date="2025-03-04" event="end"/>
        <nation xml:lang="en" abbr="DE">Germany</nation><nation xml:lang="de" abbr="DE">Deutschland</nation><nation xml:lang="en" abbr="JP">Japan</nation><nation xml:lang="de" abbr="JP">Japan</nation><nation xml:lang="en" abbr="LT">Lithuania</nation><nation xml:lang="de" abbr="LT">Litauen</nation><nation xml:lang="en" abbr="US">United States of America</nation><nation xml:lang="de" abbr="US">Vereinigte Staaten von Amerika</nation><nation xml:lang="en" abbr="CA">Canada</nation><nation xml:lang="de" abbr="CA">Kanada</nation><nation xml:lang="en" abbr="SG">Singapore</nation><nation xml:lang="de" abbr="SG">Singapur</nation><nation xml:lang="en" abbr="GB">United Kingdom</nation><nation xml:lang="de" abbr="GB">Vereinigtes Königreich</nation>
      </sumDscr>
    </stdyInfo>
    <method>
      <dataColl>
        <timeMeth xml:lang="en">Cross-section<concept vocab="Time Method" vocabURI="https://vocabularies.cessda.eu/v2/vocabularies/TimeMethod/1.2?languageVersion=en-1.2">CrossSection</concept></timeMeth><timeMeth xml:lang="de">Querschnitt<concept vocab="Time Method" vocabURI="https://vocabularies.cessda.eu/v2/vocabularies/TimeMethod/1.2?languageVersion=de-1.2.1">CrossSection</concept></timeMeth>
        <sampProc xml:lang="en">Non-probability: Availability<concept vocab="Sampling Procedure" vocabURI="https://vocabularies.cessda.eu/v2/vocabularies/SamplingProcedure/1.1?languageVersion=en-1.1">Nonprobability.Availability</concept></sampProc><sampProc xml:lang="de">Nicht-Wahrscheinlichkeitsauswahl: Willkürliche Auswahl<concept vocab="Sampling Procedure" vocabURI="https://vocabularies.cessda.eu/v2/vocabularies/SamplingProcedure/1.1?languageVersion=de-1.1.1">Nonprobability.Availability</concept></sampProc>
        <collMode xml:lang="en">Online interviews and completion of data search tasks with an LLM (ChatGPT Scholar GPT or Perplexity) via remote access, Think-Aloud Technique during search tasks; User experience questionnaires (UEQ and NASA-TLX) and short background questionnaire via remote access<concept/></collMode><collMode xml:lang="de">Online-Interviews und Bearbeitung von Datensuchaufgaben mit einem LLM (ChatGPT Scholar GPT oder Perplexity) über Fernzugriff, Think-Aloud-Technik während der Suchaufgaben; Fragebögen zur Nutzungserfahrung (UEQ und NASA-TLX) und kurzer Hintergrundfragebogen über Fernzugriff<concept/></collMode>
      </dataColl>
    </method>
    <dataAccs>
      <useStmt>
        <restrctn xml:lang="en">A - Data and documents are released for academic research and teaching.</restrctn><restrctn xml:lang="de">A - Daten und Dokumente sind für die akademische Forschung und Lehre freigegeben.</restrctn>
      </useStmt>
    </dataAccs>
    <othrStdyMat>
    </othrStdyMat>
  </stdyDscr>
  <fileDscr>
  </fileDscr>
</codeBook>
      </metadata>
      <about>
        <provenance xmlns="http://www.openarchives.org/OAI/2.0/provenance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/provenance http://www.openarchives.org/OAI/2.0/provenance.xsd">
    <originDescription harvestDate="2025-10-01T03:00:45Z" altered="true">
      <baseURL>http://dbkapps.gesis.org/dbkoai/oai.asp</baseURL>
      <identifier>oai:dbk.gesis.org:DBK/ZA8800</identifier>
      <datestamp>2025-07-09</datestamp>
      <metadataNamespace>ddi:codebook:2_5</metadataNamespace>
    </originDescription>
</provenance>
      </about>
    </record>
  </GetRecord>
</OAI-PMH>