re "Weil ihr Trainingsmaterial viel Dialog umfasst, sieht es dann so aus, als würden sie dialogische Anweisungen und Intentionen verstehen,...": Das ist auch deshalb so effektiv, weil es nicht nur im Rahmen des ursprünglichen Trainings gelernt wurde, sondern vor allem, weil die Maschinen im Rahmen des RLHF in tausenden von "Menschenversuchen" extra gezeigt bekommen haben, was ein guter und was kein guter Anschluss an das Vorausgegangene ist.
11.3.2025 07:35re "Weil ihr Trainingsmaterial viel Dialog umfasst, sieht es dann so aus, als würden sie dialogische Anweisungen und Intentionen...Oder man könnte sagen: faszinierend ist die im menschlichen textuellen Erbe "materialisierte" Intelligenz, nicht eine in der Maschine emergierende Intentionalität.
Die Nousphere? Hegels Geist?
10.3.2025 16:58Oder man könnte sagen: faszinierend ist die im menschlichen textuellen Erbe "materialisierte" Intelligenz, nicht eine in der...Das habe ich letztens erst so richtig verstanden, als ich darüber eine Vorlesung zu halten hatte:
Autoregressive Modelle prozessieren keinen Input. Sie bootstrappen lediglich ihr - allein aus dem latenten Sprachwissen generiertes - Geplapper.
Dass das so plausibel funktioniert und z.T. sogar hilfreich sein kann, ist das eigentliche Faszinosum.
(ein bisschen wie ein autopoietisches System bzw. die Systemtheorie selbst. SCNR)
10.3.2025 16:56Das habe ich letztens erst so richtig verstanden, als ich darüber eine Vorlesung zu halten hatte:Autoregressive Modelle prozessieren keinen...Hab ein bisschen darüber nachgedacht und hier meine Antwort: das geht aus grundsätzlichen Gründen nicht!
Die Chat-LLMs, die jede natürlichsprachliche Anweisung zu verstehen scheinen, machen nämlich genau das *nicht*: einer Anweisung folgen. Sie plappern nur vor sich hin und sehen halt zu, dass das Geplapper gut an das anschließt, was bisher so geplappert wurde.
Weil ihr Trainingsmaterial viel Dialog umfasst, sieht es dann so aus, als würden sie dialogische Anweisungen und Intentionen verstehen, eigene Intentionen als Reaktion entwickeln und dann artikulieren. Aber sie "vervollständigen" nur ein in der Form des Dialogs verfasstes Dokument.
Das "Eingehen" auf die Aufforderung (um nicht zu sagen: das Verständnis des Tasks) ist also Teil der textgenerativen Funktion und nicht vom Prozessieren, der Ausgabe und den Halluzinationen abtrennbar.
D.h. schlechte Nachricht: Ohne GenAI/autoregression muss man für jeden Task extra Finetunen!
Oder seht ihr das anders?
10.3.2025 16:39Hab ein bisschen darüber nachgedacht und hier meine Antwort: das geht aus grundsätzlichen Gründen nicht!Die Chat-LLMs, die jede...And this is how this #DHd2025 day ends ...
6.3.2025 22:13And this is how this #DHd2025 day ends ...Technische Frage: Ist es eigentlich möglich, ein autoencoding oder seq2seq Modell so zu trainieren, dass es - wie die bekannten Chat-Modelle - beliebige Anweisungen in natürlicher Sprache entgegennehmen und verarbeiten kann, oder ist dazu die generative Architektur unabdingbar?
Das ist ja vielleicht der größte Vorteil des Trainings, das diese Modelle erfahren haben.
6.3.2025 11:58Technische Frage: Ist es eigentlich möglich, ein autoencoding oder seq2seq Modell so zu trainieren, dass es - wie die bekannten...Eine grundlegende technische Differenz, die m.E. jede wissenschaftspolitische LLM Strategie berücksichten muss:
Generative (autoregressive) Modelle (die würden wir z.B. für Code Generation brauchen) sind etwas anderes als autoencoding Modelle (für z.B. Klassifikation) oder seq2seq Modelle (für z.B. (multimodale) Übersetzungen). Die autoencoders müssten im Vergleich zu GPT, Claude & Co. - bei gleicher Skalierungsstufe wohlgemerkt - Klassifikation und Informationsextraktion *viel besser* beherrschen, kein ausbeuterisches RLHF benötigen und nur wenig für Halluzinationen anfällig sein. Sie sind halt von den kommerziellen Anbietern nicht auf dieselbe Stufe hochskaliert worden wie die "Chat" Modelle.
Das müssten wir in der Wissenschaft vielleicht selber machen, aber das hätte ja auch Vorteile.
6.3.2025 11:54Eine grundlegende technische Differenz, die m.E. jede wissenschaftspolitische LLM Strategie berücksichten muss: Generative (autoregressive)...Pollin und Schneider: Wie wird die nächste Generation von Expert:innen ausgebildet, wenn sie sich nicht mehr durch die mühseligen un-assistierten Lernprozesse quälen müssen? Haben wir irgendwann nur noch "Prompt Engineering" Expert:innen, aber keine Domain Expert:innen mehr, die Fehler der LLMs erkennen und behandeln können?
6.3.2025 11:10Pollin und Schneider: Wie wird die nächste Generation von Expert:innen ausgebildet, wenn sie sich nicht mehr durch die mühseligen...The input statements were something along these lines:
- Pollin, How can we avoid corporate monopolies in code generation?
- Rastinger, Token Classification; Reasoning; Evaluation; Relation of Quality and Resource Usage
- Störiko, Using image descriptions; what is "trustworthy enough", do we have statistical measures and thresholds?
- Oberbichler, Extraction of Argumentative Discourse Units (ADUs); Create Evaluation dataset; different scores between different prompting strategies and different models; Bias evaluation
- Schneider, How does the processing of image semantics work?
https://doi.org/10.5281/zenodo.14943018
6.3.2025 10:55The input statements were something along these lines:- Pollin, How can we avoid corporate monopolies in code generation?- Rastinger, Token...And now we online-vote on what questions to address in the discussion. 👍
6.3.2025 10:50And now we online-vote on what questions to address in the discussion. 👍I like: more differentiated discussions, evaluations and criticism (or is it? at least it is pleasantly un-enthusiastic and sober) of LLMs in scholarly workflows in #DHd2025's panel "More than Chatbots: Multimodel Large Language Models in geisteswissenschaftlichen Workflows"
6.3.2025 10:46I like: more differentiated discussions, evaluations and criticism (or is it? at least it is pleasantly un-enthusiastic and sober) of LLMs...(Herrgott, ist das anstrengend, das Bewusstsein über False Psychology und Anthropomorphisierung und ebenso das über die ökologische und soziale Verwickeltheit dieser Forschung immer mitzuführen!! Aber das würde ich schon von uns erwarten. Das müssen wir alle glaube ich noch etwas einüben.)
6.3.2025 09:15(Herrgott, ist das anstrengend, das Bewusstsein über False Psychology und Anthropomorphisierung und ebenso das über die ökologische und..." ... und da der Gewinn marginal ist, die Umweltbelastung aber beträchtlich, haben wir uns entschieden, zum alten Workflow zurückzukehren." oder "... und da neben dem arbeitsökonomischen Gewinn auch die Umweltauswirkungen signifikant sind, konnten wir unseren Fördermittelgeber überreden, für das Projekt CO2-Ausgleichszertifikate zu finanzieren."
6.3.2025 09:10" ... und da der Gewinn marginal ist, die Umweltbelastung aber beträchtlich, haben wir uns entschieden, zum alten Workflow...Ich hoffe, bei der #DHd2026 sind wir weiter und hören statt "Menschliche Nachkontrolle ist auch bei GPT-6u immer noch nötig" Einschätzungen und Erfahrungsberichte wie "Mit dem Wechsel von direkter Korrektur- und Tagging-Arbeit zu Nachkontrolle von LLM Output hat sich unser Aufwand und die erforderlichen Kompetenzen wie folgt verändert: ..."
6.3.2025 09:04Ich hoffe, bei der #DHd2026 sind wir weiter und hören statt "Menschliche Nachkontrolle ist auch bei GPT-6u immer noch nötig"...Interessant dazu dürfte Forschung wie die von Anthropic sein, die ich schon die ganze Zeit nicht schaffe endlich zu lesen: https://www.anthropic.com/research/mapping-mind-language-model
#DHd2025 #LLM #DigitalHumanities
4/4
6.3.2025 08:31Interessant dazu dürfte Forschung wie die von Anthropic sein, die ich schon die ganze Zeit nicht schaffe endlich zu lesen:...... und ich weiß nicht, ob es da reicht, behavioristisch die Regelmäßigkeit und Konformität im Verhalten zu beobachten. Wenn wir *Gewissheit* haben wollen, und/oder wenn wir *verstehen* wollen, was passiert, müssen wir die Begründungs- bzw. Kausalitätsverhältnisse anschauen. Da bin ich wohl eher Aristoteliker (Idealist?)...
#DHd2025 #LLM #DigitalHumanities
3/4
6.3.2025 08:29... und ich weiß nicht, ob es da reicht, behavioristisch die Regelmäßigkeit und Konformität im Verhalten zu beobachten. Wenn wir...Wenn ich mal anthropomorphisieren darf: so ein Automat fragt sich nicht nur "Ich habe jetzt 'muss man sehen, dass' geschrieben, was könnte als nächstes kommen?", sondern er "berücksichtigt" dabei Faktoren wie "jetzt muss ein Autorenname kommen" oder "ich bin gerade in dem Teil des Textes, in dem ein Einwand dargelegt wird". Diese Prozesse/Berechnungen verstehen wir immer noch zu wenig.
#DHd2025 #LLM #DigitalHumanities
2/4
6.3.2025 08:26Wenn ich mal anthropomorphisieren darf: so ein Automat fragt sich nicht nur "Ich habe jetzt 'muss man sehen, dass' geschrieben,...Die Frage, ob LLMs intelligent (oder nützlich oder zuverlässig oder verständig oder kompetente "Sprecher") sind oder nicht, bewegt sich für mich auf einer komisch allgemeinen Ebene.
Um zu verstehen, was sie tun, muss man m.E. nicht nur verstehen, dass sie probabilistische Next Token Predictors sind (die autoregressiven LLMs jedenfalls), sondern auch, dass (und wie und welche genau) sie interne Repräsentationen von abstrakten Einheiten wie grammatischen Wortklassen, rhetorischen Textstrukturen und semantischen Feldern haben - und wie diese Repräsentationen in die Next Token Wahrscheinlichkeiten hineinwirken.
#DHd2025 #LLM #DigitalHumanities
1/4
6.3.2025 08:23Die Frage, ob LLMs intelligent (oder nützlich oder zuverlässig oder verständig oder kompetente "Sprecher") sind oder nicht,...@dingemansemark at the evening event at #Wissenswerkstatt yesterday, we came up with the idea that an ideal assistant would be deployed not in a solitary, but in a group setting, and it would be an additional agent or motif in a conversation between several human parties. In some way I think this is related to the question above - we need to be creative in imagining unalienated/-ing deployment scenarios and quality or success criteria!!
4.3.2025 22:17@dingemansemark at the evening event at #Wissenswerkstatt yesterday, we came up with the idea that an ideal assistant would be deployed not...@dingemansemark for a certain class of scenarios, "successful use" of an assistant may indeed be the activation of the subject's own reflection, creativity and problem-solving (by a simulation of dialogue), perhaps assisted by the introduction of hitherto inaccessible knowledge. Secondary (?) quality criteria in these scenarios could be the avoidance of stereotypes and prejudice, modest environmental impact, and reliability of the knowledge introduced by the assistant.
4.3.2025 22:12@dingemansemark for a certain class of scenarios, "successful use" of an assistant may indeed be the activation of the...