Wissenschaftliche Grundlagen zur Stimmanalyse
1. Emotionserkennung in der Stimme
Die Analyse emotionaler Zustände anhand von Sprachsignalen stützt sich auf verschiedene akustische Merkmale wie Tonhöhe (Pitch), Lautstärke (Intensity), Sprechgeschwindigkeit (Rate), Formanten und Stimmqualität (Voice Quality). Diese Faktoren werden in der Regel extrahiert, um Muster zu erkennen, die mit spezifischen Stimmungen korrelieren (Schuller, 2013). Emotionen lassen sich aus der Stimme relativ zuverlässig ableiten, insbesondere wenn man sie mit maschinellen Lernverfahren (z. B. Deep Neural Networks, Support Vector Machines) kombiniert (Eyben et al., 2015).
a. Tonhöhe (Pitch) ist häufig bei Erregung oder Wut erhöht.
b. Lautstärke (Intensity) steigt bei starken emotionalen Zuständen wie Freude oder Ärger.
c. Stimmqualität (z. B. Hauchigkeit, Rauigkeit) korreliert mit Gefühlen wie Traurigkeit oder Müdigkeit.
2. Grundlegende Emotionstheorien
Paul Ekman (1992) postulierte, dass es eine Reihe grundlegender Basisemotionen gibt (z. B. Freude, Trauer, Wut, Furcht, Ekel, Überraschung). Diese können laut Ekman kulturübergreifend erkannt werden. Auf der Basis dieser Arbeiten entwickeln neuere Ansätze maschinelle Algorithmen, die Sprachsignale hinsichtlich dieser Basisemotionen klassifizieren (El Ayadi et al., 2011).
a. Kategoriale Emotionen
Ekman, P. (1992). An argument for basic emotions. Cognition & Emotion, 6(3–4), 169–200. https://doi.org/10.1080/02699939208411068
b. Dimensionale Emotionsmodelle
Russell, J. A. (1980). A circumplex model of affect. Journal of Personality and Social Psychology, 39(6), 1161–1178. https://doi.org/10.1037/h0077714
Scherer, K. R. (2003). Vocal communication of emotion: A review of research paradigms. Speech Communication, 40(1–2), 227–256. https://doi.org/10.1016/S0167-6393(02)00084-5
c. Akustische Emotionsanalyse
Eyben, F., Scherer, K. R., Schuller, B. W., Sundberg, J., André, E., Busso, C., Devillers, L. Y., Epps, J., Laukka, P., Narayanan, S. S., & Truong, K. P. (2015). The Geneva minimalistic acoustic parameter set (GeMAPS) for voice research and affective computing. IEEE Transactions on Affective Computing, 7(2), 190–202. https://doi.org/10.1109/TAFFC.2015.2440302
Schuller, B. (2013). Speech emotion recognition: Two decades in a nutshell, benchmarks, and ongoing trends. Communications of the ACM, 61(5), 90–99. https://doi.org/10.1145/3125571
3. Automatisierte Stimmanalyse
Typischerweise besteht eine Stimmanalyse-Pipeline aus:
a. Signalaufnahme über ein Mikrofon.
b. Vorverarbeitung (z. B. Entfernung von Rauschen).
c. Merkmalextraktion (Pitch, Formanten, Lautstärke, Mel-Frequency Cepstral Coefficients [MFCCs] etc.).
d. Klassifikation mithilfe eines trainierten Modells (z. B. Neuronales Netzwerk).
e. Ausgabe der Ergebnisse.
Quellen zum Thema Stimmanalyse
• Ekman, P. (1992). An argument for basic emotions. Cognition & Emotion, 6(3-4), 169–200. https://doi.org/10.1080/02699939208411068
• El Ayadi, M., Kamel, M. S., & Karray, F. (2011). Survey on speech emotion recognition: Features, classification schemes, and databases. Pattern Recognition, 44(3), 572–587. https://doi.org/10.1016/j.patcog.2010.09.020
• Eyben, F., Scherer, K. R., Schuller, B. W., Sundberg, J., André, E., Busso, C., Devillers, L. Y., Epps, J., Laukka, P., Narayanan, S. S., & Truong, K. P. (2015). The Geneva minimalistic acoustic parameter set (GeMAPS) for voice research and affective computing. IEEE Transactions on Affective Computing, 7(2), 190–202. https://doi.org/10.1109/TAFFC.2015.2440302
• Schuller, B. (2013). Speech emotion recognition: Two decades in a nutshell, benchmarks, and ongoing trends. Communications of the ACM, 61(5), 90–99. https://doi.org/10.1145/3125571
Theoriegrundlagen der Stimmungsanalyse
1. Basisemotionen und stimmliche Ausdrucksweisen
Eine häufig verwendete Theorie in der Emotionsforschung besagt, dass es eine Reihe von Basisemotionen (z. B. Freude, Trauer, Wut, Angst, Ekel, Überraschung) gibt, die kulturübergreifend erkannt werden können (Ekman, 1992). Basierend darauf haben mehrere Forschergruppen akustische Marker identifiziert, die mit diesen Emotionen zusammenhängen (El Ayadi et al., 2011). Bei Freude sind beispielsweise die Tonhöhe (Pitch) und die Amplitude (Lautstärke) tendenziell höher, während bei Trauer die Sprechgeschwindigkeit abnehmen und die Stimme monotoner klingen kann (Scherer, 2003).
2. Dimensionale Ansätze: Valenz & Arousal
Neben dem Modell der Basisemotionen wird in der Emotionsforschung auch häufig ein dimensionales Modell herangezogen, das Emotionen (Stimmungen) auf zwei oder mehr Dimensionen abbildet, z. B.
• Valenz (positiv vs. negativ)
• Arousal (hoch vs. niedrig)
Hierbei versucht man, aus bestimmten stimmlichen Merkmalen (z. B. Pitch Range, Energie, Rhythmus) auf das Erregungsniveau (arousal) und die Gefühlsrichtung (valence) zu schließen (Russell, 1980; Schuller, 2013). So wird etwa eine sehr variable Stimmlage mit hohem Arousal in Verbindung gebracht (z. B. Aufregung oder Begeisterung), während ein enger Pitch Range eher auf Niedergeschlagenheit hindeuten kann (Juslin & Laukka, 2003).
3. Akustische Merkmale zur Emotionserkennung
Die gängigsten akustischen Features, die für automatisierte Stimmungs- oder Emotionsanalysen herangezogen werden, umfassen (Eyben et al., 2015; Schuller, 2013):
- Prosodische Merkmale
Grundfrequenz (Pitch): Wie hoch oder tief ist die Stimme?
Intensität (Lautstärke): Wie laut oder leise spricht die Person?
Sprechtempo: Wie schnell oder langsam wird gesprochen?
- Spektrale Merkmale
Formanten: Frequenzbereiche, in denen die akustische Energie konzentriert ist.
MFCCs (Mel-Frequency Cepstral Coefficients): Eine standardisierte Repräsentation des Sprachspektrums, die häufig in der Spracherkennung verwendet wird.
- Stimmqualitäts-Merkmale
Klangfarbe, Rauigkeit, Hauchigkeit.
Diese Features werden in der Regel in einer Feature-Extraction-Pipeline (z. B. mit Tools wie OpenSMILE oder Praat) erfasst und anschließend mit maschinellen Lernverfahren (z. B. SVM, neuronalen Netzen) analysiert (Eyben et al., 2010; Schuller, 2013).
Wissenschaftliche Grundlagen zum Big-Five-Persönlichkeitsmodell
Das Big-Five-Modell oder Fünf-Faktoren-Modell der Persönlichkeit identifiziert die Persönlichkeit anhand von fünf Hauptdimensionen (McCrae & Costa, 2010; John & Srivastava, 1999):
- Offenheit für Erfahrungen (Openness to Experience)
Hohe Werte: kreativ, intellektuell neugierig, offen für neue Ideen.
Niedrige Werte: konservativ, traditionell, bevorzugen Bekanntes.
- Gewissenhaftigkeit (Conscientiousness)
Hohe Werte: organisiert, zielstrebig, zuverlässig.
Niedrige Werte: spontan, unstrukturiert, impulsiv.
- Extraversion (Extraversion)
Hohe Werte: gesellig, energiegeladen, kontaktfreudig.
Niedrige Werte: zurückhaltend, introvertiert, ruhig.
- Verträglichkeit (Agreeableness)
Hohe Werte: kooperativ, mitfühlend, harmoniebedürftig.
Niedrige Werte: wettbewerbsorientiert, distanziert, kritisch.
- Neurotizismus (Neuroticism)
Hohe Werte: emotional instabil, ängstlich, leicht verunsichert.
Niedrige Werte: emotional stabil, ruhig, widerstandsfähig.
Zahlreiche Studien belegen, dass das Big-Five-Modell kulturübergreifend eine brauchbare Taxonomie menschlicher Persönlichkeit darstellt (John & Srivastava, 1999; McCrae & Costa, 2010). In den letzten Jahren wurde untersucht, inwiefern sich bestimmte Big-Five-Ausprägungen auch aus vokalen Merkmalen vorhersagen lassen (Mairesse et al., 2007). Dabei gibt es Hinweise, dass Aspekte wie Sprechtempo, Tonlage und Intonation mit einzelnen Big-Five-Dimensionen zusammenhängen können (Dittmann et al., 2019).
Quellen zum Thema Big Five
• John, O. P., & Srivastava, S. (1999). The Big Five trait taxonomy: History, measurement, and theoretical perspectives. In L. A. Pervin & O. P. John (Eds.), Handbook of personality: Theory and research (2nd ed., pp. 102–138). Guilford Press. https://psycnet.apa.org/record/1999-04347-005
• McCrae, R. R., & Costa, P. T. (2010). NEO Inventories: Professional manual. Psychological Assessment Resources. https://www.parinc.com/Products/Pkey/237
• Mairesse, F., Walker, M. A., Mehl, M. R., & Moore, R. K. (2007). Using linguistic cues for the automatic recognition of personality in conversation and text. Journal of Artificial Intelligence Research, 30, 457–500. https://doi.org/10.1613/jair.2349
• Dittmann, A. G., Malonde, J., & Scherer, K. (2019). Prosodic cues to personality perception: Evidence from cross-linguistic studies. Speech Communication, 110, 48–59. https://doi.org/10.1016/j.specom.2019.04.004