Test del prodotto

Trascrivere Schwiizertüütsch - Töggl nel test

David Lee
18.1.2022
Traduzione: tradotto automaticamente

Il servizio web töggl.ch dovrebbe essere in grado di capire e trascrivere i dialetti svizzeri tedeschi. Non è un compito facile. Ho provato come funziona bene.

Tu parli, il software lo scrive. Ormai lo sapete dal vostro smartphone e funziona bene rispetto a prima. Ma solo con la lingua standard, non con i dialetti. Peccato per la Svizzera, dove si parla quasi solo dialetto, anche in eventi ufficiali come discorsi o riunioni comunitarie. E nei video di Youtube. Attualmente i nostri video devono essere sottotitolati a mano per poter essere compresi al di fuori della Svizzera tedesca.

Il servizio web Töggl promette la soluzione: può trascrivere i dialetti svizzeri. Prima di cliccare per provarlo: Töggl non è libero. Ogni minuto di svizzero tedesco costa un franco. L'alto tedesco e il francese parlato costano la metà dello svizzero tedesco. Töggl sa anche parlare il romancio, che costa come lo svizzero tedesco. Per cominciare, si ottiene un credito di dieci franchi gratis.

In questo articolo, mi limiterò allo svizzero tedesco. I nostri sottotitolatori saranno presto razionalizzati?

Prima della trascrizione

Solo le persone residenti in Svizzera possono registrarsi. Le CG dichiarano che i clienti di Töggl non possono elaborare dati ai quali si applica il regolamento generale sulla protezione dei dati dell'UE (GDPR). Per le aziende che vogliono rendere i loro contenuti disponibili ai clienti in Germania, Töggl è quindi fuori questione. Töggl si rivolge a privati, giornalisti e studenti.

Prima di trascrivere, si specifica di quale lingua si tratta. Non è necessario specificare un dialetto come il tedesco bernese o il tedesco vallesano; il dialetto svizzero è sufficiente.

Sono necessari anche alcuni dettagli sulla pronuncia e sulla qualità della registrazione. I creatori di Töggl sottolineano che la qualità dei risultati dipende fortemente da questi fattori e danno consigli per la registrazione. In un video con diverse persone e scene, tuttavia, queste domande non possono sempre avere una risposta univoca.

L'editore

Il testo trascritto può essere modificato in un editor. Questo è urgentemente necessario, come vedrete tra un momento.

Quando la persona che parla cambia, inizia una nuova sezione con codice temporale in modo da poter ascoltare direttamente il passaggio. Il doppio clic su un passaggio di testo fa anche partire il suono nel punto corrispondente. La velocità può essere selezionata molto finemente da 0,1 volte a 3,5 volte.

Il testo modificato può essere esportato come file di testo o Word e in vari formati di sottotitoli. Finora tutto bene.

Video con sondaggio sulle persone

Il primo compito: Töggl è quello di sottotitolare questo video digitec. Il collega Simon si cala nei panni di un giornalista della TV locale e rivela senza pietà che nemmeno i nostri dipendenti si sono iscritti all'account Instagram di digitec.

In questo video appaiono molte persone diverse. Dividere il testo in base a chi parla sarebbe quindi molto utile. Tuttavia, il riconoscimento non funziona in modo affidabile. Nel secondo blocco, cinque persone parlano, quattro delle quali possono essere facilmente distinte dal suono della loro voce. Töggl convolge tutto questo in un unico pastone testuale. Per esempio, un oratore stima il numero di seguaci a "due milioni", al che la donna accanto a lui dice "250.000". Töggl lo trasforma nel numero "2.250.000", non tenendo conto che due persone diverse hanno parlato con voci completamente diverse.

Più tardi, una persona parla il tedesco superiore, quindi la lingua viene addirittura cambiata - e anche in questo caso, non viene creato un nuovo paragrafo.

Al minuto 2:37, Töggl assegna il discorso di Simon a un nuovo oratore a metà della frase. Il motivo è presumibilmente che l'applauso è stato suonato in sottofondo. Il sequenziamento non è chiaramente orientato verso le voci, ma verso i suoni ambientali.

La qualità della trascrizione lascia un'impressione ambivalente. Senza editing, il testo è incomprensibile. Questo è dovuto, da un lato, alla separazione difettosa degli altoparlanti. Un'altra ragione è che ci sono alcuni errori e soprattutto molte lacune nel riconoscimento vocale. Il software semplicemente omette parole e parti di frasi che non capisce. Questo porta a frasi completamente senza senso e rende anche la post-produzione più difficile. Sarebbe utile se Töggl segnasse i passaggi incomprensibili con qualcosa come [[unverständlich]] li avrebbe segnati.

Il materiale di partenza non è semplice: l'audio contiene interiezioni, frasi incomplete, espressioni inglesi e diversi scenari di registrazione con più o meno rumore di fondo. Simon, invece, parla lentamente e chiaramente.

Mi sembra strano che la parola "seguace" sia trascritta in modo diverso ogni volta che la dice:

  • correttamente come "seguace"
  • Fiore
  • da Owen
  • prima di
  • per niente (omesso)

Simile con digitec.ch: a volte è digitec.ch, a volte digi.ch e una volta dete.ch.

Conversazioni e interviste

Nel prossimo test, solo due persone sono coinvolte e non ci sono tagli. D'altra parte, la qualità della registrazione è piuttosto scarsa. Con le interviste, questo tipo di audio dovrebbe essere molto comune. Questa è una conversazione con un intagliatore di maschere della Svizzera centrale, che la collega Caro ha registrato con il suo smartphone.

La conversazione dura più di un'ora, che sarebbe più di 60 franchi di costi di trascrizione. Avaro come sono, ne ho caricato solo dodici minuti su Töggl. È più che sufficiente per un'impressione approssimativa.

Töggl trasforma le due persone in otto. I discorsi continui sono tagliati, a volte a metà frase. Non mi è chiaro a cosa sia dovuto; l'intera conversazione si è svolta nella stessa stanza.

Questo test rivela un nuovo problema, ma non ha nulla a che fare con Töggl - è una difficoltà generale nella trascrizione delle conversazioni.

Sì, hanno subito accettato, quindi ha significato ancora un grande sforzo finanziario e anche i locali che non sono più disponibili per il municipio.

Töggl ha trascritto correttamente questa frase; l'uomo l'ha detta parola per parola. Ma è incomprensibile. Praticamente nessuno parla in stampatello, certamente non in dialetto. Quando parliamo, spesso facciamo solo mezze frasi, ricominciamo, mischiamo due pensieri insieme, ecc. Per non parlare dei molti ahem e delle frasi sconnesse. Oralmente, questo è così normale che non lo notiamo. Solo nella trascrizione verbale ci dà fastidio.

Questo è più pronunciato nelle interviste che nei videoclip. Gli intervistati parlano più liberamente, non con frasi prestabilite. Di regola, non sono professionisti dei media. Le interviste orali di solito devono essere riscritte massicciamente in modo che siano facili da capire e piacevoli da leggere.

Ecco un altro esempio. La trascrizione è vicina a ciò che è stato detto. Tuttavia, questi pezzi di testo sarebbero completamente incomprensibili senza il suono.

Monologhi

Töggl fa meglio quando parla una sola persona? In buona qualità di registrazione e con frasi complete? Per testare questo, uso i primi due minuti della recensione di Phil della PlayStation 5.

Anche in questo caso il risultato è incomprensibile. Gli errori non possono essere corretti senza ascoltare il suono. Questo è deludente, perché qui il compito era molto più facile.

Che è, la sfortuna può il può ancora non solo dove abbiamo bisogno, se volete i vostri occhiali PSA, bisogno di questo allora devi Plagen, ma anche dati ordinare il libero ma che non c'è e altrimenti non possono bisogno.

Forse l'avete già notato sopra con l'intagliatore di maschere: Töggl scrive parole in alto tedesco, ma non traduce il dialetto. Gli idiomi svizzero tedeschi o le particolarità grammaticali sono trascritte parola per parola, anche se non sono corrette in alto tedesco. Il risultato è un imbarazzante pseudo-alto tedesco.

Svizzera tedesca: "[die Variable Refresh Rate], wo ebe macht, dass es kei Bildstörige git" (la frequenza di aggiornamento variabile).
Töggl: "[la frequenza di aggiornamento variabile], dove si assicura che non ci siano disturbi dell'immagine".
Alto tedesco: "[la frequenza di aggiornamento variabile], che fa sì che non ci siano disturbi dell'immagine"

Altro esempio:

Svizzero tedesco: "de quere Weg hiistelle"
Töggl: "mettere via la croce".
Alto tedesco: "quer hinstellen".

Post-elaborazione

I testi trascritti automaticamente hanno quasi sempre bisogno di essere modificati. Questo è anche il caso delle traduzioni automatiche. Questi servono come versioni grezze che vengono rifinite a mano. Questo è più veloce che tradurre un testo completamente a mano.

La domanda ora è: quanto tempo risparmio quando rivedo una trascrizione di Töggl rispetto a una trascrizione senza l'aiuto del software? Trascrivo due minuti ciascuno della recensione di Phil con e senza Töggl e confronto il tempo.

Risultato: ho bisogno di 20 minuti per rendere il testo di Töggl comprensibile a metà. Ma il testo è ancora lontano dall'essere buono. Ha ancora delle formulazioni scomode e qualche piccolo errore.

Per i secondi due minuti, trascritti completamente a mano, ho bisogno di 17 minuti. Non solo è più veloce, ma la qualità del testo è anche superiore. Questo nonostante il fatto che questa parte della revisione sia più difficile da trascrivere. Va più in dettaglio, con cose difficili da spiegare sull'interfaccia utente. Inoltre, ci sono nomi di giochi che non conoscevo.

La ragione principale: è più facile per me azzeccare una frase dall'inizio che sbagliare una frase. Se sento prima una frase e poi la scrivo, posso anche tradurla correttamente in alto tedesco, il che aumenta notevolmente la qualità rispetto al testo di Töggl.

Ma una ragione è che all'inizio non vado d'accordo con l'editore. Il doppio clic sulla parola che voglio correggere continua la registrazione sonora contro la mia volontà, e non conosco ancora la combinazione di tasti per fermarla (Alt-K). Provo quindi una seconda volta con i prossimi due minuti. Risultato: 19 minuti di lavoro e il testo si legge meglio, anche se Phil fa molte mezze frasi in questa parte.

Tuttavia, è chiaro: la trascrizione di Töggl non fa risparmiare tempo per arrivare a un testo finale impeccabile. Se il testo non deve essere corretto, ma appena comprensibile, raggiungerete il vostro obiettivo un po' più velocemente con lo script automatico.

Conclusione

Sembra contraddittorio: sono impressionato da ciò che Töggl può fare, ma continuo a pensare che il servizio sia poco utile.

Il compito che i creatori di Toeggl si sono posti è estremamente difficile. Anche il riconoscimento vocale stesso è una sfida. Per esempio, riconoscere i confini delle parole - quando parliamo, non facciamo pause tra le parole. È ulteriormente complicato dal fatto che lo svizzero tedesco non ha né una pronuncia uniforme né un vocabolario uniforme. La traduzione in alto tedesco sarebbe un altro compito in sé, che Töggl non tenta nemmeno. Töggl non produce alto tedesco, ma svizzero tedesco con parole scritte in alto tedesco.

L'editor web per la correzione è buono. Tuttavia, si risparmia poco o niente tempo rispetto a una trascrizione manuale. Una ragione di ciò è che Töggl omette semplicemente parole e parti di frasi incomprensibili. Questo rende difficile orientarsi nel testo.

Nei miei test, la qualità non era molto migliore con una buona qualità di registrazione. Mai il risultato è stato così buono che ho potuto capire il testo senza suono.

Quello che trovo davvero deludente è che Töggl non riesce a tenere separate le voci e produce un mash testuale incomprensibile quando, per esempio, parlano un uomo e una donna.

Anche se Töggl funzionerebbe meglio: A causa dei T&C, l'uso commerciale è difficilmente possibile. E il servizio è semplicemente troppo costoso per l'uso privato.

Chi sottotitola i nostri video non ha nulla da temere al momento.

A 31 persone piace questo articolo


User Avatar
User Avatar

Il mio interesse per il mondo IT e lo scrivere mi hanno portato molto presto a lavorare nel giornalismo tecnologico (2000). Mi interessa come possiamo usare la tecnologia senza essere usati a nostra volta. Fuori dall'ufficio sono un musicista che combina un talento mediocre con un entusiamso eccessivo. 


Informatica
Segui gli argomenti e ricevi gli aggiornamenti settimanali relativi ai tuoi interessi.

Potrebbero interessarti anche questi articoli

  • Test del prodotto

    Plaud Note è il miglior dispositivo di registrazione che tu possa acquistare

    di Lorenz Keller

  • Test del prodotto

    «Pentiment»: avvincente thriller medievale dalla grafica unica

    di Domagoj Belancic

  • Test del prodotto

    Ray Danz soundbar TLC: Dolby Atmos a prezzi ragionevoli

    di Luca Fontana

8 commenti

Avatar
later