Trasformare testi in file audio e viceversa con l’Intelligenza Artificiale

La tecnologia Text2speech (T2S) converte il testo in file audio con riconoscimento automatico della lingua attraverso l’impiego di modelli di Intelligenza Artificiale. Whisper è una piattaforma che, permette invece di fare il contrario, ovvero trascrivere il contenuto di un file audio con il riconoscimento automatico della lingua ed eventualmente la traduzione in una lingua a scelta; oltre a trascrivere, a richiesta può creare i file per i sottotitoli (srt) da inserire nei propri video.

Whisper lavora “quasi gratuitamente”, nel senso che si possono utilizzare gli strumenti offerti da Replicate gratuitamente, ma dopo un po’ verrà chiesto di inserire i dati di una carta di credito. I successivi lavori dell’app richiederanno un pagamento al secondo per le operazioni che vengono eseguite, con un prezzo che varia in base all’hardware su cui viene eseguito il modello.

Online si trovano diversi siti che permettono di fare queste operazioni, con poche o molte opzioni, gratuitamente o a pagamento; uno di questi siti è FreeTTS che permette di convertire il testo in file audio, potendosi creare il commento vocale per i propri video da caricare su Youtube, Vimeo, Facebook, Instagram o su siti web, gratuitamente fino a 5000 caratteri per sessione, con il limite di 6000 caratteri a settimana. Alimentato dall’apprendimento automatico di Google e dalla funzionalità TTS, il processo di sintesi vocale è veloce e la qualità dei risultati è piuttosto elevata.

Per chi vuole invece sperimentare sul campo o apprendere come farlo “a mano”, segnaliamo di seguito due brevi video tutorial di Salahzar Stenvaag che illustrano in modo sintetico come utilizzare Text2speech  e Whisper attraverso la piattaforma Colab di Google, lanciando poche semplici istruzioni (indicate) in Python (i Colab notebook (taccuini) consentono di combinare codice eseguibile e rich text in un unico documento, insieme a immagini, HTML, LaTeX e altro ancora).

 

Questa invece è una playlist di video che presentano diverse applicazioni T2S.

Translate »