Speech 2 text
Speech 2 text
Hallo Ihr,
welche Pakete gibt es in Debian, um Sprache in Text umzuwandeln? Habt Ihr da Erfahrungen gemacht? Auch wie die Qualität davon ist - und ob man die Software einsetzen kann, ohne eine Stimme der Software vorher beigebracht zu haben?
viele Grüße
desputin
welche Pakete gibt es in Debian, um Sprache in Text umzuwandeln? Habt Ihr da Erfahrungen gemacht? Auch wie die Qualität davon ist - und ob man die Software einsetzen kann, ohne eine Stimme der Software vorher beigebracht zu haben?
viele Grüße
desputin
https://www.daswirdmanjawohlnochsagenduerfen.de
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
Re: Speech 2 text
Es gibt was, aber nur für Englisch: Sphinx. Ich habe das mal testweise installiert, es hat auch leidlich geklappt. Aber ohne viele Vergleichsmuster wird das nix. Und der Rechner darf nicht schwachbrüstig sein. Das ist auch der Grund, warum Alexa oder Google immer zu ihren Servern telefoniert: Die kleinen Geräte könnten das sonst technisch gar nicht bewältigen. Programme aus dem Bereich findet man übrigens ganz einfach mit apt-cache:
Code: Alles auswählen
apt-cache search speech recognition
libgsm-tools - User binaries for a GSM speech compressor
libgsm1 - Shared libraries for GSM speech compressor
libgsm1-dev - Development libraries for a GSM speech compressor
gstreamer1.0-pocketsphinx - Speech recognition tool - GStreamer plugin
libpocketsphinx-dev - Speech recognition tool - front-end library development files
libpocketsphinx3 - Speech recognition tool - front-end library
pocketsphinx - Speech recognition tool
pocketsphinx-en-us - Speech recognition tool - US English language model
python-pocketsphinx - Speech recognition tool - Python bindings
python3-pocketsphinx - Speech recognition tool - Python3 bindings
python-watson-developer-cloud - Python client library to use the IBM Watson Services (Python 2)
python3-watson-developer-cloud - Python client library to use the IBM Watson Services (Python 3)
libqt5texttospeech5 - Speech library for Qt - libraries
libqt5texttospeech5-dev - Speech library for Qt - development files
qtspeech5-doc - Speech library for Qt - documentation
qtspeech5-doc-html - Speech library for Qt - HTML documentation
qtspeech5-examples - Speech library for Qt - Examples
qtspeech5-flite-plugin - Speech library for Qt - Flite plugin
qtspeech5-speechd-plugin - Speech library for Qt - speechd plugin
sctk - speech recognition scoring toolkit
sctk-doc - speech recognition scoring toolkit (documentation)
libsphinxbase-dev - Speech recognition tool - development files
libsphinxbase-doc - Speech recognition tool - development documentation
libsphinxbase3 - Speech recognition tool - shared library
python-sphinxbase - Speech recognition tool - Python bindings
python3-sphinxbase - Speech recognition tool - Python3 bindings
sphinxbase-utils - Speech recognition tool - utililities
swig-sphinxbase - Speech recognition tool - swig helpers
sphinxtrain - Speech recognition tool - training tool
libtorch3-dev - State of the art machine learning library - development files
libtorch3c2 - State of the art machine learning library - runtime library
w3-recs - Recommendations of the World Wide Web Consortium (W3C)
Re: Speech 2 text
Hallo debianoli,
vielen Dank für den Hinweis.
Also Rechenleistung habe ich zur Verfügung (Ryzen 5), dürfte nicht der Flaschenhals sein. Sprache muß für mich deutsch sein.
Und aus Datenschutzgründen sind Amazon und Google für meine Zwecke tabu.
Für Deutsch gibt gibt es keine Lösungen?
Viele Grüße desputin
vielen Dank für den Hinweis.
Also Rechenleistung habe ich zur Verfügung (Ryzen 5), dürfte nicht der Flaschenhals sein. Sprache muß für mich deutsch sein.
Und aus Datenschutzgründen sind Amazon und Google für meine Zwecke tabu.
Für Deutsch gibt gibt es keine Lösungen?
Viele Grüße desputin
https://www.daswirdmanjawohlnochsagenduerfen.de
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
Re: Speech 2 text
Ok, danke für den Link.
Es scheint mir, daß die beste Variante wäre, Dragon NaturallySpeaking mit Wine laufen zu lassen.
https://appdb.winehq.org/objectManager. ... n&iId=2077
Allerdings sind die alten Versionen bei ebay z.B. super teuer. Wißt Ihr, wo ich Sofware gebraucht günstig herbekomme?
Es scheint mir, daß die beste Variante wäre, Dragon NaturallySpeaking mit Wine laufen zu lassen.
https://appdb.winehq.org/objectManager. ... n&iId=2077
Allerdings sind die alten Versionen bei ebay z.B. super teuer. Wißt Ihr, wo ich Sofware gebraucht günstig herbekomme?
https://www.daswirdmanjawohlnochsagenduerfen.de
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
Re: Speech 2 text
Ich habe gerade eine WAHNSINNIG gute Seite gefunden:
https://dictanote.co/
Testet das mal, das ist großartig, wie gut die Erkennung ist!
Man kann das Programm auch "installieren". Ist dann halt nur ein Shortcut zu Chromium, wenn ich das richtig sehe. Mich nervt nur ein Wenig, daß es nur mit Chromium will, aber nicht mit Firefox...
Wie dem auch sei: Man kann dann auch Audio-Dateien "durchschleifen" zur Software:
https://unix.stackexchange.com/question ... -mic-input
Wie würdet Ihr die Software in Bezug auf Datenschutz einschätzen?
https://dictanote.co/
Testet das mal, das ist großartig, wie gut die Erkennung ist!
Man kann das Programm auch "installieren". Ist dann halt nur ein Shortcut zu Chromium, wenn ich das richtig sehe. Mich nervt nur ein Wenig, daß es nur mit Chromium will, aber nicht mit Firefox...
Wie dem auch sei: Man kann dann auch Audio-Dateien "durchschleifen" zur Software:
https://unix.stackexchange.com/question ... -mic-input
Wie würdet Ihr die Software in Bezug auf Datenschutz einschätzen?
Zuletzt geändert von desputin am 11.09.2019 19:16:41, insgesamt 1-mal geändert.
https://www.daswirdmanjawohlnochsagenduerfen.de
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
Re: Speech 2 text
Übersetzt: die Sprachdaten gehen an irgendwelche Server in den USA.Where Does My Data Go?
The Dictanote Service is available worldwide, but our data processing operations take place in the United States. If you use the Service, you acknowledge that you may be sending electronic communications (including your personal account information and Content), through computer networks owned by Dictanote and third parties located in California and other locations in the United States and other countries. As a result, your use of the Service will likely result in interstate and possibly international data transmissions, and your use of the Service shall constitute your consent to permit such transmissions.
So und wo ist da jetzt der Unterschied zu Google und Amazon?
Re: Speech 2 text
Danke für die AGB...
Also der Unterschied ist, daß dieser Dienst nicht zu einem der großen Datendiebe wie Google gehört. Damit ist die Wahrscheinlichkeit geringer, daß die Daten zentral zusammengeführt werden mit anderen gestohlenen privaten Daten... Hoffentlich jedenfalls
Also der Unterschied ist, daß dieser Dienst nicht zu einem der großen Datendiebe wie Google gehört. Damit ist die Wahrscheinlichkeit geringer, daß die Daten zentral zusammengeführt werden mit anderen gestohlenen privaten Daten... Hoffentlich jedenfalls
https://www.daswirdmanjawohlnochsagenduerfen.de
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
Re: Speech 2 text
Ähm … nein. Die Wahrscheinlichkeit liegt bei 0,99 (±0,01):desputin hat geschrieben:31.08.2019 08:37:20Damit ist die Wahrscheinlichkeit geringer, daß die Daten zentral zusammengeführt werden mit anderen gestohlenen privaten Daten.
Abgesehen davon: Die Daten wurden nicht gestohlen, weder hier, noch bei Google und Co.. Du selbst hast damit bezahlt.eggy hat geschrieben:31.08.2019 06:45:26If you use the Service, you acknowledge that you may be sending electronic communications (including your personal account information and Content), through computer networks owned by Dictanote and third parties located in California and other locations in the United States and other countries.
Re: Speech 2 text
Informationen, die Du nicht mit aller Welt teilen willst, sollten generell lieber nicht das eigene Netzwerk verlassen.
Egal, ob sie am Ende bei Google oder sonstwo landen. Raus aus Deinem Netz bedeutet, Du bestimmst nicht mehr darüber, was damit passiert.
Wer garantiert Dir, dass $Onlinedienst die Daten nicht selbst an Google weiterleitet? Die AGBs würden es in den meisten Fällen wohl hergeben.
Ohne jetzt allzuviel Zeit mit deren Page verschwendet zu haben. Einige Fragen, die ich mir an Deiner Stelle mal stellen würde:
Wärs möglich, dass die nicht nur einfach nen nettes Interface gebaut haben und für die Auswertung komplett auf $google setzen? Oder, dass sie ihre Server in $amazoncloud laufen haben? Oder, dass sie ihre Ergebnisse zum Abgleich auch nochmal von google verifizieren lassen? Oder, dass sie in Zukunft feststellen, Services bei $google einkaufen, ist viel billiger als selbst Coder, Traffic und Hardwarerechnungen zu zahlen? Oder, wäre es möglich, dass sie irgendwann für die Großen mal so interessant werden, dass $datenkrakenfirma sie incl. aller Bestandsdaten übernimmt? ...
Alle Variablen austauschbar, gerne darfst auch noch den Aluhut bemühen und die Geschichte um $Dreibuchstabenagency erweitern, anderer Rechtsraum, andere Begehrlichkeiten, "Terrorabwehr", Industriespionage, reine Neugier, whatever.
Egal, ob sie am Ende bei Google oder sonstwo landen. Raus aus Deinem Netz bedeutet, Du bestimmst nicht mehr darüber, was damit passiert.
Wer garantiert Dir, dass $Onlinedienst die Daten nicht selbst an Google weiterleitet? Die AGBs würden es in den meisten Fällen wohl hergeben.
Ohne jetzt allzuviel Zeit mit deren Page verschwendet zu haben. Einige Fragen, die ich mir an Deiner Stelle mal stellen würde:
Wärs möglich, dass die nicht nur einfach nen nettes Interface gebaut haben und für die Auswertung komplett auf $google setzen? Oder, dass sie ihre Server in $amazoncloud laufen haben? Oder, dass sie ihre Ergebnisse zum Abgleich auch nochmal von google verifizieren lassen? Oder, dass sie in Zukunft feststellen, Services bei $google einkaufen, ist viel billiger als selbst Coder, Traffic und Hardwarerechnungen zu zahlen? Oder, wäre es möglich, dass sie irgendwann für die Großen mal so interessant werden, dass $datenkrakenfirma sie incl. aller Bestandsdaten übernimmt? ...
Alle Variablen austauschbar, gerne darfst auch noch den Aluhut bemühen und die Geschichte um $Dreibuchstabenagency erweitern, anderer Rechtsraum, andere Begehrlichkeiten, "Terrorabwehr", Industriespionage, reine Neugier, whatever.
Re: Speech 2 text
… da die Seite ungefragt Kram von Googles Analytics und Facebook einbindet, haben zumindest diese beiden schonmal garantiert Daten von dir und allen anderen, die den Service ungeschützt nutzen. Anhand derer können sie dann den Zeitpunkt entscheiden, an dem es sich lohnt, den Laden samt Daten zu übernehmen …
Re: Speech 2 text
Hallo Ihr,
Ihr habt schon Recht damit, daß die Seite super frawürdig ist in Bezug auf Datenschutz, sofern man überhaupt davon sprechen kann.
Ich würde die Infos verwenden, um Leitfadeninterviews für meine Dissertation zu transkribieren. Da die Ergebnisse davon sowieso veröffentlicht werden (mit Einwilligung der Beteiligten), denke ich, ist es nicht so schlimm, wenn sie zuvor elektronisch ausgewertet werden.
Mir wäre es aber allerdings natürlich viel lieber, wenn ein Open Source Programm so leistungsfähig wäre, also eines, das nicht in der "Cloud" läuft. Kommerzielle Programme wie Dragon Naturally Speaking z.B. sind mir zu teuer und oder nicht hinreichend zu Linux kompatibel...
Ihr habt schon Recht damit, daß die Seite super frawürdig ist in Bezug auf Datenschutz, sofern man überhaupt davon sprechen kann.
Ich würde die Infos verwenden, um Leitfadeninterviews für meine Dissertation zu transkribieren. Da die Ergebnisse davon sowieso veröffentlicht werden (mit Einwilligung der Beteiligten), denke ich, ist es nicht so schlimm, wenn sie zuvor elektronisch ausgewertet werden.
Mir wäre es aber allerdings natürlich viel lieber, wenn ein Open Source Programm so leistungsfähig wäre, also eines, das nicht in der "Cloud" läuft. Kommerzielle Programme wie Dragon Naturally Speaking z.B. sind mir zu teuer und oder nicht hinreichend zu Linux kompatibel...
https://www.daswirdmanjawohlnochsagenduerfen.de
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
Re: Speech 2 text
PS: Viel besser als Dictanote, weil ohne Google ist das hier:
https://speech-to-text-demo.ng.bluemix.net/
https://speech-to-text-demo.ng.bluemix.net/
https://www.daswirdmanjawohlnochsagenduerfen.de
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
Re: Speech 2 text
https://www.ibm.com/industries/federal/ ... /readiness
ob das nun wirklich "soviel besser" ist?
Aber auch dabei bleibt das grundsätzliche Problem: ohne ausdrückliche Einwilligung der Betroffenen kann das sehr großen Ärger geben.
Art. 9 DSGVO sagt zum Beispiel
ob das nun wirklich "soviel besser" ist?
Aber auch dabei bleibt das grundsätzliche Problem: ohne ausdrückliche Einwilligung der Betroffenen kann das sehr großen Ärger geben.
Art. 9 DSGVO sagt zum Beispiel
Der Vollständigkeit halber: Ausnahmen etc, findest Du z.B. in Art. 9 (2), einfach mal selbst querlesen. Weiter hinten gibts auch noch was zu Datenweitergabe ins Ausland. Deine Uni hat sicher nen Datenschutzbeauftragten, könntest ja da mal anfragen, was der davon hält.Verarbeitung besonderer Kategorien personenbezogener Daten
(1) Die Verarbeitung personenbezogener Daten, aus denen die rassische und ethnische Herkunft, politische Meinungen, religiöse oder weltanschauliche Überzeugungen oder die Gewerkschaftszugehörigkeit hervorgehen, sowie die Verarbeitung von genetischen Daten, biometrischen Daten zur eindeutigen Identifizierung einer natürlichen Person, Gesundheitsdaten oder Daten zum Sexualleben oder der sexuellen Orientierung einer natürlichen Person ist untersagt.
Re: Speech 2 text
Ja, das stimmt. Es steht ja auch ganz deutlich da:
Aber wenn ich eine schriftliche Einwilligung habe, das Gesagte zu veröffentlichen, dann ist das rechtlich ok, denke ich. Letztenlich ist das manuelle Transkribieren von Leitfadeninterviews und diesen Text dann in den Anhang wissenschaftlicher Arbeiten zu tun das selbe. Solche Arbeiten werden ja auch für die Allgemeinheit veröffentlicht und können dann im Netz abgegriffen und ausgewertet werden.This system is for demonstration purposes only and is not intended to process Personal Data. No Personal Data is to be entered into this system as it may not have the necessary controls in place to meet the requirements of the General Data Protection Regulation (EU) 2016/679
https://www.daswirdmanjawohlnochsagenduerfen.de
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
Re: Speech 2 text
Das kommt sicher auf die Formulierung Deiner Freigaben an.
Es gibt einen ziemlich großen Unterschied zwischen "ja, ok nimm das Interview auf und schreibs dann ab und veröffentliche die Abschrift" und "ja, nimms auf und lade meine Stimme ins Netz".
Es gibt einen ziemlich großen Unterschied zwischen "ja, ok nimm das Interview auf und schreibs dann ab und veröffentliche die Abschrift" und "ja, nimms auf und lade meine Stimme ins Netz".
Nein, ist es nicht. In einem Fall hörst nur Du die Aufnahmen ab, im anderen Fall ... nuja.desputin hat geschrieben:24.11.2019 10:38:00Letztenlich ist das manuelle Transkribieren von Leitfadeninterviews und diesen Text dann in den Anhang wissenschaftlicher Arbeiten zu tun das selbe.