Joel commited on
Commit
a56dba2
1 Parent(s): fc022ea

Updated with new Text

Browse files
Files changed (2) hide show
  1. app.py +19 -9
  2. flagged/log.csv +1 -0
app.py CHANGED
@@ -1,11 +1,10 @@
1
  import gradio as gr
2
 
3
- title_text = '(Anmerkung: Diese Seite ist noch in Entwicklung.)<br />Spätestens seit der Veröffentlichung von ChatGPT geniessen moderne Sprachmodelle grosse öffentliche Aufmerksamkeit. Allerdings ist es für nicht-Experten schwierig einzuschätzen, inwiefern die Technologie in ihrem Arbeitsumfeld eingesetzt werden könnten. Damit auch sie eine Intuition für die Möglichkeiten und Limitierungen von grossen Sprachmodellen entwickeln können, haben wir diese interaktive Webseite entwickelt. <br />Grundsätzlich sind Sprachmodelle nichts als statistische Modelle, welche die menschliche Sprache abbilden. Sie werden zuerst auf sehr allgemeine Tasks \"vortrainiert\", damit sie die Struktur der Sprache erlernen können. Ein solcher Task ist es zum Beispiel, das nächste Wort in einem Text vorauszusagen: Um dies lösen zu können, braucht ein Modell einerseits ein Verständnis für Grammatik. Anderseits muss es aber auch ein gewisses Verständnis für unsere \"Welt\" entwickeln, um stets das richtige Wort voraussagen zu können. Ein Beispiel für ein solches Modell ist GPT-2, welches Sie in der nachfolgenden Demo ausprobieren können. <br />Die vortrainierten Sprachmodelle haben also bereits ein Verständnis für Sprache, und eignen sich deshalb gut, um sie auf eine spezifische Aufgabe zu spezialisieren. Mögliche spezialisierte Aufgaben sind Übersetzungen, das Erkennen und Taggen von gewissen Konzepten im Text (sog. Named Entity Recognition), Textklassifizierung (z.B.: Ist diese Mail eine Spam-Mail? Ist dieses Feedback positiv?), Text-Zusammenfassung oder Fragen zu beantworten. Letztere zwei Beispiele können Sie in der Demo-App ausprobieren. <br />Die Qualität des Sprachmodells hängt stark von der Grösse des Modells sowie der Grösse des Datensatzes ab. Während die Technologien hinter ChatGPT bereits weitestgehend bekannt waren, ist das einzige Geheimnis hinter den verblüffenden Resultaten die Modellgrösse: Das Modell hat 175 Milliarden Parameter und wurde auf über 8 Milliarden Textdokumenten trainiert. Dadurch konnte es ein so gutes Verständnis für Sprache und unsere Welt erlangen, dass man das Gefühl hat, man interagiere mit einem anderen Menschen.'
4
- description = "Story generation with GPT-2"
5
- qa_text = 'Dieses Modell wurde darauf spezialisiert, in einem Text die Antwort auf eine gestellte Frage zu finden. Das Modell versteht nur Deutsch.'
6
- gpt2_text = 'GPT-2 ist ein Vorläufer von GPT-3.5, auf dem ChatGPT beruht. Das Modell vervollständigt eingegebene Texte, in dem es immer ein wahrscheinliches nächstes Wort voraussagt. Allerdings hat es auch einen kleinen Zufallsfaktor, damit der gleiche Input nicht immer das gleiche Resultat liefern. Das hier vorgestellte GPT-2 Modell hat 124 Millionen Parameter, ist also 1400x kleiner als ChatGPT - und somit auch erkennbar schlechter in der Textgenerierung. Das Modell versteht nur Englisch.'
7
- summarization_text = 'Hier wurde ein sogenanntes T5-Sprachmodell auf den Task der Text-Zusammenfassung spezialisiert. Das Modell versteht nur Englisch. '
8
- title = "BFH IPST NLP Demo"
9
 
10
  qaExamples = [["Mein Name ist Wolfgang und ich lebe in Berlin", "Wo wohne ich?"], [
11
  "Der Amazonas-Regenwald, auf Englisch auch als Amazonien oder Amazonas-Dschungel bekannt, ist ein feuchter Laubwald, der den größten Teil des Amazonas-Beckens Südamerikas bedeckt. Dieses Becken umfasst 7.000.000 Quadratkilometer (2.700.000 Quadratmeilen), von denen 5.500.000 Quadratkilometer (2.100.000 Quadratmeilen) vom Regenwald bedeckt sind. Diese Region umfasst Gebiete von neun Nationen. Der größte Teil des Waldes befindet sich in Brasilien mit 60% des Regenwaldes, gefolgt von Peru mit 13%, Kolumbien mit 10% und geringen Mengen in Venezuela, Ecuador, Bolivien, Guyana, Suriname und Französisch-Guayana. Staaten oder Abteilungen in vier Nationen enthalten \"Amazonas\" in ihren Namen. Der Amazonas repräsentiert mehr als die Hälfte der verbleibenden Regenwälder des Planeten und umfasst den größten und artenreichsten tropischen Regenwald der Welt mit geschätzten 390 Milliarden Einzelbäumen, die in 16.000 Arten unterteilt sind.", "Welcher Name wird auch verwendet, um den Amazonas-Regenwald auf Englisch zu beschreiben?"]]
@@ -23,9 +22,20 @@ gptInterface = gr.Interface.load(
23
  "huggingface/gpt2", title=None, description=gpt2_text)
24
 
25
  summarizationInterface = gr.Interface.load(
26
- "huggingface/Einmalumdiewelt/T5-Base_GNAD", title=None, description=summarization_text, examples=sumExamples)
27
 
28
- demo = gr.TabbedInterface([gptInterface, qaInterface, summarizationInterface], [
29
- "GPT", "Question Answering", "Summarization"], title=title)
 
 
 
 
 
 
 
 
 
 
 
30
 
31
  demo.launch()
 
1
  import gradio as gr
2
 
3
+ qa_text = '<a href="https://huggingface.co/deepset/gelectra-large-germanquad">Gelelctra</a> </br> Dieses deutschsprachige Modell wurde darauf spezialisiert, in einem Text die Antwort auf eine gestellte Frage zu finden. Es basiert auf XLM-RoBERTa, einem mehrsprachigen Modell mit 270 Millionen Parameter. '
4
+ gpt2_text = '<a href="https://huggingface.co/dbmdz/german-gpt2/tree/main">GPT-2</a> </br> GPT-3.5, auf dem ChatGPT beruht. Das Modell vervollständigt eingegebene Texte, in dem es immer ein wahrscheinliches nächstes Wort voraussagt. Allerdings hat es auch einen kleinen Zufallsfaktor, damit der gleiche Input nicht immer das gleiche Resultat liefern. Das hier vorgestellte deutschsprachige GPT-2 Modell hat 124 Millionen Parameter, ist also 1400x kleiner als ChatGPT - und somit auch erkennbar schlechter in der Textgenerierung. '
5
+ summarization_text = '<a href="https://huggingface.co/Einmalumdiewelt/T5-Base_GNAD">T5-Base</a> </br> Hier wurde ein sogenanntes T5-Sprachmodell auf den Task der Text-Zusammenfassung spezialisiert. Das Modell versteht nur Deutsch und hat 220 Millionen Parameter.'
6
+ simplifaction_text = '<a href="https://huggingface.co/haining/scientific_abstract_simplification">Scientific Abstract Simplification</a> </br> Bei dieser Aufgabe geht es darum, komplexe Sachverhalte einfach zu erklären. Dieses Beispielmodell kann die Abstracts von wissenschaftlichen Publikationen so vereinfachen, dass sie auch für Laien verständlich werden. Ähnliche Methoden könnten verwendet werden, um beispielsweise Schweizer Rechtstexte zu vereinfachen. Dieses Modell funktioniert nur auf Englisch.'
7
+ legal_text = '<a href="https://huggingface.co/joelito/legal-german-roberta-large">Roberta German</a> </br><a href="https://huggingface.co/xlm-roberta-large">Roberta</a> </br> Hier zeigen wir ein Modell, welches an unserem Institut darauf vortrainiert wurde, die rechtliche Sprache besser zu verstehen. Dabei wird in einem Text immer ein Wort (mit dem Stichwort <mask>) maskiert, und das Modell muss das fehlende Wort voraussagen. Dadurch, dass das Modell auf die rechtliche Sprache spezifiziert wurde, sind die Voraussagen deutlich besser, wie das nachfolgende Beispiel zeigt (BGE 142 II 268 S. 271, Erwägung 4.1): Unser spezialisiertes Modell gibt richtigerweise das Wort “Verhältnismässigkeit” aus, während ein generisches XLM-RoBERTa-Modell deutlich allgemeinere Wörter wie Freiheit, Demokratie oder Öffentlichkeit voraussagt. Beide Modelle haben 354 Millionen Parameter.'
 
8
 
9
  qaExamples = [["Mein Name ist Wolfgang und ich lebe in Berlin", "Wo wohne ich?"], [
10
  "Der Amazonas-Regenwald, auf Englisch auch als Amazonien oder Amazonas-Dschungel bekannt, ist ein feuchter Laubwald, der den größten Teil des Amazonas-Beckens Südamerikas bedeckt. Dieses Becken umfasst 7.000.000 Quadratkilometer (2.700.000 Quadratmeilen), von denen 5.500.000 Quadratkilometer (2.100.000 Quadratmeilen) vom Regenwald bedeckt sind. Diese Region umfasst Gebiete von neun Nationen. Der größte Teil des Waldes befindet sich in Brasilien mit 60% des Regenwaldes, gefolgt von Peru mit 13%, Kolumbien mit 10% und geringen Mengen in Venezuela, Ecuador, Bolivien, Guyana, Suriname und Französisch-Guayana. Staaten oder Abteilungen in vier Nationen enthalten \"Amazonas\" in ihren Namen. Der Amazonas repräsentiert mehr als die Hälfte der verbleibenden Regenwälder des Planeten und umfasst den größten und artenreichsten tropischen Regenwald der Welt mit geschätzten 390 Milliarden Einzelbäumen, die in 16.000 Arten unterteilt sind.", "Welcher Name wird auch verwendet, um den Amazonas-Regenwald auf Englisch zu beschreiben?"]]
 
22
  "huggingface/gpt2", title=None, description=gpt2_text)
23
 
24
  summarizationInterface = gr.Interface.load(
25
+ "huggingface/Einmalumdiewelt/T5-Base_GNAD", title=None, description=summarization_text)
26
 
27
+ simplicationInterface = gr.Interface.load(
28
+ "huggingface/haining/scientific_abstract_simplification", title=None, description=simplifaction_text)
29
+
30
+ robertaGer = gr.Interface.load(
31
+ "huggingface/joelito/legal-german-roberta-large", title=None, description=legal_text)
32
+
33
+ roberta = gr.Interface.load(
34
+ "huggingface/xlm-roberta-large", title=None, description=legal_text)
35
+
36
+ legalInterface = gr.TabbedInterface([robertaGer, roberta], ["Roberte Ger", "Roberta"])
37
+
38
+ demo = gr.TabbedInterface([gptInterface, legalInterface ,qaInterface, summarizationInterface, simplicationInterface], [
39
+ "GPT", "Legal", "Question Answering", "Summarization", "Simplification"])
40
 
41
  demo.launch()
flagged/log.csv CHANGED
@@ -1,3 +1,4 @@
1
  Input,Summary,flag,username,timestamp
2
  Hello my name is,"Hello my name is Mark O'Keeffe, and I need to get out of here right here on the floor. I don't want this, you're not going to take my picture with the camera on you. What's taking my picture",,,2023-02-13 09:26:59.995980
3
  Hello my name is,"Hello my name is Mark O'Keeffe, and I need to get out of here right here on the floor. I don't want this, you're not going to take my picture with the camera on you. What's taking my picture",,,2023-02-13 09:27:01.256913
 
 
1
  Input,Summary,flag,username,timestamp
2
  Hello my name is,"Hello my name is Mark O'Keeffe, and I need to get out of here right here on the floor. I don't want this, you're not going to take my picture with the camera on you. What's taking my picture",,,2023-02-13 09:26:59.995980
3
  Hello my name is,"Hello my name is Mark O'Keeffe, and I need to get out of here right here on the floor. I don't want this, you're not going to take my picture with the camera on you. What's taking my picture",,,2023-02-13 09:27:01.256913
4
+ Paris is the <mask> of France.,,,,,2023-02-13 14:53:47.770858