<div dir="ltr">Ok, thanks, now I got the "language attitude" / LA part, it skipped on me before. Before I add Damjan Popič, the third author, who authored this part of the chapter, I want you to have a look at the following dataset: <a href="http://hdl.handle.net/11356/1369">http://hdl.handle.net/11356/1369</a> and <a href="http://hdl.handle.net/11356/1370">http://hdl.handle.net/11356/1370</a>. One is, how I understand this, news articles, another comments on the news articles, both "language-related".<div><br></div><div>Would this be of use to you? It is an open dataset and, again, any annotations done by you could be more useful than the twitter data that has not been published (yet, it could).</div><div><br></div><div>There are similar datasets in other languages available as well (Serbian, Macedonian, Slovenian, Bosnian, Montenegrin).</div><div><br></div><div>Nikola</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Mar 14, 2024 at 12:34 PM Barbara Kovacic <<a href="mailto:Barbara.Kovacic@campus.lmu.de">Barbara.Kovacic@campus.lmu.de</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-style:solid;border-left-color:rgb(204,204,204);padding-left:1ex">Dear Nikola,<br>
<br>
thank you for your answer. I would need the dataset described in 4.2.1 of the paper, where you filtered the dataset described in 3 based on the keywords (language, orthography, grammar, dictionary, Croatian). As we want to focus on the Croatian language, we just need the Croatian part of this data. As you annotated 750 of these tweets (50 per keyword), it would be great to get the language attitude (LA) / stance annotation for them.<br>
<br>
For our course, we need to annotate sentiment for at least 2000 sentences. Depending on wether a tweet consists of one or more sentences, we would do the following:<br>
<br>
1. Sentiment annotate the 750 LA/stance annotated tweets on sentence level<br>
2. Analyse if there is a correlation between sentiment and the LA/stance<br>
3. Sentiment annoatet other tweets based on keywords (e.g language) on sentence level<br>
4. Analyse if there is a correlation between sentiment and keyword<br>
5. Train and finetune transformer model based on sentiment<br>
6. Optional: if there is still time left and annotation guidelines available, LA/stance annotate more tweets<br>
<br>
We are currently a group of two people but hope to find more colleagues who want to work on the task. As our special interest relies on language attitude and not specifically on social media data, we would also be open for non-social-media data which was annotated based on LA/stance. It is just important that we have enough sentences available which we can annotate. <br>
<br>
Thank you for your help!<br>
<br>
Best Regards,<br>
<br>
Barbara<br>
<br>
> Ursprüngliche Nachricht:<br>
> Von: "Nikola Ljubešić" <<a href="mailto:nljubesi@gmail.com" target="_blank">nljubesi@gmail.com</a>><br>
> An: Barbara Kovacic <<a href="mailto:Barbara.Kovacic@campus.lmu.de" target="_blank">Barbara.Kovacic@campus.lmu.de</a>><br>
> Kopie: <a href="mailto:nikola.ljubesic@ijs.si" target="_blank">nikola.ljubesic@ijs.si</a>, <a href="mailto:darja.fiser@ff.uni-lj.si" target="_blank">darja.fiser@ff.uni-lj.si</a><br>
> Datum: Thu Mar 14 10:50:45 CET 2024<br>
> <br>
> Dear Barbara,<br>
> <br>
> Thanks for reaching out. Can you specify what dataset you are referring to?<br>
> The dataset used to identify stances towards language in the different<br>
> countries? This is the work done by the third co-author, but I might have<br>
> access to the data (would need to dig, probably also include him in the<br>
> discussion).<br>
> <br>
> Beyond that, if you need any social media data, it might be very cool if<br>
> you annotated some of the training datasets mentioned in the paper -<br>
> ReLDI-NormTagNER either in Serbian (-hr) or Croatian (-sr). These are<br>
> available on the links provided in the paper.<br>
> <br>
> These datasets are also already public, so your annotations might enrich a<br>
> public dataset further. Larger datasets from Twitter are not allowed to be<br>
> published in text form.<br>
> <br>
> Let me know,<br>
> <br>
> Nikola<br>
> <br>
> On Thu, Mar 14, 2024 at 10:43 AM Barbara Kovacic <<br>
> <a href="mailto:Barbara.Kovacic@campus.lmu.de" target="_blank">Barbara.Kovacic@campus.lmu.de</a>> wrote:<br>
> <br>
> > Dear Mr Ljubešić, dear Ms Fišer,<br>
> ><br>
> > is there an update on this topic?<br>
> ><br>
> > Best Regards,<br>
> ><br>
> > Barbara Kovačić<br>
> ><br>
> > > Ursprüngliche Nachricht:<br>
> > > Von: Barbara Kovacic <<a href="mailto:Barbara.Kovacic@campus.lmu.de" target="_blank">Barbara.Kovacic@campus.lmu.de</a>><br>
> > > An: <a href="mailto:nikola.ljubesic@ijs.si" target="_blank">nikola.ljubesic@ijs.si</a>, <a href="mailto:darja.fiser@ff.uni-lj.si" target="_blank">darja.fiser@ff.uni-lj.si</a><br>
> > > Kopie:<br>
> > > Datum: Fri Mar 08 12:42:15 CET 2024<br>
> > ><br>
> > > Dear Mr Ljubešić, dear Ms Fišer,<br>
> > ><br>
> > > I am a computational linguistics student from LMU Munich, currently<br>
> > doing an Erasmus<br>
> > > exchange at university of Zagreb.<br>
> > ><br>
> > > In the class "Obrada prirodnog jezika", teached by Gaurish Thakkar and<br>
> > Nives Mikelić<br>
> > > Preradović, our focus relies on sentiment analysis. For our final<br>
> > project  we have<br>
> > > to annotate a data set and finetune a transformer model for sentiment<br>
> > analysis.<br>
> > ><br>
> > > As I am currently exploring methods of how to research language<br>
> > attitudes computationally,<br>
> > > I was thinking of using the dataset you created for the South Slavic<br>
> > UGC, described<br>
> > > in the paper "From Fringe to Infrastructure", annotate it based on<br>
> > sentiment and<br>
> > > use it to finetune BERTić or CroSloAngual BERT for sentiment analysis.<br>
> > ><br>
> > > I was trying to find the dataset online as downloadable resource, but<br>
> > was not successfull<br>
> > > doing so. Therefore I wanted to ask, if there is a website where I can<br>
> > download the<br>
> > > dataset. If not, would it be possible that you give me access to it. As<br>
> > I am also<br>
> > > interessted in the way you annotated the language attitude categories,<br>
> > described<br>
> > > in the paper, I wanted to ask if I can get the annotated part of the<br>
> > dataset, and<br>
> > > if given, the annotation guidelines that you used.<br>
> > ><br>
> > > Thanks for your help in advance.<br>
> > ><br>
> > > Best Regards,<br>
> > ><br>
> > > Barbara Kovačić<br>
> ><br>
> <br>
<br>
<br>
Freundliche Grüße,<br>
<br>
Barbara Kovačić<br>
</blockquote></div>