Gemma 3 1B: Multilingual Named Entity Extractor

This model is a fine-tuned version of Gemma 3 1B, optimized for high-recall Named Entity Recognition (NER) across 100+ languages. Unlike traditional sequence labeling models, this model functions as an extraction engine that transforms unstructured text into structured XML format.

🚀 Model Summary

  • Task: Multilingual Named Entity Extraction (NEE)
  • Input: Natural language text (Global support)
  • Output: Structured XML list of entities (English labels)
  • Base Model: Gemma 3 1B

🛠 Usage & Output Format

The model is designed to parse text and return entities categorized by type. Note that this model provides identity extraction rather than inline tagging.

Note: in the following examples, the output XML has been cleaned up and pretty-printed.

Table of entity types

Source: flair/ner-english-ontonotes-large.

tag meaning
CARDINAL cardinal value
DATE date value
EVENT event name
FAC building name
GPE geo-political entity
LANGUAGE language name
LAW law name
LOC location name
MONEY money name
NORP affiliation
ORDINAL ordinal value
ORG organization name
PERCENT percent value
PERSON person name
PRODUCT product name
QUANTITY quantity value
TIME time value
WORK_OF_ART name of work of art
Example 1

Input:

Extract all named entities and format the results in English using XML tags.
<text>গত সোমবার রাতে নিহত ইটালীয় নাগরিক সিজার তেভেলার হত্যাকান্ডের বিষয়ে বাংলাদেশের আইন-শৃঙ্খলা রক্ষাবাহিনী এখনো কোনো অগ্রগতি অর্জন করতে পারেনি। ঢাকায় বৃহস্পতিবার স্বরাষ্ট্র মন্ত্রণালয়ের এক সংবাদ বিজ্ঞপ্তি জানানো হয়, হত্যার সঙ্গে ইসলামিক স্টেট বা আইএস-এর সম্পৃক্ততার দাবি তারা খুজে পায়নি। তবে তদন্তে পুলিশের টিম গঠন করা হয়েছে এবং তারা তদন্ত কাজ করছেন। সংবাদ বিজ্ঞপ্তিতে শিগগিরই প্রকৃত দোষীদের খুজে বের করা সম্ভব হবে বলে আশা প্রকাশ করা হয়েছে। পুলিশের থানা ও স্টেশন থেকে বিদেশী সংস্থা, স্থাপনা, অভিজাত হোটেলসহ গুরুত্বপূর্ণ স্থান এবং বিদেশী নাগরিকদের নিরাপত্তা প্রদানে গুরুত্ব দেয়ার জন্য বলা হয়েছে। এদিকে জঙ্গী হামলার আশংকায় অস্ট্রেলীয় ক্রিকেট দল আনুষ্ঠানিকভাবে তাদের বাংলাদেশ সফর স্থগিতের সিদ্ধান্তের কথা জানিয়েছে। অস্ট্রেলীয় ক্রিকেটের সর্বোচ্চ সংস্থা ক্রিকেট অস্ট্রেলিয়া বিস্তারিত আলোচনা শেষে বৃহস্পতিবার এই সিদ্ধান্ত ঘোষণা করে।
এ সম্পর্কে ঢাকা থেকে আমীর খসরুর রিপোর্ট।</text>

Output:

<ner>
  <time>Tuesday night</time>
  <norp>Australian</norp>
  <norp>Italian</norp>
  <person>Amir Khursar</person>
  <person>Cesar Tevaler</person>
  <org>IS</org>
  <org>ISIS</org>
  <org>Islamic State</org>
  <org>The Bangladesh Police Force</org>
  <org>the Ministry of Home Affairs</org>
  <gpe>Bangladesh</gpe>
  <gpe>Dhaka</gpe>
  <gpe>Melbourne</gpe>
  <date>Thursday</date>
</ner>
Example 2

Input:

Detect named entities within the text and list them in English-coded XML.
<text>By Andry Rungi
Bolety Kroaty
TSAKITSAKY : CEVAPCICI – SANDWICH aux BOULETTES CROATE (à la sauce HAJVAR)
ZAVATRA ILAINA
mofo dipaina
totonkena omby 250g
toton-kena kisoa 250g
tongolo be mena 1
tongolo gasy 1
thym kely
atody 1
paprrika 1 sotrokely safovavany
cumin 1 sotrokely safovavany
menaka oliva 2 sotro
sira sy dipoavatra
FIKARAKARANA AZY ;
1 tetehana madinika sy manify ny tongolo be, ny tongologasy totohina ary sasana tsara ny thym raha ilay lena
2 afangaro avokoa ny tongolo be, ny tongologasy, thym, epice, atody, ny hena rehetra ary asiana sira sy dipoavatra araka zay tiana
3 amboarina ny henabaolina toy ny habean’ny baolina ping pong
4 andrahoina anaty lapoaly misy menaka oliva na ambony ”plancha” ,ila avadibadika matetika ho masaka avokoa
Azo hohanina miaraka amin’ny saosy hajvar sy mofo
Mazotoa o
– Nahandro sy sarin’i Lova - Graine de faim kely</text>

Output:

<ner>
  <person>Andry Rungi</person>
  <person>Lova - Grain of the day</person>
  <person>Nahandro</person>
  <person>Sarin</person>
  <person>TSAKITSAKY</person>
  <org>TSAKITSAKY</org>
  <quantity>250g</quantity>
  <norp>Croatian</norp>
</ner>
Example 3

Input:

Locate specific named entities and represent them through English XML markup.
<text>An Saol ó Dheas
Clár irise, á chur i láthair beo ó Bhaile na nGall.
Clár irise, á chur i láthair beo ó Bhaile na nGall.
Caoimhe Máirtín;Dréácht bhille iontrála scoile; Cathal Ó Conaill -Paddywagon dul ó neart go neart; Marie Ni Shuilleabháin - Post i naíonra an Daingin; Caitríona Fallan,Liam Antaine Ó Cathasaigh - Seó Siamsa; Dara O Cinnéide - Socraithe caide sa chontae.
Dréacht bhille iontrála scoile.
Bunaitheoir an chomhlachta iompair agus óstaíochta, Paddywagon. Léiríonn cúntaisí na bliana 2012 go bhfuil borradh tagtha bliain ar bhliain ar a ghnó.
Tá na naíonraí tosnaithe thar n-ais ón lá inné. Tá folúntas mar stiúrthóir i naíonra an Daingin.
Seó nua Shiamsa Imigéin ag tosnú in Áras Shiamsa Tíre ar an Déardaoin seo chughainn agus é ar siúl go dtí an 21ú Meán Fómhair.
Cur síos ar shocraithe a deineadh aréir maidir le cluichí na bhfo-chumann as seo go deireadh na bliana.
Cuirtear béim san irischlár seo ar imeachtaí éagsúla i gceantair Ghaeltachta na Mumhan go príomhdha.
The emphasis is firmly on the Gaeltacht regions of Munster in this magazine programme.
Láithreoir: / Presenter: Helen Ní Shé
Léiritheoirí / Producers: Dara Ó Cinnéide, Pádraig Ó Sé</text>

Output:

<ner>
  <gpe>Ballymaconah</gpe>
  <gpe>Munster</gpe>
  <gpe>County</gpe>
  <person>Caoimhe Máirtín</person>
  <person>Caitríona Fallan</person>
  <person>Cathal Ó Conaill -Paddywagon</person>
  <person>Dara Ó Cinnéide</person>
  <person>Helen Ní Shé</person>
  <person>Liam Antaine Ó Cathasaigh</person>
  <person>Marie Ni Shuilleabháin</person>
  <person>Paddywagon</person>
  <person>Pádraig Ó Sé</person>
  <date>2012</date>
  <date>the 21st century</date>
  <date>this summer</date>
  <org>Paddywagon</org>
  <language>Gaelic</language>
  <event>the Autumn Equinox</event>
  <fac>the Áras Tíre Square</fac>
  <loc>Gaeltacht</loc>
</ner>
Example 4

Input:

Capture named entities and return an English version of the data in XML.
<text>د تاجکستان د چارواکو په وینا دا پرېکړه یې د وسلو قاچاقکوونکیو، یرغملو او د یاغیانو ګواښونو د زیاتېدو لپاره کړې ده.
د تاجکستان سرحدي پولیسو ویاند محمد اولغ خودژایف وویل، د ګواښونو مخنیوي لپاره دوشنبې پرېکړه وکړه چې له افغانستان سره پر پوله په لسګونو نورې امنیتي پوستې ځای پر ځای کړي.
بل لور ته د تاجکستان سرحدي ځواکونو قوماندان رجب علي رحمان علي وایي، هېواد یې په افغانستان کې جګړو ته اندېښنه لري او له دې خوا د تاجکستان لور ته هم ګواښونه زیات شوې دي.
ویل کېږي چې په وروستیو کې په کندز کې چې له تاجکستان سره ګډه پوله لري، د نا-امنیو زیاتېدو په تاجکستان کې اندېښنې پیدا کړې دي او د هغه هېواد چارواکي یې دې ته هڅولي دي چې د پولي امنیت ته توجه زیاته کړي.</text>

Output:

<ner>
  <norp>Tajik</norp>
  <person>Muhammad Uligh Saifulzai</person>
  <person>Rubai</person>
  <person>Rubai Ali Rahman</person>
  <person>Tajikistan</person>
  <gpe>Afghanistan</gpe>
  <gpe>Kandzai</gpe>
  <gpe>Tajikistan</gpe>
  <gpe>Yagani</gpe>
  <date>Sunday</date>
  <cardinal>hundreds</cardinal>
</ner>
Example 5

Input:

Perform named entity recognition and output the findings in English-language XML.
<text>Sin City:A Dame to Kill For ဇာတ္ကားရဲ့ ပုိစတာကို အေမရိကန္ရုပ္ရွင္အဖြဲ ့အစည္း MPAA က ပိတ္ပင္လုိက္ပါတယ္။ ပုိစတာမွာ Eva Green ရဲ့ ကိုယ္ခႏၶာေကာက္ေၾကာင္းကို အထင္းသားျမင္ေနရျပီး သားျမတ္ေခါင္းတစ္၀ိုက္ဟာ အ၀တ္ပါးေအာက္မွာ ျမင္သာေနတဲ့အတြက္ ပိတ္ပင္ခဲ့တာျဖစ္တယ္လုိ ့ဆုိပါတယ္။
ဒီ ဇာတ္ကားဟာ ေစ်းကြက္ဆြဲေဆာင္မွဳ စတန္ ့ထြင္ျပီး ကာမရာဂႏွိဳးဆြမွဳအသားေပးပုိစတာျဖစ္ေနတဲ့အတြက္ MPAA က ပိတ္ပင္ဖုိ ့ဆုံးျဖတ္ခ်က္ခ်ခဲ့တာျဖစ္ပါတယ္။
IMDB 6.5 ရရွိထားတဲ့ အက္ရွင္ကားဟာ 1h:42mins ၾကာျမင့္ပါတယ္။ 472 MB နဲ႔ ေအာက္ကလင့္ခ္မွာ ေဒါင္းယူၾကည့္ရႈႏိုင္ပါတယ္။</text>

Output:

<ner>
  <work_of_art>Sin City</work_of_art>
  <person>Eva Greens</person>
  <person>Torin</person>
  <org>IMDB</org>
  <org>MPA</org>
  <org>the MPAA</org>
  <norp>American</norp>
  <date>today</date>
  <time>1h42mins</time>
  <quantity>472 MB</quantity>
</ner>
Example 6

Input:

Create an XML-formatted report in English of all detected named entities.
<text>Niat Puasa Senin Kamis Digabung Qadha Ramadhan, Ini Penjelasan Ustadz Abdul Somad
Niat puasa Senin Kamis dan penjelasan digabungnya pelaksanaan dengan bayar qadha Ramadhan.
ذَهَبَ الظَّمَـأُ، وابْــتَلَّتِ العُرُوقُ، وثَــبَتَ الأَجْرُ إِن شَاءَ اللهُ
Dzahabaz zhama'u wabtallatil 'uruqu wa tsabatal ajru, insyaallah.
Terjemahannya, "Telah hilang rasa haus, dan urat-urat telah basah serta pahala telah tetap, insya Allah."
Doa Buka Puasa
اللَّهُمَّ لَكَ صُمْتُ وَعَلى رِزْقِكَ أفْطَرْتُ ذَهَبَ الظَّمأُ وابْتَلَّتِ العُرُوقُ وَثَبَتَ الأجْرُ إِنْ شاءَ اللَّهُ تَعالى
Allahumma laka shumtu wa'ala rizqika afthortu dzahaba-dh-dhama'u wabtalatil 'uruqu wa tsabatal ujru insya-Allah ta'ala
Artinya: "Ya Allah, untuk-Mu lah aku berpuasa, atas rezeki-Mu lah aku berbuka. Telah sirna rasa dahaga, urat-urat telah basah, dan (semoga) pahala telah ditetapkan, insya Allah".
Doa Sebelum dan Sesudah Makan dan Minum
Untuk menambah keberkahan ketika akan memulai sahur atau berbuka puasa maka sebaiknya membaca doa sebelum dan sesudah makan dan minum.
Doa Sebelum Makan
اَللّ هُمَّ بَارِكْ لَنَا فِيْمَا رَزَقْتَنَا وَقِنَا عَذَابَ النَّارِ
Allaahumma barik lanaa fiimaa rozatanaa waqinaa 'adzaa bannar.
Artinya: "Ya Allah, berkahilah kami dalam rezeki yang telah Engkau berikan kepada kami dan peliharalah kami dari siksa api neraka"
Doa Sesudah Makan
اَلْحَمْدُ ِللهِ الَّذِىْ اَطْعَمَنَا وَسَقَانَا وَجَعَلَنَا مُسْلِمِيْنَ
Alhamdu lillaahil ladzii ath 'amanaa wa saqoonaa wa ja'alnaa muslimiin
Artinya: "Segala puji bagi Allah yang telah memberi makan kami dan minuman kami, serta menjadikan kami sebagai orang-orang islam".
|Menggabung Niat Puasa Senin Kamis dan Ayyamu Bidh di November 2021, Begini Penjelasan UAS|
|Amalan Puasa Senin Kamis di Rabiul Akhir 1443 H, Simak Pula Jadwal Ayyamul Bidh November 2021|
|Keutamaan Puasa Senin Kamis Rabiul Akhir 1443 H, Simak Hari Penting dan Ayyamul Bidh November 2021|
|Niat Buka Puasa Senin Kamis, Berikut Daftar Hari Penting dan Ayyamul Bidh November 2021|
|Niat Puasa Sunnah Hari Kamis, Ini Keutamaan Puasa Senin Kamis dan Manfaatnya|</text>

Output:

<ner>
  <event>Ramadan</event>
  <event>Sunnah</event>
  <event>Tawaf</event>
  <event>Tawaf on the Kaaba</event>
  <date>1443 H</date>
  <date>Ramadan</date>
  <date>Monday</date>
  <date>Monday, Thursday</date>
  <date>November 2021</date>
  <date>the end of the 1443 H</date>
  <person>Abdul Somad</person>
  <norp>Muslims</norp>
  <gpe>Islam</gpe>
  <work_of_art>Bidh</work_of_art>
  <work_of_art>Tawaf on Kaaba</work_of_art>
  <work_of_art>Tawaf on the Kaaba</work_of_art>
  <work_of_art>the Eid Al-Fitr</work_of_art>
  <work_of_art>the Holy Quran</work_of_art>
  <work_of_art>the Sunnah of fasting</work_of_art>
  <work_of_art>the Tarabis of fasting</work_of_art>
  <work_of_art>the Tarabis of fasting</work_of_art>
  <work_of_art>the Tawaf on the Kaaba</work_of_art>
  <work_of_art>the Tawaaf on the Kaaba</work_of_art>
  <work_of_art>the Tawaaf on the Kaaba and its</work_of_art>
  <cardinal>20</cardinal>
  <cardinal>26</cardinal>
  <time>After</time>
  <time>afternoon</time>
  <time>afternoon of Friday</time>
  <time>noon</time>
  <time>noon on Friday</time>
  <time>noon on Thursday</time>
  <time>noon on Sunday</time>
  <time>noon on Tuesdays</time>
  <time>noon on Wednesdays</time>
  <time>noon on Sundays</time>
  <time>noon on Tuesdays</time>
  <time>noon on Thursdays</time>
  <time>noon on Sundays</time>
  <time>noon on Sundays, Thursday</time>
  <time>noon on Sundays, Thursday, November 2021</time>
  <time>noon on Thursdays</time>
</ner>
Example 7

Input:

Create an XML-formatted report in English of all detected named entities.
<text>Алег Грузьдзіловіч, Менск Сёньня падчас судовага працэсу над былым кандыдатам у прэзыдэнты Аляксандрам Казуліным судзьдзя Аляксей Рыбакоў адхіліў хадайніцтвы Казуліна й ягоных адвакатаў. Тыя патрабавалі дапытаць шэраг сьведкаў, у тым ліку аднаго з байцоў падразьдзяленьня “Алмаз”.
У адказ на такое рашэньне Аляксандар Казулін запатрабаваў выдаліць яго з судовага працэсу — ён заявіў, што працэс пераўтвараецца ў фарс. Цяпер у судовым слуханьні абвясьцілі перапынак.
Пра тое, як будуць разьвівацца падзеі, — пазьней на нашым сайце.</text>

Output:

<ner>
  <person>Alexandr Kazulin</person>
  <person>Aleksandr Kazulin</person>
  <person>Kazan</person>
  <person>Zhenya Kazulin</person>
  <date>Today</date>
  <gpe>Minsk</gpe>
  <cardinal>one</cardinal>
  <org>Almaz</org>
  <language>Persian</language>
</ner>
Example 8

Input:

Produce an English XML document containing all identified named entities.
<text>ئیمپراتۆریەتیی ڕۆمیی پیرۆز
ئیمپڕاتۆری پیرۆزی ڕۆم (بە ئاڵمانی: Heiliges Römisches Reich، بە لاتینی: Imperium Romanum Sacrum) ناوی فەرمیی وڵاتێکی مێژووییە کە لە ساڵی ٩٦٢ تا ١٨٠٦ی زایینی لە ئەورووپای ناوەندیدا بوو. ئەم وڵاتە خۆی بە خاوەنی مڵکی ئیمپڕاتۆری ڕۆم دەزانی و لەمەڕ ئەمەیش داخوازی دانانی بناغەی حکوومەتی جیھانی دەکرد. ئەو ئیمپڕاتۆرییە بە زیادکردنی وشەی پیرۆز بە ناوەکەی، ئامانجی خۆی بۆ پتەوکردنی بنەماکانی خۆی خستە ڕوو. لە ساڵانی کۆتایی ژیاندا، ئیمپڕاتۆری ڕۆم وەکوو یەکێتیەک لە ویلایەتە فیدراڵەکان بەڕێوە دەچوو.</text>

Output:

<ner>
  <gpe>Imperium Romanum Sacrum</gpe>
  <gpe>Péresse</gpe>
  <gpe>the Roman Empire</gpe>
  <gpe>the Principality of Friesland</gpe>
  <norp>German</norp>
  <norp>Périsian</norp>
  <norp>Western</norp>
  <date>962 to 1806</date>
  <loc>Europe</loc>
  <law>the Holy Roman Empire</law>
  <event>the Punic Wars</event>
</ner>
Example 9

Input:

Capture named entities and return an English version of the data in XML.
<text>Viktor Orbán
De Viktor Orbán [ ˈviktor ˈorbaːn ] (an Ungarn traditionell Orbán Viktor geschriwwen), gebuer den 31. Mee 1963 zu Székesfehérvár, ass en ungaresche Politiker vun der rietskonservativer Partei Fidesz an zanter dem 29. Mee 2010 Premierminister vun Ungarn (Regierung Orban II).
Den Orbán ass Jurist a war 1988 ee vun de Matgrënner vum Bond vun de Jonken Demokraten (Fiatal Demokraták Szövetsége, Fidesz). E gouf bekannt wéi en an enger Ried, am Kader vun der Ëmbettung vum Imre Nagy senge stierflechen Iwwerreschter, dozou opgeruff hut datt d'Truppe vun der Rouder Arméi aus Ungarn ofgezu sollte ginn.
1993 gouf e Parteichef vun der Fidesz, ass 2000 dunn zréckgetrueden an nees 2003 Parteichef ginn. Zanter 1990 ass hien Deputéierten am nationale Parlament a war tëscht 1990 an 1993 Fraktiounspresident vu senger Partei.
Ënner senger Féierung huet sech d'Fidesz vun enger liberaler zu enger konservativer Partei changéiert. 1998 huet en d'Wale gewonnen an d'Fidesz huet mat der konservativer Partei vun de Klengbaueren (FKgP) an dem Ungareschen Demokratesche Forum (MDF) eng Koalitiounsregierung op d'Been gestallt. 2002 huet en d'Wale géint d'Sozialisten, mat hirem Parteipresident Péter Medgyessy, verluer. Och 2006 huet e knapps géint de sozialistesche Ministerpresident Ferenc Gyurcsány verluer.
Bei de Parlamentswale vum Abrëll 2010 huet d'Fidesz mat 67 % vun de Stëmmen héich géint d'Sozialiste gewonnen. Den Orban gouf doropshin den 29. Mee zum Premierminister ernannt.
Den Orbán ass bestuet a Papp vu fënnef Kanner.
Um Spaweck[änneren | Quelltext änneren]
|Commons: Viktor Orbán – Biller, Videoen oder Audiodateien|</text>

Output:

<ner>
  <person>Ferenc Gyurcsány</person>
  <person>Imre Nagy</person>
  <person>Orban</person>
  <person>Orban II</person>
  <person>Péter Medgyेssy</person>
  <person>Szabó</person>
  <person>Viktor Orbán</person>
  <person> Viktor Orbán</person>
  <gpe>Hungary</gpe>
  <gpe>Székesfehérvár</gpe>
  <date>1988</date>
  <date>1990</date>
  <date>1990 to 1993</date>
  <date>1993</date>
  <date>1998</date>
  <date>2000</date>
  <date>2002</date>
  <date>2003</date>
  <date>2006</date>
  <date>April 2010</date>
  <date>May 29</date>
  <date>May 31, 1963</date>
  <norp>Hungarian</norp>
  <norp>Socialists</norp>
  <org>FKgP</org>
  <org>Fidesz</org>
  <org>Fiatal Demokraták Szövetsége</org>
  <org>MDF</org>
  <org>the Hungarian Democratic Forum</org>
  <org>the National Parliament</org>
  <org>the Round Table of Jonky Democrats</org>
  <cardinal>one</cardinal>
  <cardinal>five</cardinal>
  <percent>67</percent>
</ner>
Example 10

Input:

Parse the text for named entities and display them as English XML elements.
<text>ਸ੍ਰੀ ਸਤਿਗੁਰੂ ਰਾਮ ਸਿੰਘ ਜੀ ਦੇ ਅਨਿੰਨ ਸੇਵਕ ਭਾਈ ਲਹਿਣਾ ਸਿੰਘ ਨੇ ਸਤਿਗੁਰੂ ਜੀ ਦੇ ਇਕਾਂਤ ਵਿੱਚ ਨਾਮ ਸਿਮਰਨ ਕਰਨ ਦੀ ਇੱਛਾ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਕੇ ਇਹ ਸਥਾਨ ਭੇਟ ਕੀਤਾ ਸੀ। ਏਥੇ ਕੱਚੀ ਕੋਠੜੀ ਵਿੱਚ ਇੱਕ ਥੜ੍ਹਾ ਬਣਾਇਆ ਅਤੇ ਥੜ੍ਹੇ ਦੇ ਚਾਰੇ ਪਾਸੇ ਪਾਣੀ ਦੀ ਖੇਲ ਬਣਾਈ ਤਾਂ ਜੋ ਤਪੱਸਿਆ ਕਰਦਿਆਂ ਕੋਈ ਕੀੜਾ ਅੰਦਰ ਆ ਕੇ ਬਿਰਤੀ ਵਿੱਚ ਵਿਘਨ ਨਾ ਪਾਵੇ। ਇਕ ਥੜ੍ਹਾ ਕੋਠੜੀ ਦੇ ਬਾਹਰ ਬੈਠ ਕੇ ਨਾਮ ਸਿਮਰਨ ਕਰਨ ਲਈ ਵੀ ਬਣਾਇਆ ਗਿਆ।
ਸ੍ਰੀ ਸਤਿਗੁਰੂ ਰਾਮ ਸਿੰਘ ਜੀ ਨੇ ਇਸ ਅਸਥਾਨ ਤੇ ਲੰਮਾ ਸਮਾਂ ਤਪ ਕੀਤਾ, ਜਿਸ ਕਰਕੇ ਇਹ ਥਾਂ ਅਕਾਲ-ਬੁੰਗੇ ਦੇ ਨਾਮ ਨਾਲ ਪ੍ਰਸਿੱਧ ਹੈ। ੧੩ ਜਨਵਰੀ ੧੮੭੨ ਈ: ਨੂੰ ਗਊ ਗਰੀਬ ਅਤੇ ਦੇਸ਼ ਦੀ ਸੁਤੰਤਰਤਾ ਲਈ ਸ: ਹੀਰਾ ਸਿੰਘ ਦੀ ਅਗਵਾਈ ਵਿੱਚ ਸ਼ਹੀਦੀ ਜਥਾ ਏਥੋਂ ਹੀ ਮਲੇਰਕੋਟਲੇ ਨੂੰ ਰਵਾਨਾ ਹੋਇਆ ਸੀ। ਸ੍ਰੀ ਸਤਿਗੁਰੂ ਜਗਜੀਤ ਸਿੰਘ ਜੀ ਨੇ ਅਕਾਲ ਬੁੰਗੇ ਦੇ ਇਸ ਇਤਿਹਾਸਕ ਸਥਾਨ ਨੂੰ ਪੁਰਾਤਨ ਰੂਪ ਵਿਚ ਸੰਭਾਲਣ ਦੀ ਕਿਰਪਾ ਕੀਤੀ ਹੈ।</text>

Output:

<ner>
  <person>Hira Singh</person>
  <person>Satguru</person>
  <person>Satguru Ram Singh Ji</person>
  <person>Satguru Ji</person>
  <date>January 13, 1961 E.C</date>
  <event>the Independence Movement</event>
  <event>the Liberation Movement</event>
  <gpe>Garabhas</gpe>
  <gpe>Marokaltu</gpe>
  <gpe>Patiala</gpe>
  <norp>Akali Bunga</norp>
  <norp>Akali-Bunga</norp>
</ner>

⚠️ Capabilities & Limitations

While powerful for its size, users should be aware of the following architectural nuances:

1. Structural Constraints

  • Span-less Extraction: The model generates a standalone list of entities. It does not provide character offsets or indicate the specific location (spans) of the entity within the source text.
  • English-Centric Schema: Regardless of the input language, the XML tags and entity categorizations are returned in English.

2. Output Quality

  • Consistency: Users may encounter varied transliterations or minor repetitions for the same entity if it appears multiple times in different forms.
  • Reliability: The model maintains a competitive balance between precision and recall (low FP/FN rates). However, as with all LLMs, hallucinations or missed detections can occur.

3. Language Sensitivity

  • High-Resource vs. Low-Resource: Extraction accuracy is highest in high-resource languages (English, Spanish, Chinese, etc.). Performance may degrade in low-resource scripts, leading to increased "hallucinated" entities or missed context.

📝 Intended Use

  • Automated metadata tagging for multilingual archives.
  • Structuring raw data for downstream knowledge graph ingestion.
  • Quick-look entity discovery in diverse document sets.

Licence

Gemma 3

Downloads last month
10
Safetensors
Model size
1.0B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for agentlans/gemma-3-1b-it-multilingual-ner

Finetuned
(447)
this model

Dataset used to train agentlans/gemma-3-1b-it-multilingual-ner