Beszélt és írott magyar szöveg feldolgozását lehetővé tevő modellt építettek a Pécsi Tudományegyetemen

forrás: Prím Online, 2021. augusztus 27. 12:55

Mindenki szívesebben használja az anyanyelvét chat és más automatizált alkalmazásokban. Mivel azonban a magyar nyelvet mindössze 15 millióan beszélik világszerte, a cégek számára gyakran nem éri meg kifejleszteni a feldolgozásához szükséges szoftvereket. A Pécsi Tudományegyetem (PTE) Alkalmazott Adattudományi és Mesterséges Intelligencia-csapata felismerve ezt a problémát a Microsoft Azure mesterséges intelligencia és az ONNX Runtime megoldások alkalmazásával megépítette és betanította saját BERT-large modelljét magyar nyelven, méghozzá kevesebb, mint 200 munkaóra és 1000 euró befektetésével.

A Pécsi Tudományegyetem számára kulcsfontosságú terület lett a mesterséges intelligencia és a felhőalapú oktatás, amióta partnerkapcsolatot építettek ki a Microsoft Mesterséges Intelligencia Tudásközpont program keretein belül 2019-ben.

 

A nagy mennyiségű magyar nyelvű adat kezelését megkönnyítendő a PTE természetes nyelvfeldolgozási (NLP) módszerek kutatásába fogott. A megoldást egy magyar nyelvű BERT-large modell (HILBERT) létrehozása jelentette, ami egy nyílt forráskódú gépi tanulás keretrendszer. A modell célja, hogy segítse a számítógépet a többféleképpen értelmezhető szövegrészek megértésében oly módon, hogy a szövegkörnyezetből kontextust épít.

 

A csapat az Azure mesterséges intelligencia használata mellett döntött a saját, magyar nyelvű BERT-large modelljük megalkotásához.

 

 

“A Microsoft piacvezető a nyelvi modellek betanításának területén. Természetes, hogy a legjobb technológiát akartuk használni” – mondta el Hajdu Róbert, az Alkalmazott Adattudományi és Mesterséges Intelligencia Központ volt tervezőmérnöke. Ráadásul a csapat már ismerte az Azure szolgáltatást, ez is egy érv volt mellette.

 

Ahelyett, hogy gyenge minőségű adatokat gyűjtöttek volna az internetről, a Nyelvtudományi Kutatóközpont szakemberei segítségével készítették elő az alapokat. Az Azure pedig mindent megkönnyített és felgyorsított.

 

A modell betanítására szintén gyors és költséghatékony megoldást kerestek: a Microsoft ONNX Runtime DeepSpeed könyvtárát választották a feladathoz, amit az Azure Machine Learning (AML) platformon futtattak. E platform segítségével hatékonyan tudtak haladni a mesterséges intelligencia modellek építésével, munkába állításával, menedzsmentjével és nyomonkövetésével. Így a csapat közben olyan más feladatokra koncentrálhatott, mint például az adatkezelés.

 

 

 

A modell működéséhez egyébként legalább 3,5 milliárd szót tartalmazó folyószöveg szükséges, ezt az adatbázist a Nyelvtudományi Kutatóközpont, a projekt másik résztvevője többek között a Magyar Nemzeti Szótárból, online médiatárakból és az opensubtitles.org ingyenesen hozzáférhető filmfelirat-adatbázis magyar nyelvű anyagai közül gyűjtötte a csapat.

 

Habár a pandémia alatt mindannyian otthonról dolgoztak, a BERT-large betanítási folyamata az Azure-on semmilyen problémát nem okozott.

 

“200 munkaóra alatt végeztünk. Ez a világon az eddigi legolcsóbb BERT-large. Kevesebb, mint 1000 euróba került” – mesélte büszkén Dr. Feldmann Ádám, a PTE Adattudományi és AI csoport vezetője. “Az ONNX Runtime nélkül a HILBERT-large modellünk betanítása 1500 órát, vagyis megközelítőleg két hónapot vett volna igénybe” – hívja fel a figyelmet.

 

A Pécsi Tudományegyetem BERT-large modellje jelentős lehetőségeket rejt magában az írott és beszélt szöveg feldolgozása, az intelligens keresés, az entitásérzékelés, a dokumentációs klasszifikáció terén. A HILBERT közreműködhet újabb, jobb teljesítményű chatbotok létrehozásában is.

 

Mindez pedig segítheti a magyarokat a könnyen érthető, releváns információkhoz való hozzáférésben, különösen a Covid-19 körüli félretájékoztatás elleni küzdelemben. Számos egészségügyi és kormányzati szereplő is érdeklődött már a HILBERT-large modell iránt.

 

A projekt teljes ismertetője ezen a linken olvasható.

Megoldás ROVAT TOVÁBBI HÍREI

3 árulkodó jel, hogy a cég IT csapata már nem versenyképes

Szinte követhetetlen tempóban fejlődnek a vállalati szolgáltatásokat támogató IT-rendszerek, a cégek pedig komoly piaci hátrányba kerülhetnek, ha nem tartanak lépést a változással. Az ügyfelek és a munkatársak igényei egyre csak nőnek, a versenytársak szolgáltatásai pedig rövid idő alatt gyorsabbá, kényelmesebbé, átláthatóbbá válhatnak a miénknél. 

2024. május 9. 18:01

Rákapcsolt az Euronics: már aznap megérkezhet a grill vagy a hűtő

Egyre népszerűbb a vásárlók körében az aznapi kiszállítással vagy áruházi átvétellel történő rendelés az Euronicsnél. A megrendelés napjára házhoz szállítást ígérő szolgáltatás tavaly nyáron indult, idén pedig még szélesebb időablakkal lehet már rendelni Budapesten belül. Az online leadott rendeléseket pedig az áruházakban is át lehet venni akár még aznap, ez a szolgáltatás már országszerte elérhető ingyenesen. Az ilyen módon rendelt termékek toplistáján ott vannak a ventilátorok, a kávék, a mosószerek, és az állateledelek, de rendeltek már asztali grillt is így.

2024. május 9. 16:20

Elérhetővé válik az automatikus munkabérelőleg

Automatikus Munkabérelőleg Rendszer (AMBER) néven biztosít új szolgáltatást a MagNet Faktor a Kulcs-Soft-tal partnerségben. Az új megoldás segítségével a bérszámfejtő szoftvert használó cégek alkalmazottai gyorsan és egyszerűen juthatnak a már ledolgozott munkanapok után járó fizetésükhöz. A munkavállalók mellett a vállalkozásoknak is kedvező ez a lehetőség: az adminisztratív terheik csökkennek, a bérfizetés pedig rugalmassá válik.

2024. május 9. 14:28

Üzembe állt a Siemens e-kamion töltője

A világon elsőként a felső-ausztriai Laakirchenben, az autópálya melletti OMV-töltőállómáson helyezték mindennapos üzembe a Siemens e-kamionok tankolására is alkalmas új csúcstöltőjét.

2024. május 9. 12:59

Ezeket a munkaköröket válthatja ki a magyar cégeknél a mesterséges intelligencia

Az elmúlt években figyelemreméltó fejlődésen ment át a mesterséges intelligencia, ami mára valamilyen formában szinte minden felhasználóhoz eljutott. Persze, ahogy az a nagy technológiai áttörések esetében lenni szokott, az MI megítélése is meglehetősen vegyes, valamint arról is megoszlanak a vélemények, hogy milyen gazdasági következményeket hoz magával és milyen hatással lesz a munkára. 

2024. május 9. 11:27

Kövess minket a Facebookon!

Cikkgyűjtő

További fontos híreink

Továbbra is Christian Klein az SAP első embere

2024. május 7. 13:17

Magyar siker: Nemzetközi díjat nyert a TIME magazintól a nyelvtanuló-applikáció

2024. május 3. 19:59

Megvannak 2024 legvonzóbb hazai munkaadói

2024. április 29. 11:38

Ingyenes digitális platform segít a tanároknak és diákoknak az érettségire való felkészülésben

2024. április 20. 11:36