Halácsy Péter | 9 Mar 2004 13:44
Favicon

[Szoszablya-user] szoszablya cikk

Mellekeltem a legujabb cikkunket. Meg preprint.

hp
Attachment (lrec04szsz.ps): application/postscript, 57 KiB
Peter Kormos | 26 Mar 2004 13:42
Picon

[Szoszablya-user] Help

Kedves Mindenki!

Mindenek elött, gratulálok kezdeményezésükhöz.

A segitségüket szeretném kérni.

Az alábbi feladatot kell megoldanom:
Magyar web oldalak egy csoprtját letölteni és a  letöltött  textböl egy 
ontológia alapján egy RDF adatbázist felépiteni, offline üzemmódban.
Ehhez nagyon jól tudnánk használni az  Önök eredményeit. Lényegében 
párszavas  szóegyütteseket kell keresnünk. Szótövesitésre mindenképpen 
szükségünk van, hogy a ragozott formákat is megtaláljuk. Szinonimaszótár 
sem ártana, bár ez nem feltétlenül szükséges, a keresendö szóegyüttesek 
száma megengedi, hogy a szinonimákat esetleg kézzel állitsuk elö.

A kérdésem: tudjuk-e használni a szószablya projekt eddig elért 
eredményeit feladatunk megoldásában? Természetesen hozzájárulunk az open 
projekt fejlödéséhez amennyiben ez szükséges.
A ComGrid gazdasági vállalkozás, nem önállóan müködik, a ComGenex Ltd. 
fejlesztö cége, mely utóbbi a kémia területén dolgozik. A kifejlesztendö 
modul kereskedelmi termék része lesz.

Segitségüket elöre is köszönöm.

Üdv.,

Kormos Péter

Halácsy Péter | 26 Mar 2004 14:16
Favicon

Re: [Szoszablya-user] Help/seegitseg

Peter Kormos wrote:

> Kedves Mindenki!
>
> Mindenek elött, gratulálok kezdeményezésükhöz.
>
koszonjuk

> A segitségüket szeretném kérni.
>
> Az alábbi feladatot kell megoldanom:
> Magyar web oldalak egy csoprtját letölteni és a  letöltött  textböl 
> egy ontológia alapján egy RDF adatbázist felépiteni, offline üzemmódban.

Nem tudom milyen csoportra gondolsz, de nekunk van vagy 4 millio 
letoltott weboldalunk, szovegge konvertalva, leszurve stb. Ez meg nincs 
kirakva, de ha kell oda tudjuk adni.

> Ehhez nagyon jól tudnánk használni az  Önök eredményeit. Lényegében 
> párszavas  szóegyütteseket kell keresnünk. Szótövesitésre mindenképpen 
> szükségünk van, hogy a ragozott formákat is megtaláljuk.

letoltheto a hunspell, amihez van tovezo peldaprogram: magyarispell.sf.net

> Szinonimaszótár sem ártana, bár ez nem feltétlenül szükséges, a 
> keresendö szóegyüttesek száma megengedi, hogy a szinonimákat esetleg 
> kézzel állitsuk elö.
>
ilyenunk nincs, javaslom a koztauruszt, illetve Nemeth Laci csinalt 
egyet az open office-hoz
(Continue reading)

Peter Kormos | 26 Mar 2004 15:50
Picon

Re: [Szoszablya-user] Help/seegitseg


>
> Nem tudom milyen csoportra gondolsz, de nekunk van vagy 4 millio 
> letoltott weboldalunk, szovegge konvertalva, leszurve stb. Ez meg 
> nincs kirakva, de ha kell oda tudjuk adni.

A megrendelö által definiált oldalakat kell feldolgoznunk, ezek  
bövülnek újakkal, ismétlödöen fel kell dolgoznunk  öket, követve a 
változásokat, tehát  lényegében azt a  letöltés -feldozgozás 
technológiát kell használnunk amit  Ti használtok az szószablya 
projectben,  a szoszablya.hu  oldalon a  Web oldalak feldolgozása alatt 
olvastam erröl:  hunnorm, stb.
Ezt a technológiát  el tudjuk érni?

> letoltheto a hunspell, amihez van tovezo peldaprogram: 
> magyarispell.sf.net

Ezt letöltöttem, áttanulmányozom. A nagy probléma, a szótövezés ezzel 
megoldodik.

>> Természetesen hozzájárulunk az open projekt fejlödéséhez amennyiben 
>> ez szükséges.
>
>
> hmm. mire gondoltal. a cuccok LGPL licenszuek, tehat arra hasznalod, 
> amire akarod.

Közremüködésre gondoltam, persze a mi szerény eröforrásunkkal, pl valami 
nincs teljesen kész, de mi már használnánk,  vagy valamilyen új opciót 
fejlesztünk ki, ami hasznos lehet mások számára is.
(Continue reading)

Halácsy Péter | 26 Mar 2004 15:53
Favicon

Re: [Szoszablya-user] Help/seegitseg

Peter Kormos wrote:

>
>>
>> Nem tudom milyen csoportra gondolsz, de nekunk van vagy 4 millio 
>> letoltott weboldalunk, szovegge konvertalva, leszurve stb. Ez meg 
>> nincs kirakva, de ha kell oda tudjuk adni.
>
>
> A megrendelö által definiált oldalakat kell feldolgoznunk, ezek  
> bövülnek újakkal, ismétlödöen fel kell dolgoznunk  öket, követve a 
> változásokat, tehát  lényegében azt a  letöltés -feldozgozás 
> technológiát kell használnunk amit  Ti használtok az szószablya 
> projectben,  a szoszablya.hu  oldalon a  Web oldalak feldolgozása 
> alatt olvastam erröl:  hunnorm, stb.
> Ezt a technológiát  el tudjuk érni?

igen. de epp most van refactoring
pont a hunhtmlstrip (oh ennek kene egy jo nev) mar kesz majdnem
peldaul ezt odaadom es tesztelhetnetek

>
>> letoltheto a hunspell, amihez van tovezo peldaprogram: 
>> magyarispell.sf.net
>
>
> Ezt letöltöttem, áttanulmányozom. A nagy probléma, a szótövezés ezzel 
> megoldodik.
>
valamilyen szinten, nem teljesen jo meg
(Continue reading)

Peter Kormos | 26 Mar 2004 16:15
Picon

Re: [Szoszablya-user] Help/seegitseg

Halácsy Péter wrote:

> Peter Kormos wrote:
>
>>
>>>
>>> Nem tudom milyen csoportra gondolsz, de nekunk van vagy 4 millio 
>>> letoltott weboldalunk, szovegge konvertalva, leszurve stb. Ez meg 
>>> nincs kirakva, de ha kell oda tudjuk adni.
>>
>>
>>
>> A megrendelö által definiált oldalakat kell feldolgoznunk, ezek  
>> bövülnek újakkal, ismétlödöen fel kell dolgoznunk  öket, követve a 
>> változásokat, tehát  lényegében azt a  letöltés -feldozgozás 
>> technológiát kell használnunk amit  Ti használtok az szószablya 
>> projectben,  a szoszablya.hu  oldalon a  Web oldalak feldolgozása 
>> alatt olvastam erröl:  hunnorm, stb.
>> Ezt a technológiát  el tudjuk érni?
>
>
> igen. de epp most van refactoring
> pont a hunhtmlstrip (oh ennek kene egy jo nev) mar kesz majdnem
> peldaul ezt odaadom es tesztelhetnetek
>
>>
>>> letoltheto a hunspell, amihez van tovezo peldaprogram: 
>>> magyarispell.sf.net
>>
>>
(Continue reading)

Halácsy Péter | 26 Mar 2004 17:52
Favicon

Re: [Szoszablya-user] Help/seegitseg

Peter Kormos wrote:

>> Ha van egy kis C/C++ programozasi kapacitas, akkor jol jonne a 
>> segitseg a hunnorm-ban. A kovetkezo a feladat: a htmlstrip 
>> megallapitja, hogy a meta tagben milyen kar kodolas van megadva. Van 
>> egy kis kodom mar, ami kitalalja egy szovegrol, hogy vajon unicode, 
>> latin2 vagy latin1. Ezek alapjan ossze kene rakni a hunnormot, ami 
>> eddig nem is volt igazabol program, mert mondjuk a unix recode 
>> programot hasznalta. Ennek elo kene venni valami konyvtari 
>> valtozatat, hogy ne kelljen shell scriptet irni.
>>
> Természetesen vállajuk ezt, pont ilyenre gondoltam.  A refactoring 
> után hozzá is kezdunk, ha küldöd a kódot (vagy letöltjük).
>
> kpe

akkor legyen az, hogy ezt megnezed:
http://www.szoszablya.hu/twiki/bin/view/Main/HunHtml

letoltod, es segitesz osszerakni

persze lassan megyunk CVS iranyaba, de most meg hadd ne

hp

Peter Kormos | 29 Mar 2004 22:32
Picon

Re: [Szoszablya-user] Help/seegitseg



Halácsy Péter wrote:
Peter Kormos wrote:

Ha van egy kis C/C++ programozasi kapacitas, akkor jol jonne a segitseg a hunnorm-ban. A kovetkezo a feladat: a htmlstrip megallapitja, hogy a meta tagben milyen kar kodolas van megadva. Van egy kis kodom mar, ami kitalalja egy szovegrol, hogy vajon unicode, latin2 vagy latin1. Ezek alapjan ossze kene rakni a hunnormot, ami eddig nem is volt igazabol program, mert mondjuk a unix recode programot hasznalta. Ennek elo kene venni valami konyvtari valtozatat, hogy ne kelljen shell scriptet irni.

Természetesen vállajuk ezt, pont ilyenre gondoltam.  A refactoring után hozzá is kezdunk, ha küldöd a kódot (vagy letöltjük).

kpe


akkor legyen az, hogy ezt megnezed:
http://www.szoszablya.hu/twiki/bin/view/Main/HunHtml

letoltod, es segitesz osszerakni


Csinaljuk.
A recode helyett az iconv -ot probaljuk használni.
A karakterkodolas megallapitasa problemas meg talan. Erre talaltuk a file nevu segedprogramot, ez nem library, de open source.
A flex-et nem használtuk meg, ennek megismerese egy kis idot vesz igenybe.

kpe


_______________________________________________ Szoszablya-user mailing list Szoszablya-user <at> lists.mokk.bme.hu http://lists.mokk.bme.hu/mailman/listinfo/szoszablya-user

Halácsy Péter | 29 Mar 2004 16:44
Favicon

Re: [Szoszablya-user] Help/seegitseg

Peter Kormos wrote:

>
>
>>
>> akkor legyen az, hogy ezt megnezed:
>> http://www.szoszablya.hu/twiki/bin/view/Main/HunHtml
>>
>> letoltod, es segitesz osszerakni
>>
>
> Csinaljuk.
> A recode helyett az iconv -ot probaljuk használni.
> A karakterkodolas megallapitasa problemas meg talan. Erre talaltuk a 
> file nevu segedprogramot, ez nem library, de open source.
> A flex-et nem használtuk meg, ennek megismerese egy kis idot vesz igenybe.
>
> kpe

hat egy kicsit kavartam; tehat harom program lesz:
1. hunhtmlstrip - kiszedi a html-bol a szoveget, kiolvassa a http-equiv 
char encoding reszt es talan a title mezot
2. hunnorm - fog egy szoveget, es latin2 kodolasra hozza (bemenet meg a 
feltetelezett char encoding)
3. huntoken - fog egy szoveget, es mondatokra es szavakra bontja

most z 1.-n kene dolgozni. A flexxel nagyon nem kell babralni, az mar 
kesz van szerintem eleg jo; egyetlen resz fontos a doksijabol: hogyan 
kell C++-bol hasznalni. A fo feladat, hogy a test.cc alapjan csinalni 
egy wrapper C++ osztalyt, amit barmilyen programbol lehet hivogatni. Az 
interfesz kb. ez

default constructor - inicializalja a szuroket
int parse(char* text)
int parse(FILE* fp)
int parse (istream input)

- ez a harom metodus beolvassa a HTML-t, atkuldi a flexen; ezutan lehet 
hivni:
char* get_text();
char* get_character_encoding();

- ezzel visszakapod a szoveget, a karakter kodolast

ezutan, hogy ujra tud hasznalni
reset();

ezutan ujra johet parse.

A dolog lenyege hogy tobb html fajl feldolgozasakor egyetlen egy 
Hunhtmlstrip objektumot hozok letre, es azt tobbszor felhasznalom. Igy 
nagyon gyors tud majd lenni.

hp

ui: azt hiszem megnyitom a szoszablya-tech listat, hogy az ilyen 
fejlesztesekrol szolo levelezes ott menjen

ui: es batran hasznaljuk a wikit!

Petz Andras | 29 Mar 2004 17:49
Picon

[Szoszablya-user] C vagy C++

Hamarosan el is kezdenem az egyszeru interfesz kialakitasat a flexhez,
egyedul a C++-szal kapcsolatban vannak ketsegeim. A sebesseg C-ben meg
jobb lehet, tovabba viszonylag kis library-knel nem latom ertelmet C++
hasznalatanak. Raadasul amint a flex doksikjaban olvastam, hogy a C++
interface meg nem a legkiforrottabb...Raadasul az iconv 3rd party library, ami a karakterkodolast
vegzi, szinten
C-s.Persze ha NAGYON fontos a C++-os felulet akkor azert megoldhato...


Gmane