9 Mar 2004 13:44
26 Mar 2004 13:42
[Szoszablya-user] Help
Peter Kormos <kpe <at> comgrid.hu>
2004-03-26 12:42:27 GMT
2004-03-26 12:42:27 GMT
Kedves Mindenki! Mindenek elött, gratulálok kezdeményezésükhöz. A segitségüket szeretném kérni. Az alábbi feladatot kell megoldanom: Magyar web oldalak egy csoprtját letölteni és a letöltött textböl egy ontológia alapján egy RDF adatbázist felépiteni, offline üzemmódban. Ehhez nagyon jól tudnánk használni az Önök eredményeit. Lényegében párszavas szóegyütteseket kell keresnünk. Szótövesitésre mindenképpen szükségünk van, hogy a ragozott formákat is megtaláljuk. Szinonimaszótár sem ártana, bár ez nem feltétlenül szükséges, a keresendö szóegyüttesek száma megengedi, hogy a szinonimákat esetleg kézzel állitsuk elö. A kérdésem: tudjuk-e használni a szószablya projekt eddig elért eredményeit feladatunk megoldásában? Természetesen hozzájárulunk az open projekt fejlödéséhez amennyiben ez szükséges. A ComGrid gazdasági vállalkozás, nem önállóan müködik, a ComGenex Ltd. fejlesztö cége, mely utóbbi a kémia területén dolgozik. A kifejlesztendö modul kereskedelmi termék része lesz. Segitségüket elöre is köszönöm. Üdv., Kormos Péter
26 Mar 2004 14:16
Re: [Szoszablya-user] Help/seegitseg
Halácsy Péter <peter <at> halacsy.com>
2004-03-26 13:16:18 GMT
2004-03-26 13:16:18 GMT
Peter Kormos wrote: > Kedves Mindenki! > > Mindenek elött, gratulálok kezdeményezésükhöz. > koszonjuk > A segitségüket szeretném kérni. > > Az alábbi feladatot kell megoldanom: > Magyar web oldalak egy csoprtját letölteni és a letöltött textböl > egy ontológia alapján egy RDF adatbázist felépiteni, offline üzemmódban. Nem tudom milyen csoportra gondolsz, de nekunk van vagy 4 millio letoltott weboldalunk, szovegge konvertalva, leszurve stb. Ez meg nincs kirakva, de ha kell oda tudjuk adni. > Ehhez nagyon jól tudnánk használni az Önök eredményeit. Lényegében > párszavas szóegyütteseket kell keresnünk. Szótövesitésre mindenképpen > szükségünk van, hogy a ragozott formákat is megtaláljuk. letoltheto a hunspell, amihez van tovezo peldaprogram: magyarispell.sf.net > Szinonimaszótár sem ártana, bár ez nem feltétlenül szükséges, a > keresendö szóegyüttesek száma megengedi, hogy a szinonimákat esetleg > kézzel állitsuk elö. > ilyenunk nincs, javaslom a koztauruszt, illetve Nemeth Laci csinalt egyet az open office-hoz(Continue reading)
26 Mar 2004 15:50
Re: [Szoszablya-user] Help/seegitseg
Peter Kormos <kpe <at> comgrid.hu>
2004-03-26 14:50:39 GMT
2004-03-26 14:50:39 GMT
> > Nem tudom milyen csoportra gondolsz, de nekunk van vagy 4 millio > letoltott weboldalunk, szovegge konvertalva, leszurve stb. Ez meg > nincs kirakva, de ha kell oda tudjuk adni. A megrendelö által definiált oldalakat kell feldolgoznunk, ezek bövülnek újakkal, ismétlödöen fel kell dolgoznunk öket, követve a változásokat, tehát lényegében azt a letöltés -feldozgozás technológiát kell használnunk amit Ti használtok az szószablya projectben, a szoszablya.hu oldalon a Web oldalak feldolgozása alatt olvastam erröl: hunnorm, stb. Ezt a technológiát el tudjuk érni? > letoltheto a hunspell, amihez van tovezo peldaprogram: > magyarispell.sf.net Ezt letöltöttem, áttanulmányozom. A nagy probléma, a szótövezés ezzel megoldodik. >> Természetesen hozzájárulunk az open projekt fejlödéséhez amennyiben >> ez szükséges. > > > hmm. mire gondoltal. a cuccok LGPL licenszuek, tehat arra hasznalod, > amire akarod. Közremüködésre gondoltam, persze a mi szerény eröforrásunkkal, pl valami nincs teljesen kész, de mi már használnánk, vagy valamilyen új opciót fejlesztünk ki, ami hasznos lehet mások számára is.(Continue reading)
26 Mar 2004 15:53
Re: [Szoszablya-user] Help/seegitseg
Halácsy Péter <peter <at> halacsy.com>
2004-03-26 14:53:54 GMT
2004-03-26 14:53:54 GMT
Peter Kormos wrote: > >> >> Nem tudom milyen csoportra gondolsz, de nekunk van vagy 4 millio >> letoltott weboldalunk, szovegge konvertalva, leszurve stb. Ez meg >> nincs kirakva, de ha kell oda tudjuk adni. > > > A megrendelö által definiált oldalakat kell feldolgoznunk, ezek > bövülnek újakkal, ismétlödöen fel kell dolgoznunk öket, követve a > változásokat, tehát lényegében azt a letöltés -feldozgozás > technológiát kell használnunk amit Ti használtok az szószablya > projectben, a szoszablya.hu oldalon a Web oldalak feldolgozása > alatt olvastam erröl: hunnorm, stb. > Ezt a technológiát el tudjuk érni? igen. de epp most van refactoring pont a hunhtmlstrip (oh ennek kene egy jo nev) mar kesz majdnem peldaul ezt odaadom es tesztelhetnetek > >> letoltheto a hunspell, amihez van tovezo peldaprogram: >> magyarispell.sf.net > > > Ezt letöltöttem, áttanulmányozom. A nagy probléma, a szótövezés ezzel > megoldodik. > valamilyen szinten, nem teljesen jo meg(Continue reading)
26 Mar 2004 16:15
Re: [Szoszablya-user] Help/seegitseg
Peter Kormos <kpe <at> comgrid.hu>
2004-03-26 15:15:43 GMT
2004-03-26 15:15:43 GMT
Halácsy Péter wrote: > Peter Kormos wrote: > >> >>> >>> Nem tudom milyen csoportra gondolsz, de nekunk van vagy 4 millio >>> letoltott weboldalunk, szovegge konvertalva, leszurve stb. Ez meg >>> nincs kirakva, de ha kell oda tudjuk adni. >> >> >> >> A megrendelö által definiált oldalakat kell feldolgoznunk, ezek >> bövülnek újakkal, ismétlödöen fel kell dolgoznunk öket, követve a >> változásokat, tehát lényegében azt a letöltés -feldozgozás >> technológiát kell használnunk amit Ti használtok az szószablya >> projectben, a szoszablya.hu oldalon a Web oldalak feldolgozása >> alatt olvastam erröl: hunnorm, stb. >> Ezt a technológiát el tudjuk érni? > > > igen. de epp most van refactoring > pont a hunhtmlstrip (oh ennek kene egy jo nev) mar kesz majdnem > peldaul ezt odaadom es tesztelhetnetek > >> >>> letoltheto a hunspell, amihez van tovezo peldaprogram: >>> magyarispell.sf.net >> >>(Continue reading)
26 Mar 2004 17:52
Re: [Szoszablya-user] Help/seegitseg
Halácsy Péter <peter <at> halacsy.com>
2004-03-26 16:52:10 GMT
2004-03-26 16:52:10 GMT
Peter Kormos wrote: >> Ha van egy kis C/C++ programozasi kapacitas, akkor jol jonne a >> segitseg a hunnorm-ban. A kovetkezo a feladat: a htmlstrip >> megallapitja, hogy a meta tagben milyen kar kodolas van megadva. Van >> egy kis kodom mar, ami kitalalja egy szovegrol, hogy vajon unicode, >> latin2 vagy latin1. Ezek alapjan ossze kene rakni a hunnormot, ami >> eddig nem is volt igazabol program, mert mondjuk a unix recode >> programot hasznalta. Ennek elo kene venni valami konyvtari >> valtozatat, hogy ne kelljen shell scriptet irni. >> > Természetesen vállajuk ezt, pont ilyenre gondoltam. A refactoring > után hozzá is kezdunk, ha küldöd a kódot (vagy letöltjük). > > kpe akkor legyen az, hogy ezt megnezed: http://www.szoszablya.hu/twiki/bin/view/Main/HunHtml letoltod, es segitesz osszerakni persze lassan megyunk CVS iranyaba, de most meg hadd ne hp
29 Mar 2004 22:32
Re: [Szoszablya-user] Help/seegitseg
Peter Kormos <kpe <at> comgrid.hu>
2004-03-29 20:32:01 GMT
2004-03-29 20:32:01 GMT
Halácsy Péter wrote:
Peter Kormos wrote:Ha van egy kis C/C++ programozasi kapacitas, akkor jol jonne a segitseg a hunnorm-ban. A kovetkezo a feladat: a htmlstrip megallapitja, hogy a meta tagben milyen kar kodolas van megadva. Van egy kis kodom mar, ami kitalalja egy szovegrol, hogy vajon unicode, latin2 vagy latin1. Ezek alapjan ossze kene rakni a hunnormot, ami eddig nem is volt igazabol program, mert mondjuk a unix recode programot hasznalta. Ennek elo kene venni valami konyvtari valtozatat, hogy ne kelljen shell scriptet irni.Természetesen vállajuk ezt, pont ilyenre gondoltam. A refactoring után hozzá is kezdunk, ha küldöd a kódot (vagy letöltjük).
kpe
akkor legyen az, hogy ezt megnezed:
http://www.szoszablya.hu/twiki/bin/view/Main/HunHtml
letoltod, es segitesz osszerakni
Csinaljuk.
A recode helyett az iconv -ot probaljuk használni.
A karakterkodolas megallapitasa problemas meg talan. Erre talaltuk a file nevu segedprogramot, ez nem library, de open source.
A flex-et nem használtuk meg, ennek megismerese egy kis idot vesz igenybe.
kpe
_______________________________________________ Szoszablya-user mailing list Szoszablya-user <at> lists.mokk.bme.hu http://lists.mokk.bme.hu/mailman/listinfo/szoszablya-user
29 Mar 2004 16:44
Re: [Szoszablya-user] Help/seegitseg
Halácsy Péter <peter <at> halacsy.com>
2004-03-29 14:44:16 GMT
2004-03-29 14:44:16 GMT
Peter Kormos wrote: > > >> >> akkor legyen az, hogy ezt megnezed: >> http://www.szoszablya.hu/twiki/bin/view/Main/HunHtml >> >> letoltod, es segitesz osszerakni >> > > Csinaljuk. > A recode helyett az iconv -ot probaljuk használni. > A karakterkodolas megallapitasa problemas meg talan. Erre talaltuk a > file nevu segedprogramot, ez nem library, de open source. > A flex-et nem használtuk meg, ennek megismerese egy kis idot vesz igenybe. > > kpe hat egy kicsit kavartam; tehat harom program lesz: 1. hunhtmlstrip - kiszedi a html-bol a szoveget, kiolvassa a http-equiv char encoding reszt es talan a title mezot 2. hunnorm - fog egy szoveget, es latin2 kodolasra hozza (bemenet meg a feltetelezett char encoding) 3. huntoken - fog egy szoveget, es mondatokra es szavakra bontja most z 1.-n kene dolgozni. A flexxel nagyon nem kell babralni, az mar kesz van szerintem eleg jo; egyetlen resz fontos a doksijabol: hogyan kell C++-bol hasznalni. A fo feladat, hogy a test.cc alapjan csinalni egy wrapper C++ osztalyt, amit barmilyen programbol lehet hivogatni. Az interfesz kb. ez default constructor - inicializalja a szuroket int parse(char* text) int parse(FILE* fp) int parse (istream input) - ez a harom metodus beolvassa a HTML-t, atkuldi a flexen; ezutan lehet hivni: char* get_text(); char* get_character_encoding(); - ezzel visszakapod a szoveget, a karakter kodolast ezutan, hogy ujra tud hasznalni reset(); ezutan ujra johet parse. A dolog lenyege hogy tobb html fajl feldolgozasakor egyetlen egy Hunhtmlstrip objektumot hozok letre, es azt tobbszor felhasznalom. Igy nagyon gyors tud majd lenni. hp ui: azt hiszem megnyitom a szoszablya-tech listat, hogy az ilyen fejlesztesekrol szolo levelezes ott menjen ui: es batran hasznaljuk a wikit!
29 Mar 2004 17:49
[Szoszablya-user] C vagy C++
Petz Andras <hermit <at> comgrid.hu>
2004-03-29 15:49:38 GMT
2004-03-29 15:49:38 GMT
Hamarosan el is kezdenem az egyszeru interfesz kialakitasat a flexhez, egyedul a C++-szal kapcsolatban vannak ketsegeim. A sebesseg C-ben meg jobb lehet, tovabba viszonylag kis library-knel nem latom ertelmet C++ hasznalatanak. Raadasul amint a flex doksikjaban olvastam, hogy a C++ interface meg nem a legkiforrottabb...Raadasul az iconv 3rd party library, ami a karakterkodolast vegzi, szinten C-s.Persze ha NAGYON fontos a C++-os felulet akkor azert megoldhato...
RSS Feed