Википедија:Масовни унос/насељена места у Србији
Из пројекта Википедија
Ово је координациона страна везана за масовни унос српских села.
Садржај |
[уреди] Мишљења и идеје
[уреди] Подаци
Подаци су углавном у ПДФ-овима у виду "ћириличних табела". Из њих би требало издвојити податке у неки униформни формат и конвертовати такав аутпут у неки више машин-ридабл. Постоји и гомила .xls табела, али оне су само за општине. Из њих може да се извуче гомила података, али треба уврстити само најбитније. Оно што није за табеле, може се сместити у текст. --Φ ί λ ι π π ο ς | ⌘ 23:47, 19. март 2007. (CET)
Подаци у тренутно доступним .xls табелама се односе на општине (и ту ће бити корисни) па се за села не могу употребити. -- JustUser JustTalk 19:30, 20. март 2007. (CET)
Могли би смо из оног милошевог алгоритма (Корисник:Милош/Краљево) да додамо и поднаслове Оближњи потоци у Србији и Црној Гори и Оближњи манастири у Србији и Црној Гори. При томе бих назив потоци променио у водени токови, пошто се у чланцима углавном наводе реке. И наравно променио бих ону вишезначност, пошто код милоша много лоше изгледа. Значи ако у називу саме одреднице постоји река или поток, не мора у загради да додаје поток, а ако не постоји ништа, онда само дода испред Река тако да би смо добили Река Ибар. Исто важи и за манастире. А уколико аутоматски могу да се унесу и оне слике, могли би и њих да ставимо негде у чланак --Јован Вуковић (р) 12:27, 26. март 2007. (CEST)
Ајде ово са оближњи манастири и капирам, јер је манстир тачкаста локација, али потоци, водоткови, реке ....? Како ћеш разликовати шта је река, шта поток а шта канал. Па да ли пролази кроз село, поред села или иза брда? Мислим да је садржај информације водоток Џ иде 2 км од села Љ танак, јер ако иде 2 км од центра села, можда пролази кроз обод села, или граничи са другим селом или је иза Јелице планине и ко зна ком атару. -- JustUser JustTalk 14:25, 26. март 2007. (CEST)
[уреди] Сукоби
[уреди] Већ постојећи
Доста чланака је већ направљено. Шта да радимо када бот стигне до чланка који већ постоји? Да ли да покуша да споји (како?) или да негде привремено смести чланак (скоро апдејтовани креш, Википедијин именски простор?), који би се касније могао ручно придружити већ постојећем. Или можда да "прегази" већ постојеће, ако су сувише кратки (јер у њима нема корисних информација које се не налазе и у новом чланку)? --Φ ί λ ι π π ο ς | ⌘ 23:47, 19. март 2007. (CET)
- Када су пољаци масоввно уносили њихова места, они су овакве проблеме решавали тако што бот напише чланак на страници за разговор већ постојећег чланка уколико наиђе на њега. --Јован Вуковић (р) 12:15, 26. март 2007. (CEST)
[уреди] Вишезначне
Знамо да има гомила села која су (да ли међусобно или не) хомоними и то треба решавати преко вишезначних одредница. Имам осећај да алгоритам везан за такву проблематику не може да буде једноставан, па треба добро поразмислити у овом правцу. --Φ ί λ ι π π ο ς | ⌘ 23:47, 19. март 2007. (CET)
[уреди] Проблеми
Наишао сам на један повећи проблем. Код прикупљања географских података за свако насељено место (координате), може бити свашта! Генерисао сам списак свих насеља у ужој Србији и Војводини и јављају се овакве ставке (ћирилизација је моја; оригинално, све је латиницом, па зато и ови мађарски називи изгледају природније):
Сзербарадáцз -73931 Тóт-Арадáцз -73931 Тóтарадáцз -73931 Арангјеловац -73933 Аранђеловац -73933 Араповац -73938 Араповиће -73939 Араповићи -73939 Арбанасце -73944 Арбанасци -73944 Арбанашка -73948
Бројеви десно су јединствени бројеви географске локације. На који начин бот може да зна да ли је правилно Арангјеловац или Аранђеловац? Највећи проблем је управо насеље -73931 (Арадац) које има 17 хомонима, затим Башаид (-74547), који постоји у 14 варијанти итд. Свеукупно, постоји 1965 локација које имају 2 или више назива. Е сад, ствари компликује вишезначност (нпр. пет Лесковаца, петнаест Нових Села итд). У том случају, које координате, односно који јединствени број да споји са којим селом? Ови подаци које имам су преузети од NGA. Да ли постоји неки поузданији извор за ово? --Φ ί λ ι π π ο ς | ⌘ 22:30, 3. април 2007. (CEST)
- Списак насеља имаш у оном статистичком годишњаку србије. --Јован Вуковић (р) 16:27, 6. април 2007. (CEST)
- То је очигледно, с обзиром да се подаци највише узимају одатле. Али и даље стоји горњи проблем. --Φ ί λ ι π π ο ς | ⌘ 16:51, 6. април 2007. (CEST)
- Па тамо немаш ова мађарска имена. Вероватно су имена тих села на српском у статистичком годишњаку. —Претходни непотписани коментар остави Јованвб (разговор • прилози) .
- Да, али, опет понављам, има 5 Лесковаца! Откуд бот да зна који се "Лесковац" односи на које место? Једино да имам тачне координате простирања сваког округа, па да покушам да утврдим на основу координата села у ком се округу оно налази. Али, чини ми се да то неће ићи баш тако лако. --Φ ί λ ι π π ο ς | ⌘ 23:18, 11. април 2007. (CEST)
- Па тамо немаш ова мађарска имена. Вероватно су имена тих села на српском у статистичком годишњаку. —Претходни непотписани коментар остави Јованвб (разговор • прилози) .
- То је очигледно, с обзиром да се подаци највише узимају одатле. Али и даље стоји горњи проблем. --Φ ί λ ι π π ο ς | ⌘ 16:51, 6. април 2007. (CEST)
[уреди] Брзина
Којом брзином уносити чланке? --Φ ί λ ι π π ο ς | ⌘ 23:47, 19. март 2007. (CET)
[уреди] Ресурси
- Треба навести све мрежне локације
- као и публикације и
- евентуално некакву другу литературу која ће се користити при уносу
[уреди] Концепт чланка
Овде треба да стоји кôд чланка, односно садржај чланка са референцама на ресурсе (тј, да се зна одакле се који податак узима и на који начин генерише). --Φ ί λ ι π π ο ς | ⌘ 23:47, 19. март 2007. (CET)
- А ја се питам шта се десило са покушајима да се ове табеле вербализују, чисто онако, конформизма ради, да мало више личи на енциклопедију. Е и да, пало ми напамет, кад се већ тркамо са комшијама, да унесемо бирачке спискове Републике Србије, што да не, имају три валидне одреднице - име и презиме, датум рођења, место рођења, па ако закон дозвољава и ЈМБГ, бр л.к... :))) --¡¿Кале?! 16:18, 7. април 2007. (CEST)
- Ја јесам за вербализацију, али треба ми помоћ. Да ли би ти желео да извучеш податке из неких од тих табела, па да видимо на шта личи? --Φ ί λ ι π π ο ς | ⌘ 17:25, 7. април 2007. (CEST)
- Је л` то захтева програмерско знање? --¡¿Кале?! 19:44, 7. април 2007. (CEST)
- Не. Само је потребно да имаш подсетник негде у глави да тај текст ипак треба једна скрипта да генерише и да због тога не може да буде флексибилан као што би био да га човек саставља. --Φ ί λ ι π π ο ς | ⌘ 23:09, 7. април 2007. (CEST)
- Је л` то захтева програмерско знање? --¡¿Кале?! 19:44, 7. април 2007. (CEST)
- Ја јесам за вербализацију, али треба ми помоћ. Да ли би ти желео да извучеш податке из неких од тих табела, па да видимо на шта личи? --Φ ί λ ι π π ο ς | ⌘ 17:25, 7. април 2007. (CEST)
[уреди] Примери
Примери су:
Такође, постоје и неки стари примери који се сада сматрају анахронизмима: Корисник:Милош/Крушевац код Подгорице и Корисник:Милош/Краљево.