Википедија:Песак
Са Википедије
|
|
Паралелни текст је текст постављен упоредо са (бар једним) својим преводом. Поравнавање паралелног текста је успостављање кореспонденције између одговарајућих реченица у две половине паралелног текста. Примери збирки двојезичних паралелних текстова су Loeb-ова класична библиотека и Clay-ова Санскрит библиотека. Издања Библије могу да садрже и оригинални текст и превод (или неколико превода), са циљем да се поједностави упоређивање, односно проучавање; Оригенова Hexapla ("шестострука" на грчком) садржи једну уз другу шест верзија Стаpог завета. Најстарији познати пример паралелних текстова је Камен из Розете.
Паралелни корпус је велика колекција паралелних текстова (видети језички корпус). Поравнавање паралелних корпуса на нивоу реченице предуслов je за истраживања у многим областима лингвистике. У току превођења преводилац може да раставља, саставља, умеће или премешта реченице; због тога поравнавање паралелних текстова није једноставно.
Садржај |
[уреди] Битекст
У области превођења битекст је документ који садржи упоредо оригинал и превод датог текста. Битекстови се добијају програмом који се зове генератор битекста, који аутоматски поравнава (упарује) оригинал и превод истог текста. Програм начелно упарује два текста реченицу по реченицу. Колекција битекстова зове се база битекстова, односно билингвални корпус, и обично се користи уз помоћ претраживача.
[уреди] Историја
Идеја битекста приписује се Брајану Харису, који је написао рад о овом концепту 1988. године. Идеју је разрадила група RALI (Recherche appliquée en linguistique informatique односно Applied Research in Computational Linguistics) , група истраживача из области рачунарства и лингвистике, који се баве обрадом природних језика.
[уреди] Битекст и преводилачка меморија
Појам битекста има сличности са појмом преводилачке меморије. Најбитнија разлика између битекста и преводилачке меморије је у томе да је преводилачка меморија база података у којој су њени делови (упарене реченице) смештене потпуно независно од оригиналног контекста; оригинални редослед реченица је изгубљен. Насупрот томе, битекст задржава оригинални редослед реченица. Међутим, неке реализације преводилачке меморије, као што је Translation Memory eXchange (TMX) (стандардни XML формат за размену преводилачких меморија између програма за машинско провођење) омогућује очување оригиналног редоследа реченица. Намена битекстова је да их користе преводиоци – људи, а не рачунари. Због тога мале грешке у поравнавању или мала неслагања која би била проблем за преводилачку меморију, овде нису битне.
[уреди] Видети такође
- Обрада природних језика
- Машинско провођење
- Упоређивање помоћу рачунара
- Камен из Розете
- Преводилачкa меморијa
[уреди] Спољашње везе
[уреди] Паралелни корпуси
- JRC-Acquis, Вишејезични паралелни корпус законодавства Европске уније: Acquis Communautaire са 231 паром језика
- Opus пројекат намењен прикупљању јавно доступних паралелних корпуса
- LILABAR - енглеско-руски паралелни корпус
- Nunavut Hansard – енглеско – инуктитут паралелни корпус










/
/ 


























