द्वारा कार्यक्रम wikipedia2xml.sf.net
-
wikipedia2XML मुफ्त
एक मूल विकिपीडिया डेटाबेस बैकअप डंप से एक्सएमएल कॉर्पस (भाषाई उद्देश्य के लिए पाठ का एक बड़ा संग्रह) बनाने और संभालने के लिए अजगर लिपियों का संग्रह। इसमें मीडियाविकी मार्कअप भाषा के लिए नियमित अभिव्यक्ति आधारित पार्सर शामिल ह