regluit/utils/lang.py

import re
from django.conf.global_settings import LANGUAGES

lang2code = dict([(lang[1].lower(), lang[0]) for lang in LANGUAGES])
code2lang = dict(LANGUAGES)
iso639 = re.compile(r'^[a-z][a-z][a-z]?$')


def get_language_code(language):
    if language is None or not language:
        return ''
    language = language.lower().strip()
    language = sep.split(language)[0].strip()
    if language in code2lang:
        return language

    # language names (english)
    if language in lang2code:
        return lang2code.get(language)

    # mispellings and language names
    if language in EXTRA_LANG_MAP:
        return EXTRA_LANG_MAP.get(language)

    # accept 2 and 3 letter codes
    if iso639.match(language):
        return language
    return ''

# let's do a mapping of the DOAB languages into the language codes used
# mostly, we just handle mispellings
# also null -> xx
sep = re.compile(r'[ ;^,/\|\'\"\]\[\t\n\r\-]+')
lang_and_locale = re.compile(r'^[a-z][a-z]\-[A-Z][A-Z]$')


# mispellings and non-english language names
EXTRA_LANG_MAP = dict([
    (u'chinese', 'de'),
    (u'deutsch', 'de'),
    (u'eng', 'en'),
    (u'engli', 'en'),
    (u'englilsh', 'en'),
    (u'englilsh', 'en'),
    (u'englisch', 'en'),
    (u'espanol', 'es'),
    (u'ger', 'de'),
    (u'fra', 'fr'),
    (u'fre', 'fr'),
    (u'francese', 'fr'),
    (u'ita', 'it'),
    (u'itali', 'it'),
    (u'italiano', 'it'),
    (u'norwegian', 'no'),
    (u'por', 'pt'),
    (u'portugese', 'pt'),
    (u'slovene', 'sl'),
    (u'spa', 'es'),
    (u'spagnolo', 'es'),
    (u'un', 'xx'),
])

def lang_to_language_code(lang):
    if lang is None:
        return ''
    lang = lang.strip()

    #get codes like en-US
    if lang_and_locale.match(lang):
        return lang

    # get first item of lists
    for langitem in sep.split(lang):
        if langitem:
            lang = langitem
            continue

    code = get_language_code(lang)
    if code:
        return code
    return ''
refactor lang validation 2019-03-28 01:22:37 +00:00			`import re`
add some custom code for ubiquity press sites 2017-12-23 23:29:16 +00:00			`from django.conf.global_settings import LANGUAGES`

delint 2019-03-28 01:46:25 +00:00			`lang2code = dict([(lang[1].lower(), lang[0]) for lang in LANGUAGES])`
better handling of language codes 2018-04-13 18:39:03 +00:00			`code2lang = dict(LANGUAGES)`
refactor lang validation 2019-03-28 01:22:37 +00:00			`iso639 = re.compile(r'^[a-z][a-z][a-z]?$')`

add some custom code for ubiquity press sites 2017-12-23 23:29:16 +00:00
			`def get_language_code(language):`
refactor lang validation 2019-03-28 01:22:37 +00:00			`if language is None or not language:`
			`return ''`
better handling of language codes 2018-04-13 18:39:03 +00:00			`language = language.lower().strip()`
refactor lang validation 2019-03-28 01:22:37 +00:00			`language = sep.split(language)[0].strip()`
better handling of language codes 2018-04-13 18:39:03 +00:00			`if language in code2lang:`
			`return language`
delint 2019-03-28 01:46:25 +00:00
refactor lang validation 2019-03-28 01:22:37 +00:00			`# language names (english)`
			`if language in lang2code:`
			`return lang2code.get(language)`
delint 2019-03-28 01:46:25 +00:00
refactor lang validation 2019-03-28 01:22:37 +00:00			`# mispellings and language names`
			`if language in EXTRA_LANG_MAP:`
			`return EXTRA_LANG_MAP.get(language)`
delint 2019-03-28 01:46:25 +00:00
refactor lang validation 2019-03-28 01:22:37 +00:00			`# accept 2 and 3 letter codes`
			`if iso639.match(language):`
delint 2019-03-28 01:46:25 +00:00			`return language`
refactor lang validation 2019-03-28 01:22:37 +00:00			`return ''`

delint 2019-03-28 01:46:25 +00:00			`# let's do a mapping of the DOAB languages into the language codes used`
refactor lang validation 2019-03-28 01:22:37 +00:00			`# mostly, we just handle mispellings`
			`# also null -> xx`
			`sep = re.compile(r'[ ;^,/\\|\'\"\]\[\t\n\r\-]+')`
			`lang_and_locale = re.compile(r'^[a-z][a-z]\-[A-Z][A-Z]$')`


			`# mispellings and non-english language names`
			`EXTRA_LANG_MAP = dict([`
			`(u'chinese', 'de'),`
			`(u'deutsch', 'de'),`
			`(u'eng', 'en'),`
			`(u'engli', 'en'),`
			`(u'englilsh', 'en'),`
			`(u'englilsh', 'en'),`
			`(u'englisch', 'en'),`
			`(u'espanol', 'es'),`
			`(u'ger', 'de'),`
			`(u'fra', 'fr'),`
			`(u'fre', 'fr'),`
			`(u'francese', 'fr'),`
			`(u'ita', 'it'),`
			`(u'itali', 'it'),`
			`(u'italiano', 'it'),`
			`(u'norwegian', 'no'),`
			`(u'por', 'pt'),`
			`(u'portugese', 'pt'),`
			`(u'slovene', 'sl'),`
			`(u'spa', 'es'),`
			`(u'spagnolo', 'es'),`
deal with google books 'un' language 2021-05-27 12:35:20 +00:00			`(u'un', 'xx'),`
refactor lang validation 2019-03-28 01:22:37 +00:00			`])`

			`def lang_to_language_code(lang):`
			`if lang is None:`
			`return ''`
			`lang = lang.strip()`
delint 2019-03-28 01:46:25 +00:00
refactor lang validation 2019-03-28 01:22:37 +00:00			`#get codes like en-US`
			`if lang_and_locale.match(lang):`
			`return lang`

			`# get first item of lists`
			`for langitem in sep.split(lang):`
			`if langitem:`
			`lang = langitem`
			`continue`

			`code = get_language_code(lang)`
			`if code:`
			`return code`
delint 2019-03-28 01:46:25 +00:00			`return ''`