lucene-dev mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From "Jon Harper (JIRA)" <j...@apache.org>
Subject [jira] [Commented] (LUCENE-3929) org.apache.lucene.analysis.fr.FrenchAnalyzer could introduce french accent insensitive search.
Date Mon, 18 Jan 2016 10:45:39 GMT

    [ https://issues.apache.org/jira/browse/LUCENE-3929?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=15105091#comment-15105091
] 

Jon Harper commented on LUCENE-3929:
------------------------------------

[~rcmuir], Nice to know you have this is mind. Thanks for replying and good luck with this
work

Another observation, FrenchLightStemmer implementing Savoy's stemmer only removes the following
'accents' (for words >=5 letters):
FrenchLightStemmer.java:
{noformat}
          case 'à': 
          case 'á':
          case 'â': s[i] = 'a'; break;
          case 'ô': s[i] = 'o'; break;
          case 'è':
          case 'é':
          case 'ê': s[i] = 'e'; break;
          case 'ù':
          case 'û': s[i] = 'u'; break;
          case 'î': s[i] = 'i'; break;
          case 'ç': s[i] = 'c'; break;
{noformat}

This leaves out for exemple ë ï ü found in the following 221 words (including 'Noël',
the french word for 'christmas'!)
{noformat}
aïeul
aïeule
aïeules
aïeuls
aïeux
aiguë
aiguës
aïoli
ambiguë
ambiguës
ambiguïté
ambiguïtés
amuïr
androïde
androïdes
anthropoïde
anthropoïdes
archaïque
archaïques
archaïsme
archaïsmes
astéroïde
astéroïdes
baïonnette
baïonnettes
caïd
caïds
caïman
caïmans
camaïeu
camaïeux
canoë
canoës
capharnaüm
caraïbe
caraïbes
celluloïd
ciguë
cocaïne
cocaïnomane
cocaïnomanes
cocaïnomanie
coïncida
coïncidaient
coïncidait
coïncidant
coïncide
coïncidé
coïncidence
coïncidences
coïncident
coïncidente
coïncidentes
coïncidents
coïncider
coïncidera
coïncideraient
coïnciderait
coïncidèrent
coïncideront
coïnculpé
coïnculpée
coïnculpées
coïnculpés
coït
coïter
coïts
contiguë
contiguës
contiguïté
crapaüter
dalaï-lama
dalaï-lamas
désambiguïser
égoïne
égoïnes
égoïsme
égoïste
égoïstement
égoïstes
entre-haïr
exiguë
exiguës
exiguïté
faïence
faïencerie
faïenceries
faïences
faïencier
faïenciers
glaïeul
glaïeuls
haï
haïe
haïes
haïr
haïra
haïrai
haïraient
haïrais
haïrait
haïras
haïrez
haïriez
haïrions
haïrons
haïront
haïs
haïssable
haïssables
haïssaient
haïssais
haïssait
haïssant
haïsse
haïssent
haïsses
haïssez
haïssiez
haïssions
haïssons
hautboïste
hautboïstes
hébraïque
hébraïques
hémorroïde
hémorroïdes
héroï-comique
héroï-comiques
héroïne
héroïnes
héroïnomane
héroïnomanes
héroïque
héroïquement
héroïques
héroïsme
humanoïde
humanoïdes
inouï
inouïe
inouïes
inouïs
judaïque
judaïques
judaïser
judaïsme
laïc
laïcisation
laïciser
laïcité
laïcs
laïque
laïques
laïus
laïusser
maïs
maoïste
maoïstes
mosaïque
mosaïques
naïf
naïfs
naïve
naïvement
naïves
naïveté
naïvetés
négroïde
négroïdes
noël
ouï-dire
ouïe
ouïes
ouïr
pagaïe
païen
païenne
païennes
païens
paranoïa
paranoïaque
paranoïaques
prosaïque
prosaïques
prosaïsme
rhodoïd
samouraï
samouraïs
sinusoïdal
sinusoïdale
sinusoïdales
sinusoïdaux
sinusoïde
sinusoïdes
spermatozoïde
spermatozoïdes
stoïcisme
stoïque
stoïquement
stoïques
suraiguë
suraiguës
taïga
taïgas
thaïlandais
thaïlandaise
thaïlandaises
thyroïde
thyroïdes
thyroïdien
thyroïdienne
thyroïdiennes
thyroïdiens
troïka
troïkas
typhoïde
typhoïdes
zaïrois
zaïroise
zaïroises
{noformat} 

Regards,
Jon


> org.apache.lucene.analysis.fr.FrenchAnalyzer could introduce french accent insensitive
search.
> ----------------------------------------------------------------------------------------------
>
>                 Key: LUCENE-3929
>                 URL: https://issues.apache.org/jira/browse/LUCENE-3929
>             Project: Lucene - Core
>          Issue Type: Improvement
>          Components: core/search
>            Reporter: Geoffroy Schneck
>            Assignee: Robert Muir
>            Priority: Minor
>             Fix For: 3.6, 4.0-ALPHA
>
>
> The GermanAnalyzer does the same with the Umlaut for example. Searching for 'gehort'
will return 'gehört' and 'gehort' .
> I expected that the FrenchAnalyzer would also return 'sécuritaires' and 'securitaires'
and searching for any of them, but it's not the case



--
This message was sent by Atlassian JIRA
(v6.3.4#6332)

---------------------------------------------------------------------
To unsubscribe, e-mail: dev-unsubscribe@lucene.apache.org
For additional commands, e-mail: dev-help@lucene.apache.org


Mime
View raw message