No diacritics sensitive search in Google (accents)

banned8

  • Jr. Member
  • **
    • Posts: 132
    • Gender:Male
Πριν από μερικούς μήνες η Microsoft ζητούσε από τον κόσμο ιδέες για να βελτιώσει το MSN Search, οπότε το υποφαινόμενο ψώνιο τούς έστειλε το παρακάτω μήνυμα:

A search-index problem that neither Google nor you, as it seems, have solved to users’ satisfaction is the problem of accents in various languages. For example, in French you have opted to disregard the accents. A search for ‘tassé’ (=packed) will bring up lots of ‘tasse’, which is a cup. I’m sure the French get very perplexed over this. On the other hand, no one seems to do this for the Greek language. The problem here is the inverse. We Greeks often have two different accented forms for the same word (usually depending on whether it is a colloquial or literary form), e.g. the genitive of the Greek form for Charles may be Καρόλου or Κάρολου, and in upper-case (or if careless people fail to include the accent) ΚΑΡΟΛΟΥ / Καρολου. So anyone looking for pages with this word actually has to conduct three (!) different searches. (Google brought up 4340, 825 and 554 occurrences respectively; yours was temporarily unavailable).
So what happens here is that the rule that has been applied to French has not been applied to Greek. But neither solution is entirely satisfactory and there should actually be two indexing approaches: one that disregards accents (in both French and Greek, as well as other accented languages) and one that distinguishes between accented and unaccented forms. For example, results may display depending on whether the user enters terms in upper case (TASSE) or lower case (‘tasse’ or ‘tassé’); in Greek, ΚΑΡΟΛΟΥ or Καρόλου or Καρόλου. In the former case, all forms will be displayed; in the latter, the search results are restricted only to the corresponding accented or unaccented forms.
Users don’t really care if the search takes 0.34 instead of 0.17, as long as they get a more intelligent result. And this is one way of demonstrating more intelligence.

Είχε προηγηθεί ένα παρόμοιο μήνυμα στους Google.

Η είδηση λοιπόν είναι ότι εδώ και μερικές μέρες το σύστημα αυτό εφαρμόστηκε από το Google. Δηλαδή, θα σας δώσει τα ίδια ευρήματα είτε γράψετε "ανθρωπου" είτε "ανθρώπου" είτε "άνθρωπου". Έτσι μ' ένα ψάξιμο έχετε όλους τους τύπους που θέλετε.

Αν, από την άλλη, θέλετε να βρείτε σελίδες με τον τύπο "ανθρώπου" και μόνον αυτό, τότε θα πρέπει να καταφύγετε στο MSN Search...

Και παρεμπιπτόντως, κάτι άλλο που διάβασα στο Google και φαίνεται να έχει ενδιαφέρον, λέει: "Google now uses stemming technology. Thus, when appropriate, it will search not only for your search terms, but also for words that are similar to some or all of those terms. If you search for 'pet lemur dietary needs', Google will also search for 'pet lemur diet needs', and other related variations of your terms. Any variants of your terms that were searched for will be highlighted in the snippet of text accompanying each result."
« Last Edit: 30 May, 2005, 17:53:23 by spiros »


wings

  • Global Moderator
  • Hero Member
  • *****
    • Posts: 72550
    • Gender:Female
  • Vicky Papaprodromou
Καλέ συ, ψώνιο!!!!! Εεεεεεεεεεεεε! Σε σένα μιλάω.

Αμα θέλεις το "ανθρώπου" το δίνεις στο Google όπως μόλις τόγραψα, δηλαδή με εισαγωγικά και σου δίνει μόνον το "ανθρώπου"... Μια δοκιμή θα σε πείσει.
Ο λόγος είναι μεγάλη ανάγκη της ψυχής. (Γιώργος Ιωάννου)



psifio

  • Sr. Member
  • ****
    • Posts: 657
Hello, wings,
το έκανα κι εγώ το τεστ, αλλά ο nickel έχει δίκιο: μια δοκιμή με το "άνθρωπου" δίνει τα ίδια αποτελέσματα, δηλαδή όλα.
:)


wings

  • Global Moderator
  • Hero Member
  • *****
    • Posts: 72550
    • Gender:Female
  • Vicky Papaprodromou
Ναι, το είδα κι εγώ με το "Κάρολου" και "Καρόλου". Αλλά δεν το θεωρώ τραγικό. Μάλλον χρήσιμο είναι που τα δίνει όλα.
Ο λόγος είναι μεγάλη ανάγκη της ψυχής. (Γιώργος Ιωάννου)



σα(ρε)μαλι

  • Hero Member
  • *****
    • Posts: 1293
    • Gender:Male
  • Σταβανγκεριανό μου έαρ

Θα συμφωνήσω με τη Βίκυ ότι είναι χρήσιμο που τα δίνει όλα, αλλά σε ορισμένες περιπτώσεις μπορεί να αποτελέσει και μικρό προβληματάκι. Όπως για παράδειγμα στην αναζήτηση της λέξης μονός (αυτή ήταν η πρώτη που κατέβασε η κούτρα μου) παίρνεις πρώτα αποτελέσματα, και μάλιστα πολλά, της λέξης μόνος. Οπότε είναι λίγο χρονοβόρο να βρεις τα σχετικά αποτελέσματα. Αυτά φυσικά είναι ψηλά γράμματα, αλλά όταν έχεις έναν άνθρωπο με τέτοια παρατηρητικότητα και προσοχή στη λεπτομέρεια -στο Nickel αναφερομαι - αναπόφευκτα αποκτάς πρόσθετα κίνητρα.
I can live everywhere in the world, but it must be near an airport -and a pharmacy, I would add.

Δεν είναι ο ύπνος της λογικής που γεννάει τέρατα, αλλά ο άγρυπνος ορθολογισμός που πάσχει από αϋπνίες.


wings

  • Global Moderator
  • Hero Member
  • *****
    • Posts: 72550
    • Gender:Female
  • Vicky Papaprodromou
Ωχ ναι. Δίκιο έχεις. Σε τέτοιες λέξεις θα μας αλλάξει τον αδόξαστο κι υπάρχουν κάμποσες.
Ο λόγος είναι μεγάλη ανάγκη της ψυχής. (Γιώργος Ιωάννου)


banned8

  • Jr. Member
  • **
    • Posts: 132
    • Gender:Male
Μα αυτό ακριβώς είχα ζητήσει κι από τους Google. Δεν ξέρω και πόσοι άλλοι το ζήτησαν και αποφάσισαν να το εφαρμόσουν, ή απλώς δείχνει μια αλλαγή του συστήματος με το οποίο φτιάχνουν τα ευρετήριά τους.

Με διευκολύνει στις πιο πολλές αναζητήσεις αλλά θα πρέπει να καταφεύγουμε σε άλλα ψαχτήρια αν θέλουμε να ξεχωρίζουμε τις λέξεις σύμφωνα με τον τονισμό τους -- αν θέλω ας πούμε να κάνω μια στατιστική πόσοι λένε "άνθρωπου" και πόσοι "ανθρώπου", ή να βρώ μόνο τις σελίδες με "μόνος" και όχι με "μονός".


spiros

  • Administrator
  • Hero Member
  • *****
    • Posts: 824355
    • Gender:Male
  • point d’amour
How to restrict search results
To obtain search results for only a specific version of the word (with or without accented characters), you can place a + before the word. For instance, the search [+Mexico] returns only pages about "Mexico" (and not "México"). The search [+México] returns only pages about "México" and not "Mexico." Note that you may see some search results that don't appear to use the version of word you specified in your query, but that version of the word may appear within the content of the page or in anchor text to the page, rather than in the title or description listed in the results. (You can see the top anchor text used to link to your site by choosing Statistics > Page analysis in webmaster tools.)
How search results may differ based on accented characters and interface languages


Also, selecting Verbatim from Tools in the Search page, helps (especially for phrase searches, since they do not even need to be in quotes).
« Last Edit: 05 Oct, 2021, 19:23:00 by spiros »


 

Search Tools