I need to have a Text Classification Program on any language
Example:
I have a database of strings like "Ray's Potato Chips with Cheese 80g"
It should be divided onto other columns like this:
Category: Potato Chips
Group: Chips with Cheese
Brand: Ray's
The problem is that I have a pretty big database(~15k), and I can't just use something like regex simple algorithms(cause sometimes Cheese could be written as "Ch.")
My thoughts are going to Bayes or Neural algorithms, but my Knowledge of Programming isn't enough
The data mainly on Russian, sometimes some English
_____________________________________________________________________
Нужен алгоритм классификации, который разобьет одну строку(из одного столбца) на группы/категории/бренды и тд
Пример:
Исходник: "Ray's чипсы со вкусом Сыра 80г"
Категория:Чипсы
Группа: Чипсы с сыром
Бренд: Ray's
Мой взгляд падал на Байеса или Нейронку, но моих знаний недостаточно для нормального написания. Язык любой, исходники и готовую программу следует приложить
Данные в основном на русском, но, как в примере, бывают английские символы
Hello,
I'm data scientist with huge expertise and mathematician with a number of publications. Also I'm participant and problem writer of many algorithm competitions (Topcoder, ACM ICPC).
Feel free to contact me to discuss any details of the project.
Looking forward to hearing from you!
P.S.: надо глянуть данные - так-то там и без machine learning-а может можно обойтись,если все просто.