Страница 1 из 5

Вероятностные подходы к идентификации евреев

Добавлено: 04 июл 2012, 11:17
Jorge
Я сейчас расскажу, почему я открыл эту тему и почему именно здесь.

На нашем форуме и вблизи него часто возникают ситуации, требующие простой оценки - еврей-нееврей. Мы здесь, конечно, никого не дискриминируем по национальному признаку, но ситуации всё же возникают. Вот одна из них. Наша замечательная подвижница, чьё имя слишком хорошо известно, чтобы его тут называть, выписывает в Одесском архиве имена и фамилии из всевозможных дел - учеников гимназий, студентов университета, дарителей/завещателей/продавцов недвижимости из нотариальных книг, и многое другое. Эти имена вскоре пополнят нашу Базу Данных, и, в соответствии с тематикой портала, имена там должны быть только еврейские. Как их идентифицировать - ну хоть с какой-то степенью увереннности? Марк Александрович Островский - это еврей или русский? А Борис Григорьевич Поляков? А если только инициалы? Такие вопросы нуждаются в приблизительной, но быстрой оценке.

Другой похожий вариант. Наш уважаемый мэтр, автор словарей А.Бейдер продолжает искать еврейские фамилии. Вот он, допустим, находит где-нибудь в губернских ведомостях какого-нибудь Моисея Абрамовича с неизвестной ему доселе среди евреев фамилией. Ему нужно оценить, с какой вероятностью он нашёл новую еврейскую фамилию. Здесь, в отличие от первого варианта, его устроит только вероятность, неотличимая от 100%: в словаре не должно быть случайных фамилий. Можно представить и другие случаи, когда ему требуется оценить вероятность - допустим, при сравнении двух гипотез о происхождении фамилии. Поскольку этот класс задач должен быть интересен А.Бейдеру, я решил открыть эту тему здесь, надеясь на его вклад.

Завершая первое сообщение данной темы, хочу задать участникам форума такую задачу. Допустим, в Москве на сегодня проживает 1% евреев, а всех остальных будем для простоты считать русскими. Пусть также известно, что 10% носителей фамилии Сапожников - евреи, что 10% Леонидов - евреи, и 10% Борисовичей - евреи. Вопрос. С какой вероятностью Леонид Борисович Сапожников - еврей? Жду гипотез. Правильный ответ - завтра.

Re: Вероятностные подходы к идентификации евреев

Добавлено: 04 июл 2012, 14:30
Любовь Гиль
Мой ответ: 0,0000138559

Re: Вероятностные подходы к идентификации евреев

Добавлено: 04 июл 2012, 18:09
Файнгольд Татьяна
Просто к слову на ту же тему.
Прорабатывая сведения на сайте ОБД МЕМОРИАЛ по интересующему меня населенному пункту,
я обратила внимание, что в Книгу Памяти воинов-евреев внесены погибшие с именем ИОСИФ и др. именами, похожими на имена евреев.
А населенный пункт - район Каменец-Подольского.
Там жили поляки, носившие такие же имена.
Тот, кто заносил сведения в Книгу Памяти,
не открывал документы, в которых зачастую указана национальность.
Я помогаю в обработке документов Каменец-Подольского суда.
Иногда все понятно - включать, но много и непонятных ситуаций.
Мое мнение, что лучше включить, чем потерять.

Re: Вероятностные подходы к идентификации евреев

Добавлено: 04 июл 2012, 20:10
Jorge
Любовь Гиль писал(а):Мой ответ: 0,0000138559
Спасибо, Люба! Меня поразила точность Вашего расчёта. Вы имеете в виду, что евреев настолько мало? Хорошо, давайте дадим ещё кому-нибудь высказаться, и тем временем я выведу формулу.

Re: Вероятностные подходы к идентификации евреев

Добавлено: 04 июл 2012, 20:42
Jorge
Файнгольд Татьяна писал(а):Просто к слову на ту же тему.
Прорабатывая сведения на сайте ОБД МЕМОРИАЛ по интересующему меня населенному пункту,
я обратила внимание, что в Книгу Памяти воинов-евреев внесены погибшие с именем ИОСИФ и др. именами, похожими на имена евреев.
А населенный пункт - район Каменец-Подольского.
Там жили поляки, носившие такие же имена.
Тот, кто заносил сведения в Книгу Памяти,
не открывал документы, в которых зачастую указана национальность.
Я помогаю в обработке документов Каменец-Подольского суда.
Иногда все понятно - включать, но много и непонятных ситуаций.
Мое мнение, что лучше включить, чем потерять.
Вы совершенно правы. Своими глазами видел литовца Иосифа в Яд-Вашеме. Те, кто вносили людей в подобные списки, видимо, были не очень подкованы в таких вопросах и/или их главной целью было зафиксировать как можно больше людей. После того, как мы (в уме ли, по формуле ли) оцениваем вероятность того, что запись сделана о еврее, в разных случаях мы по-разному трактуем границу, за которой неевреи отбрасываются. Например, когда Бейдер находит новую фамилию, ему нужно иметь 100% уверенность в том, что найденный человек - еврей. Если же он сравнивает гипотезы происхождения фамилии, то тут, видимо, его устроит 30-40%. Таким образом, по каждой неочевидной фамилии у него может быть до двух, максимум трёх разных гипотез. В Вашем случае, если Вы оцифровываете документы для нашего проекта, моё мнение, что Ваша уверенность должна превышать процентов 25-30, чтобы считать, что стоит внести такую запись в еврейскую базу данных. Потому, что действительно потерять хуже, чем включить.

Re: Вероятностные подходы к идентификации евреев

Добавлено: 04 июл 2012, 22:14
yvb
На мой взгляд в базы данных лучше всего вносить всех без исключения. А исследователи пусть сами выясняют корни. Вероятностный подход - не лучший для генеалогии. Другой вопрос, что база будет иметь больший объём, но зато можно съэкономить время на гаданиях еврей-нееврей, да и голову ломать не надо.

Re: Вероятностные подходы к идентификации евреев

Добавлено: 05 июл 2012, 04:27
Jorge
yvb писал(а):На мой взгляд в базы данных лучше всего вносить всех без исключения. А исследователи пусть сами выясняют корни. Вероятностный подход - не лучший для генеалогии. Другой вопрос, что база будет иметь больший объём, но зато можно съэкономить время на гаданиях еврей-нееврей, да и голову ломать не надо.
Это - возможный подход. Но всё же наш профиль - это еврейские корни. Скажем, на Яд-Вашеме, в книгах памяти евреев-воинов, на JG, наконец, присутствие неевреев в базе данных нежелательно и может рассматриваться как ошибка. А объём нас не пугает.

Re: Вероятностные подходы к идентификации евреев

Добавлено: 05 июл 2012, 09:12
Nison
я лично знаю только одного Сапожникова. И он таки живет в Москве. И он еврей. Правда Миша, а не Леня.

Re: Вероятностные подходы к идентификации евреев

Добавлено: 05 июл 2012, 12:37
Jorge
Ну дык я про него и говорил; Лёня - для конспирации. :)

Вижу я, что тему посетили многие, а гипотезу, кроме Любы, никто оставить не решился. Даю всем ещё день на раздумья. :)

Re: Вероятностные подходы к идентификации евреев

Добавлено: 05 июл 2012, 12:53
ALLA PESINA
Игорь у нас в семье присутствовала фамилия Сапожников.А насчет идентификации-среди моих фамилий Фрид и Литвак это 50/50.И еще в расчет надо брать то что вероятно некоторые представители этих фамилий у истоков имели таки еврейские корни.

Re: Вероятностные подходы к идентификации евреев

Добавлено: 05 июл 2012, 13:04
Любовь Гиль
Jorge!
А мне по жизни встречалось немало Сапожниковых, правда, не знаю, как-то не интересовалось их нац. принадлежностью, но четверых знаю хорошо, 3 из них
евреи, один русский, имена двоих - Эдик, один - Ким, и ещё один, тот который русский,
Веня. Вот Вам и теория вероятности, которую никогда не сбрасываю со счетов.
Всего Вам доброго.

Re: Вероятностные подходы к идентификации евреев

Добавлено: 05 июл 2012, 14:07
Юлия_П
Определить современных евреев достаточно сложно - теперь всё перепуталось совершенно. Другое дело до революции. А вот если речь идёт о самом начале 20-го века, да ещё и о документах университета, то минимум половина евреев там окажется ассимилированными или крещёными, то есть будут записаны с русифицированными именами (правда, немало попадается и имён на немецкий лад типа Вильгельм Вольфович). Оказывается, это не такая тривиальная задача - "распознать" евреев в большинстве записей. И тут теория вероятностного подхода может оказаться хорошим подспорем.

Re: Вероятностные подходы к идентификации евреев

Добавлено: 05 июл 2012, 14:09
oztech
Предлагаю решение в лоб: должны произойти 3 одновременных событиях, вероятность каждого из которых - 0,1. Вероятности одновременных событий умножаются, т.е. произведение равно 0,001 или 0,1%.
Но вообще-то я резко против всяких вычислений чистоты кровей. И не увидел ни одного серьезного аргумента, когда этим надо заниматься при извлечении выборок, составлении словарей, оцифровке и т.д.

Re: Вероятностные подходы к идентификации евреев

Добавлено: 05 июл 2012, 14:25
Юлия_П
Например, мы составляем базу еврейских дел в архивах. У нас есть порядка 100 тысяч записей с личными делами учеников/студентов различных учебных заведений. Реально евреев там будет не более трети. Вводить всех подряд? Это и трудоёмко, и противоречит направленности нашей базы. Надо явных неевреев отбросить.
К сожалению, в учебных заведениях, особенно высших, училось много ассимилированных евреев. Например, евреи ли Черноблер Валентин и Павел Ефраимовичи? Ситуация порой осложняется тем, что выбирать приходится не из русский-еврей, а из немец-еврей (и таких немало).
Или вот: подряд идут 3 записи Чернов Григорий Михайлович, Чернов Исак Абрам Лейбов, Чернов Павел Дмитриевич. Кто из них еврей, а кто нет? А Черный Гавриил Израилевич? А Чудновский Федор Маркович? А Шапиро Генрих Михайлович? А Шапошников Александр Борисович?

Re: Вероятностные подходы к идентификации евреев

Добавлено: 05 июл 2012, 15:14
oztech
Юля, я именно о том же и говорю. Сокращение объема информации нужно проводить очень осторожно. Пусть лучше в выборку попадут лишние люди, чем потеряется какой-нибудь слабенький корешок.

Re: Вероятностные подходы к идентификации евреев

Добавлено: 05 июл 2012, 15:26
Юлия_П
Если я правильно понимаю, на самом деле вероятностный подход, которые нам хочет предложить автор темы, позволяет с высокой вероятностью никого не потерять.

Re: Вероятностные подходы к идентификации евреев

Добавлено: 05 июл 2012, 16:01
michael_frm_jrslm
oztech писал(а):Предлагаю решение в лоб: должны произойти 3 одновременных событиях, вероятность каждого из которых - 0,1. Вероятности одновременных событий умножаются, т.е. произведение равно 0,001 или 0,1%.
Ну сами посудите. При таком подходе вероятность противоположного события ("Леонид Борисович Сапожников - НЕ еврей") должна была бы считаться как 0.9*0.9*0.9=0.729. А ведь в сумме эти две вероятности должны давать единицу.
Но вообще-то я резко против всяких вычислений чистоты кровей.
А причем тут "чистота кровей"? Вероятность того, что некий наугад отловленный гражданин является евреем (по какому бы то ни было критерию) никак не связана с процентом "правильной" крови в жилах этого гражданина (не зависимо от того, считается ли "правильной" еврейская или арийская кровь.)

Re: Вероятностные подходы к идентификации евреев

Добавлено: 05 июл 2012, 16:10
Юлия_П
Согласитесь, что у Сапожникова Леонида Борисовича больше шансов оказаться евреем, чем у Сапожникова Леонида Ивановича или Ивана Борисовича. Так что тут всё совсем не так просто.
Опять же. Вероятность у Сапожникова Леонида Борисовича - мещанина небольшого местечка в ЧО в середине 19-го века - оказаться евреем гораздо меньше, чем у его полного тёзки-студента университета в 1910 году.

Re: Вероятностные подходы к идентификации евреев

Добавлено: 05 июл 2012, 16:18
yvb
По поводу вероятностного подхода. Остап Бендер в "Двенадцати стульях" тоже применил вероятностный подход :) ...

Re: Вероятностные подходы к идентификации евреев

Добавлено: 05 июл 2012, 20:47
oztech
michael_frm_jrslm писал(а):
oztech писал(а):Предлагаю решение в лоб: должны произойти 3 одновременных событиях, вероятность каждого из которых - 0,1. Вероятности одновременных событий умножаются, т.е. произведение равно 0,001 или 0,1%.
Ну сами посудите. При таком подходе вероятность противоположного события ("Леонид Борисович Сапожников - НЕ еврей") должна была бы считаться как 0.9*0.9*0.9=0.729. А ведь в сумме эти две вероятности должны давать единицу.
Ну, что ж, давайте совершим небольшой экскурс в теорию вероятности, благо, еще и полувека не прошло, как нам ее читали на 2 курсе, и тема способствует. Кроме событий, рассмотренных мной и Вами, есть и другие вероятные исходы.
Когда одновременно совпадает одно событие, а два других - нет, то вероятность таких исходов 3*0,1*0,9*0,9=0,243.
Когда одновременно совпадают два события, а третье - нет, то вероятность таких исходов 3*0,1*0,1*0,9=0,027.
Теперь сложим 0,001+0,243+0,027+0,729, и будет нам с Вами счастье в виде полноценной единицы общей вероятности.
Попутно, еще и на Юлину реплику ответ: вероятность одновременного совпадения всех трех событий сразу - 0,001,
вероятность совпадения хотя бы одного события из трех - 0,001+0,243+0,027=1-0,729=0,271.

Но на самом деле я по-прежнему не вижу никакой практической пользы в этих оценках. Может, конечно, когда Михаил раскроет свой секрет, мое мнение изменится.
michael_frm_jrslm писал(а):А причем тут "чистота кровей"?
А что касается "чистоты крови", то, конечно, это словосочетание изначально должно было быть в кавычках, я его использовал только для обозначения вероятных исходов гипотетического эксперимента.